
本文来自微信公众号: 霞光AI实验室 ,作者:霞光AI实验室
过去几个月,具身智能与世界模型成为资本最偏爱的赛道:具身智能+机器人赛道上半年共发生288起融资事件,超460亿元——比2023大模型赛道的融资热度更狂热。
巨大的资金涌入,造就了这个赛道的百花齐放:不完全统计,今年上半年在公开报道中宣称自己是“世界模型”的企业就有30余家,其中既包含当下最火热的具身大模型,也包含3D生成大模型,以及一些多模态视频生成大模型,甚至还有游戏公司也在往世界模型的路上赶。
在近日举办的2026智源大会上,昆仑万维旗下Skywork首席科学家刘扬感慨道,业内对“世界模型”的定义混乱远超普遍认知——视频生成、3D表征、交互式模拟器等都被冠以“世界模型”。
而与此同时,这些模型之间的“刷榜”竞争也日趋激烈。从2月至今的4个月里,全球具身世界模型评测基准WorldArena的榜首至少换了6次手——每个模型登顶的窗口期,短则一周,长则一个月。
即便这些模型已经在榜单夺冠,但在北京智源人工智能研究院院长王仲远看来,“目前所有夺冠的模型,都还不是未来真正的世界模型。”
在霞光AI感受下来,行业最顶级的专家在智源大会上对世界模型的争论,恰恰反映了世界模型最需要的一件事情——寻找共识。
以下,霞光AI对此次智源大会上11位嘉宾对世界模型的观点进行整理。这些碰撞的观点,或许就孕育着世界模型的共识。
什么是真正的世界模型?
黄铁军(智源研究院理事长)
真正的世界模型必须满足两个条件:
1.拥有多传感器输入(视觉、听觉、触觉等)
2.在尽可能多的物理输入下对未来做出精准的物理推测
核心观点:
世界模型是通用人工智能最重要的部分,如同大脑之于身体。
纯数字模型不需要遵守物理定律,因此不能称之为世界模型。
机器人需要观察和用力,必须对世界有自己的模型。就像人脑小宇宙中,每个人都对世界有一个模型,做事时才有基本判断依据。
王仲远(智源研究院院长)
当前世界模型分为四类,每类都有根本局限——
以语言为中心(VLM/VLA):学到的是语言描述的世界,不理解物理后果。"杯子掉地上会碎"这句话知道,但碎片往哪飞不知道;
以像素为中心(Sora、Seedance等):学到的是像素描述的世界,它最大的问题是“只承诺拟真,不承诺正确”;
以三维结构为中心(World Labs等):重建3D空间≠理解世界,几何结构≠物理状态;
以视觉表征为中心(JEPA系列):视觉嵌入演化≠物理规律演化。
核心观点:
现在世界模型领域所有夺冠的模型,都还不是未来真正的世界模型。
现有评测以视频生成为重点,不代表世界模型作为基座模型的核心能力。
人工智能正在发生一场重大的范式变革,其核心是从预测下一个Token(Next-Token Prediction)演进到预测下一个状态,特别是物理状态。
陈博远(逆矩阵创始人、智源世界模型创新中心负责人)
对主流路线的逐一批判:
李飞飞路线(3D重建):解决的是空间问题“世界长什么样”,而不是物理问题“世界怎么运转”;
Yann LeCun路线(JEPA,隐空间表征学习):隐空间里学到的表征对不对,缺乏公认的评估方法——像素生成好坏,人眼可直接判断;隐空间表征的正确性,至今无解;
视频生成路线:能生成流畅动画,但存在穿模、违反物理规律等现象,达到了“好看”,但不是“物理正确”。世界模型必然经历从架构到数据的整套算法改变。
核心观点:
做世界模型,最核心的问题是:模型学到的到底是相关性,还是因果性?
仅靠观察无法区分相关性和因果性,必须通过主动干预验证。以杯子实验为例:模型从海量视频中学到“桌子有引力把杯子吸住”(统计规律),但把杯子移到桌沿外面,这个假设立刻被推翻。真正的原因是重力,而不是桌子的引力。
优先关注物理正确性,才符合Physical AI的需求。
沈宇军(蚂蚁灵波科技首席科学家)
核心观点:
数字世界更多是视角和导航的交互,具身世界必须处理真实操作和物体状态变化。
对于物理世界的世界模型来说,我们并不一定需要它真的理解物理(定律)。我说的不理解物理,是指它不一定要理解牛顿三定律,不一定要精确计算加速度、摩擦力这些东西。
高深远(香港科技大学博士、英伟达GEAR)
核心观点:
Sora类模型让“世界模型”概念出圈,但它们本质上是视频生成,不是真正的决策类世界模型。
世界模型从上往下可以分成两类。最high level的是用一个model模拟环境去做决策;另一类是做基模、多模态,有world knowledge,能回答各种问题,也叫世界模型。
应从action/condition/world state三个核心要素精确界定世界模型,反对buzzword式的模糊使用。
Action就是对世界的一个干预。世界状态可以是画面或其他表示,Action输入之后,会对这个世界产生影响。
现在还不能假设机器人部署到任何环境里都互相通信,所以自身的世界模型还是最基础的路径。
朱政(极佳视界联合创始人、首席科学家)
核心观点:
3D空间理解是具身智能的前提,但仅有几何结构远远不够——需要叠加物理属性(质量、摩擦系数、弹性等)才能真正成为具身基础模型。
具身基础模型的突破,关键在于物理世界数据的规模化采集与高质量标注,纯仿真无法替代真实物理交互的经验积累。
陈德龙(香港科技大学博士生、METAFAIR)
核心观点:
世界模型不应在像素层面建模世界,而应在抽象语义-视觉联合表征空间中进行——这既能降低计算成本,又能提取更本质的世界规律。
真正世界模型的实现路径
刘扬(Skywork昆仑万维首席科学家)
核心观点:
下一帧画面状态生成+人类动作指令生成应联合训练,而非分而治之。实验表明联合训练对状态理解和预测均带来显著提升。
世界模型不应只是一个仿真器,而应是一个联合训练的统一模型——对状态与动作同时理解、同时生成,根据应用场景自由组合。
数据是决定世界模型能力的下限。
陈博远(逆矩阵创始人、智源世界模型创新中心负责人)
核心观点:
物理世界一定有自己的Scaling Law,但绝不能沿用语言模型或视频生成的Scaling Law。
世界模型今天面对的核心问题还不是工程问题,是科学问题:怎么让模型真正学到物理因果。
早期有人做法律大模型、金融大模型等垂类,最后发现真正有效的方式是先训一个通用基座,再在上面微调适配。垂直模型天花板很低,通用模型才有涌现的可能。
郭春超(腾讯混元3D与世界模型负责人)
世界模型商用的三大核心瓶颈:
数据短板突出。视频世界模型缺乏精准物理标注,仅能完成基础位移、事件标注,无法复刻真实物理规律,精细场景模拟极易出错;而纯3D资产数据体量远低于互联网视频数据,纯3D模型训练难以达到理想效果。
评测体系缺失。目前行业没有统一、全面的世界模型评估标准,相较于视觉画质,可交互性、物理准确性才是世界模型的核心评价指标,尤其在互动娱乐场景中,画质与精准度缺一不可,但对应的成熟评测体系至今尚未建立。
世界规律建模精度不足。现有模型仅能实现模糊的场景规律模拟,可完成物品抓取、简单动作等基础操作,但面对穿针引线、精准穴位按摩等高精度规律任务,能力严重不足。这种“模糊正确”的能力,无法支撑行业实现真正的生产力飞跃。
核心观点:
二维像素空间无法真正表达遮挡、深度、材质等物理属性,3D几何空间才是物理世界建模的恰当媒介。3D世界模型的演进路径是“生成→预测→交互”。
当前3D生成行业类比LLM中GPT2-GPT3之间,接近GPT3。
2026年成为世界模型爆发元年。目前行业技术路线呈现百家争鸣的态势,尚未形成统一的技术标准与最优架构。
完整的世界模型并非单一模型,而是包含数据生产、工程优化、实时加速、渲染交互的复杂链路,技术落地难度极高。
空间智能与语言智能并非相互割裂,最终必然走向深度融合。
王昊(自变量机器人联合创始人、CTO)
核心观点:
所有的智能都是在特定尺度下涌现出来的。要实现多模态基础模型,需要找到不同模态各自表示的尺度,再加上规模化,最终才能通向多模态基础模型。
传统世界模型以固定频率预测下一帧,大部分时间环境无显著变化——真正的“事件”(接触、碰撞、状态变化)才是关键。
以事件为尺度做变长分割,能够实现对三个模态的天然统一。
孙振国(星源智联合创始人、智源研究院具身交互世界模型实验室负责人)
核心观点:
世界模型的真正价值不在“生成未来给人看”,而在“反馈给机器人用于改动作”。
世界模型不应该只在训练时预测未来,而应该真正参与动作生成。
一个无法通过实际交互验证的世界模型,其预测是不可信的。
具身模型的终极目标应是从一次性的预测,走向持续感知、想象、修正,并从真实交互中更新自己。
如果世界模型只是作为训练信号的约束,那它只发挥了10%的性能;只有让它参与到改变动作的环节,形成闭环,才能释放其最大价值。
数据与标准之争
王昊(自变量机器人联合创始人/CTO)
核心观点:
所有交互式学习和强化学习,最重要的数据都来自于真机。
自变量会坚持真机采集,这是最重要的数据来源。
随着模型规模扩大,2026年会越来越依赖于Ego-Centric的方式采集数据——通过在真人头上佩戴摄像头等传感器,让AI通过第一人称视角来学习人类如何与真实世界交互。
Ego-Centric一定是个大趋势,但要和真机采集形成很好的配比,这个数据策略会决定模型的上限。
尽早用人机协作的方式让闭环跑起来。先用高质量数据、大规模训练构建基础模型,然后放到真实环境中。
一旦建立规模化效应,当你投入10倍资源取得领先时,资源聚集效应会越来越明显。你会以数量级的优势在速度上超越别人,后来者要追上需要花数倍资源的增加。
沈宇军(蚂蚁灵波科技首席科学家)
核心观点:
VLA有它的价值,而且这个价值不是世界模型现在能完全替代的。VLA帮助整个行业在机器人数据这件事上往前迈了一步。
单独的VLA和世界模型,都不会是具身智能的终局。当机器人数据量积累到一定程度时,这两条路线一定会深度融合。
具身智能需要自己的原生数据,也需要自己的原生架构。它不是一个已有模型在具身数据上继续训练一下就可以。
安全最终也会通过某种数据形式训练到模型里。
什么时候能有一个数据标准,让我们每天的行为都可以成为训练机器人的数据。当人人都能为机器人产生数据的时候,在我看来,那就是具身智能的ChatGPT时刻。
下一代具身世界模型的三大铁律:
因果性。机器人执行过程中,时间永远只能往前走,它不可能先做完任务,再回头看未来信息。
异步推理。推理一定是异步的,机器人不能等它想完再执行。
不追求完美预测。做具身世界模型时,没有必要要求模型把所有东西都预测得特别完美。它不完美也可以,因为机器人看到的东西是真的。
黄铁军(智源研究院理事长)
核心观点:
建数据工厂、使用机器人或人类控制机器人采集数据,成本不合理;更好的方式是边工作边采集,工人戴上设备正常工作,数据同步完成。
现阶段很多机器人远程操控采数的模式,成本太高并不现实。最优的方案,是在人们正常工作、生活的过程中同步采集数据。
孙振国(星源智联合创始人、智源研究院具身交互世界模型实验室负责人)
核心观点:
一个数据采集人员工作8小时,最终能够留下来的高质量有效数据,可能只有3小时左右。原因很简单,机器人会出错,操作人员会出错,环境会发生变化,很多数据最终并不能直接用于模仿学习训练。
王仲远(智源研究院院长)
核心观点:
现有评测以视频生成为重点,不代表世界模型作为基座模型的核心能力。
当前所有benchmark都在测“生成质量”,没有一个在测“物理理解”。开冰箱、开洗衣机、开微波炉——这些听起来很基础的场景,目前没有模型能稳定通过。
智源计划2026年下半年推出自有世界模型评测框架。核心评测标准:“它能不能预测真实物理世界的下一个状态?”
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。