2026-06-17 17:26

智源大会上，11位研究者的争论：到底什么是“世界模型”？

速览

本文来自微信公众号：霞光AI实验室，作者：霞光AI实验室

过去几个月，具身智能与世界模型成为资本最偏爱的赛道：具身智能+机器人赛道上半年共发生288起融资事件，超460亿元——比2023大模型赛道的融资热度更狂热。

巨大的资金涌入，造就了这个赛道的百花齐放：不完全统计，今年上半年在公开报道中宣称自己是“世界模型”的企业就有30余家，其中既包含当下最火热的具身大模型，也包含3D生成大模型，以及一些多模态视频生成大模型，甚至还有游戏公司也在往世界模型的路上赶。

在近日举办的2026智源大会上，昆仑万维旗下Skywork首席科学家刘扬感慨道，业内对“世界模型”的定义混乱远超普遍认知——视频生成、3D表征、交互式模拟器等都被冠以“世界模型”。

而与此同时，这些模型之间的“刷榜”竞争也日趋激烈。从2月至今的4个月里，全球具身世界模型评测基准WorldArena的榜首至少换了6次手——每个模型登顶的窗口期，短则一周，长则一个月。

即便这些模型已经在榜单夺冠，但在北京智源人工智能研究院院长王仲远看来，“目前所有夺冠的模型，都还不是未来真正的世界模型。”

在霞光AI感受下来，行业最顶级的专家在智源大会上对世界模型的争论，恰恰反映了世界模型最需要的一件事情——寻找共识。

以下，霞光AI对此次智源大会上11位嘉宾对世界模型的观点进行整理。这些碰撞的观点，或许就孕育着世界模型的共识。

什么是真正的世界模型？

黄铁军（智源研究院理事长）

真正的世界模型必须满足两个条件：

1.拥有多传感器输入（视觉、听觉、触觉等）

2.在尽可能多的物理输入下对未来做出精准的物理推测

核心观点:

世界模型是通用人工智能最重要的部分，如同大脑之于身体。
纯数字模型不需要遵守物理定律，因此不能称之为世界模型。
机器人需要观察和用力，必须对世界有自己的模型。就像人脑小宇宙中，每个人都对世界有一个模型，做事时才有基本判断依据。

王仲远（智源研究院院长）

当前世界模型分为四类，每类都有根本局限——

以语言为中心（VLM/VLA）：学到的是语言描述的世界，不理解物理后果。"杯子掉地上会碎"这句话知道，但碎片往哪飞不知道；
以像素为中心（Sora、Seedance等）：学到的是像素描述的世界，它最大的问题是“只承诺拟真，不承诺正确”；
以三维结构为中心（World Labs等）：重建3D空间≠理解世界，几何结构≠物理状态；
以视觉表征为中心（JEPA系列）：视觉嵌入演化≠物理规律演化。

核心观点：

现在世界模型领域所有夺冠的模型，都还不是未来真正的世界模型。
现有评测以视频生成为重点，不代表世界模型作为基座模型的核心能力。
人工智能正在发生一场重大的范式变革，其核心是从预测下一个Token（Next-Token Prediction）演进到预测下一个状态，特别是物理状态。

陈博远（逆矩阵创始人、智源世界模型创新中心负责人）

对主流路线的逐一批判：

李飞飞路线（3D重建）：解决的是空间问题“世界长什么样”，而不是物理问题“世界怎么运转”；
Yann LeCun路线（JEPA，隐空间表征学习）：隐空间里学到的表征对不对，缺乏公认的评估方法——像素生成好坏，人眼可直接判断；隐空间表征的正确性，至今无解；
视频生成路线：能生成流畅动画，但存在穿模、违反物理规律等现象，达到了“好看”，但不是“物理正确”。世界模型必然经历从架构到数据的整套算法改变。

核心观点：

做世界模型，最核心的问题是：模型学到的到底是相关性，还是因果性？
仅靠观察无法区分相关性和因果性，必须通过主动干预验证。以杯子实验为例：模型从海量视频中学到“桌子有引力把杯子吸住”（统计规律），但把杯子移到桌沿外面，这个假设立刻被推翻。真正的原因是重力，而不是桌子的引力。
优先关注物理正确性，才符合Physical AI的需求。

沈宇军（蚂蚁灵波科技首席科学家）

核心观点：

数字世界更多是视角和导航的交互，具身世界必须处理真实操作和物体状态变化。
对于物理世界的世界模型来说，我们并不一定需要它真的理解物理（定律）。我说的不理解物理，是指它不一定要理解牛顿三定律，不一定要精确计算加速度、摩擦力这些东西。

高深远（香港科技大学博士、英伟达GEAR）

核心观点：

Sora类模型让“世界模型”概念出圈，但它们本质上是视频生成，不是真正的决策类世界模型。
世界模型从上往下可以分成两类。最high level的是用一个model模拟环境去做决策；另一类是做基模、多模态，有world knowledge，能回答各种问题，也叫世界模型。
应从action/condition/world state三个核心要素精确界定世界模型，反对buzzword式的模糊使用。
Action就是对世界的一个干预。世界状态可以是画面或其他表示，Action输入之后，会对这个世界产生影响。
现在还不能假设机器人部署到任何环境里都互相通信，所以自身的世界模型还是最基础的路径。

朱政（极佳视界联合创始人、首席科学家）

核心观点：

3D空间理解是具身智能的前提，但仅有几何结构远远不够——需要叠加物理属性（质量、摩擦系数、弹性等）才能真正成为具身基础模型。
具身基础模型的突破，关键在于物理世界数据的规模化采集与高质量标注，纯仿真无法替代真实物理交互的经验积累。

陈德龙（香港科技大学博士生、METAFAIR）

核心观点：

世界模型不应在像素层面建模世界，而应在抽象语义-视觉联合表征空间中进行——这既能降低计算成本，又能提取更本质的世界规律。

真正世界模型的实现路径

刘扬（Skywork昆仑万维首席科学家）

核心观点：

下一帧画面状态生成+人类动作指令生成应联合训练，而非分而治之。实验表明联合训练对状态理解和预测均带来显著提升。
世界模型不应只是一个仿真器，而应是一个联合训练的统一模型——对状态与动作同时理解、同时生成，根据应用场景自由组合。
数据是决定世界模型能力的下限。

陈博远（逆矩阵创始人、智源世界模型创新中心负责人）

核心观点：

物理世界一定有自己的Scaling Law，但绝不能沿用语言模型或视频生成的Scaling Law。

世界模型今天面对的核心问题还不是工程问题，是科学问题：怎么让模型真正学到物理因果。

早期有人做法律大模型、金融大模型等垂类，最后发现真正有效的方式是先训一个通用基座，再在上面微调适配。垂直模型天花板很低，通用模型才有涌现的可能。

郭春超（腾讯混元3D与世界模型负责人）

世界模型商用的三大核心瓶颈：

数据短板突出。视频世界模型缺乏精准物理标注，仅能完成基础位移、事件标注，无法复刻真实物理规律，精细场景模拟极易出错；而纯3D资产数据体量远低于互联网视频数据，纯3D模型训练难以达到理想效果。
评测体系缺失。目前行业没有统一、全面的世界模型评估标准，相较于视觉画质，可交互性、物理准确性才是世界模型的核心评价指标，尤其在互动娱乐场景中，画质与精准度缺一不可，但对应的成熟评测体系至今尚未建立。
世界规律建模精度不足。现有模型仅能实现模糊的场景规律模拟，可完成物品抓取、简单动作等基础操作，但面对穿针引线、精准穴位按摩等高精度规律任务，能力严重不足。这种“模糊正确”的能力，无法支撑行业实现真正的生产力飞跃。

核心观点：

二维像素空间无法真正表达遮挡、深度、材质等物理属性，3D几何空间才是物理世界建模的恰当媒介。3D世界模型的演进路径是“生成→预测→交互”。
当前3D生成行业类比LLM中GPT2-GPT3之间，接近GPT3。
2026年成为世界模型爆发元年。目前行业技术路线呈现百家争鸣的态势，尚未形成统一的技术标准与最优架构。
完整的世界模型并非单一模型，而是包含数据生产、工程优化、实时加速、渲染交互的复杂链路，技术落地难度极高。
空间智能与语言智能并非相互割裂，最终必然走向深度融合。

王昊（自变量机器人联合创始人、CTO）

核心观点：

所有的智能都是在特定尺度下涌现出来的。要实现多模态基础模型，需要找到不同模态各自表示的尺度，再加上规模化，最终才能通向多模态基础模型。
传统世界模型以固定频率预测下一帧，大部分时间环境无显著变化——真正的“事件”（接触、碰撞、状态变化）才是关键。
以事件为尺度做变长分割，能够实现对三个模态的天然统一。

孙振国（星源智联合创始人、智源研究院具身交互世界模型实验室负责人）

核心观点：

世界模型的真正价值不在“生成未来给人看”，而在“反馈给机器人用于改动作”。
世界模型不应该只在训练时预测未来，而应该真正参与动作生成。
一个无法通过实际交互验证的世界模型，其预测是不可信的。
具身模型的终极目标应是从一次性的预测，走向持续感知、想象、修正，并从真实交互中更新自己。
如果世界模型只是作为训练信号的约束，那它只发挥了10%的性能；只有让它参与到改变动作的环节，形成闭环，才能释放其最大价值。

数据与标准之争

王昊（自变量机器人联合创始人/CTO）

核心观点：

所有交互式学习和强化学习，最重要的数据都来自于真机。
自变量会坚持真机采集，这是最重要的数据来源。
随着模型规模扩大，2026年会越来越依赖于Ego-Centric的方式采集数据——通过在真人头上佩戴摄像头等传感器，让AI通过第一人称视角来学习人类如何与真实世界交互。
Ego-Centric一定是个大趋势，但要和真机采集形成很好的配比，这个数据策略会决定模型的上限。
尽早用人机协作的方式让闭环跑起来。先用高质量数据、大规模训练构建基础模型，然后放到真实环境中。
一旦建立规模化效应，当你投入10倍资源取得领先时，资源聚集效应会越来越明显。你会以数量级的优势在速度上超越别人，后来者要追上需要花数倍资源的增加。

沈宇军（蚂蚁灵波科技首席科学家）

核心观点：

VLA有它的价值，而且这个价值不是世界模型现在能完全替代的。VLA帮助整个行业在机器人数据这件事上往前迈了一步。
单独的VLA和世界模型，都不会是具身智能的终局。当机器人数据量积累到一定程度时，这两条路线一定会深度融合。
具身智能需要自己的原生数据，也需要自己的原生架构。它不是一个已有模型在具身数据上继续训练一下就可以。
安全最终也会通过某种数据形式训练到模型里。
什么时候能有一个数据标准，让我们每天的行为都可以成为训练机器人的数据。当人人都能为机器人产生数据的时候，在我看来，那就是具身智能的ChatGPT时刻。

下一代具身世界模型的三大铁律：

因果性。机器人执行过程中，时间永远只能往前走，它不可能先做完任务，再回头看未来信息。
异步推理。推理一定是异步的，机器人不能等它想完再执行。
不追求完美预测。做具身世界模型时，没有必要要求模型把所有东西都预测得特别完美。它不完美也可以，因为机器人看到的东西是真的。

黄铁军（智源研究院理事长）

核心观点：

建数据工厂、使用机器人或人类控制机器人采集数据，成本不合理；更好的方式是边工作边采集，工人戴上设备正常工作，数据同步完成。
现阶段很多机器人远程操控采数的模式，成本太高并不现实。最优的方案，是在人们正常工作、生活的过程中同步采集数据。

孙振国（星源智联合创始人、智源研究院具身交互世界模型实验室负责人）

核心观点：

一个数据采集人员工作8小时，最终能够留下来的高质量有效数据，可能只有3小时左右。原因很简单，机器人会出错，操作人员会出错，环境会发生变化，很多数据最终并不能直接用于模仿学习训练。

王仲远（智源研究院院长）

核心观点：

现有评测以视频生成为重点，不代表世界模型作为基座模型的核心能力。
当前所有benchmark都在测“生成质量”，没有一个在测“物理理解”。开冰箱、开洗衣机、开微波炉——这些听起来很基础的场景，目前没有模型能稳定通过。
智源计划2026年下半年推出自有世界模型评测框架。核心评测标准：“它能不能预测真实物理世界的下一个状态？”

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技