2026-06-12 22:10

世界模型太乱了……李飞飞有话说

author_path 世界科学
头图

本文来自微信公众号: 世界科学 ,作者:编译 蒋笃绘,原文标题:《世界模型太乱了……李飞飞有话说!》


2025年11月,李飞飞曾撰文指出,人工智能的下一片探索前沿是空间智能,即AI理解、构想、推理世界并与之交互的能力,而“世界模型”(World Models)则是机器获得这些能力的必经之路。


在今年6月初发布的最新文章里,李飞飞及其World Labs团队展开了更深层次的探讨:如今众多所谓的世界模型究竟由哪些功能模块构成?各类模块又如何运作、为何运作、未来将演进至何种形态?


01


世界不由语言组成,“世界是一切发生的事情”


语言模型赋予了机器在概念、词汇和推理上的非凡能力,但无论是现实抑或虚拟世界,其运行基于另一套底层原理。语言模型学习的是文本的统计结构,而世界模型钻研时空的统计规律:光线如何落至物体表面?物体如何受力运动并遵循物理定律?在从未有现实镜头能捕捉画面的视角下,景物是何样貌?


这也让“世界模型”一词成为当下AI世界最重大却也最负重担的术语之一。计算机视觉、机器人技术、强化学习、生成式AI等领域都宣称在打造世界模型,各自的技术内涵却大相径庭。


有的视频模型能生成绚丽而又违背物理规律的火焰,有的语言模型能即兴制作现制现玩的游戏,还有的物理引擎逼真模拟了燃烧现象……它们都被冠以“世界模型”之名。


古希腊先贤始终无法就“世界的本原”达成共识,有人认为是火,有人认为是水,还有人提出是不可分割的原子。究其原因,“世界”从来不是某个确切实体,而只是作为代名词,被不同的思考者用以指代各自推理所需的任意整体。如今AI领域也面临同样困境,且亟需关于世界模型的精确定义。


02


分类体系背后的运行闭环


欲解答疑问,我们要先从一个比前述所有技术更古老的图示说起,那就是“部分可观测马尔可夫决策过程”(POMDP)。数十年来,各类强化学习书籍,包括理查德·萨顿(Richard Sutton)与‌安德鲁·巴托(Andrew G.Barto)合著的经典之作,都在用这套模型描述智能体(Agent)与世界的交互过程。实际上,世界模型概念的最初定义正源于POMDP理论。(参阅:强化学习先驱萨顿:数据时代终将过时,AI将踏入社会,像人一样去体验世界)


与外界交互的智能体可以是人类、机器人,也可以是软件系统。它做出行动(action,或称“动作”),行动影响世界的状态(state),但智能体无法直接感知世界的真实状态,其所能获取的只有观测信息(observation,下文简称“观测”),比如投射至视网膜的光影、传感器采集的数据、视频画面里的像素等。新的观测指导智能体做出新的行动,如此循环往复。


关于世界的“状态”,有必要作仔细拆解,因为其含义因领域而异。首先,这是物理学和机器人学定义的“状态”,即对某一时刻世界全貌的完整描述,涵盖每一个物体、每一处位置、每一种速度、每一项属性……环境状态是世界的真实本质,理论上完整存在,却永远无法被身处其中的智能体直接观测。观测只是智能体对真实世界的局部感知,而行动是智能体基于感知做出的反馈。


“智能体→行动→状态→观测→智能体”的循环机制,赋予了源远流长的世界模型概念在现代语境下的技术内涵。此概念最早可追溯至肯尼思·克雷克(Kenneth Craik)于1943年提出的主张:人类大脑通过构建现实世界的“小尺度模型”来进行推理。到1980年代末至1990年代初,这种理念被引入神经网络领域。


时至今日,上述循环依然是解读世界模型的核心。当下各类可称世界模型的技术,本质上都是同一套循环的不同投影,各自输出该循环的不同片段。


03


世界模型的三大功能类型


第一类世界模型是渲染器(renderer)。渲染器以像素形式输出可供人眼观看的观测结果,其核心评价指标是视觉保真度。


不过它们并不具备对三维空间结构的显式理解,只能模拟人眼可见的画面而非事物真实样貌。举例来说,模拟航拍画面里的城市楼群从上空看很完美,倘若切换至接近地面、在建筑之间穿行的视角,画面就会有明显漏洞。


第二类世界模型是模拟器(simulator,也可称“仿真器”)。模拟器输出的是状态:一种在几何、物理、动态上忠实呈现世界的表征,可作为人类和计算机程序开展计算的基础、进行交互的对象。


如果说渲染器以视觉效果为宗旨,那么模拟器则为结构真实性而生——几何结构要经得起推敲、物理规律要遵循牛顿力学、动态演化要符合现实世界在物理规律支配下应有的样子。


模拟器的服务对象分为两类。


一方面,建筑师、设计师、影视创作者、游戏开发者等专业人群,需要远超视觉合理性的精确性;另一方面,强化学习智能体、机器人控制器、自动驾驶系统等程序,会将模拟器当作训练场,在其中与世界大规模地交互,测试那些若现实运行将很危险、昂贵或压根运行不了的场景。


第三类世界模型是规划器(planner)。给定一个观测和一个目标,规划器会回答“智能体接下来该做什么”。换言之,规划器输出的是行动。


从某种意义上说,规划器与渲染器互为逆过程。渲染器以行动为输入,输出观测,规划器则以观测为输入,输出动作,这不就实现了感知与行动之间的闭环?基于模型的系统、视觉-语言-动作模型以及新一代的世界动作模型(World Action Models),都属于规划器类别的创新系统——能让机器人在非结构化的复杂环境里自主决定行动。


上述三大类涵盖了目前已落地的大多数世界模型产品,而且这种区分在实际应用中也确有价值。不过我们要明白,三者并不相互割裂,因为关于世界如何运作的底层知识,即几何结构、物理规律和动态演化三个维度,也是这三类世界模型的基础。一个能从任意角度渲染杯子的模型,也理应能模拟杯子被推动后会发生什么,还能规划出一只手怎样拿起杯子。如今越来越多前沿研究正主动打破三者之间的边界。


04


模拟器为何是整个体系的核心


在三大类模块中,模拟器的大众关注度最低,却是影响最深远的。


当前商业化程度最高的是渲染器。大批文生图、文生视频产品正快速抢占消费市场和企业市场,谷歌的Nano Banana模型已为数以亿计的普通用户奉上渲染器生成的图像。技术很牢靠,市场摆在那儿。当然,渲染器短板相当明显,如前文所述,它优先追求视觉效果逼真,而非物理上的精准度,但是再精美的渲染画面也无法用于设计建筑或训练机器人。


规划器最为稚嫩同时也最引人遐想。它密切关联正飞速发展的机器人学习领域。过去两年,行业涌现不少效果亮眼的机器人演示视频,但客观来看,这些成果大多局限于条件严苛的实验室环境,任务流程简短,可供操纵的物体种类有限;而在现实世界的部署中,它们要面对多变环境、复杂状况、长时间工作等尚未经历的考验。


从演示集锦走向厨房、仓库和手术室的道路是艰险漫长的,不过资本对此的押注毫无保留,大批资金充裕的入局者竞相推出通用规划系统,各大头部的基础设施厂商则试图将规划功能构建在更完整的模拟基础设施之上。毕竟,能自主规划行动的机器人才具备实际工作能力——全行业都在竞逐此目标。


模拟器是连接渲染器与规划器的桥梁。如果说语言是对世界的抽象概括,像素是世界的视觉投影,那么几何结构、物理规律与动态演化,就是世界本身。模拟器的工作需立足于这样一个层面:它作为世界的结构性骨架,既能推导出视觉表象(供渲染器使用),也能推导出行动的结果(供规划器使用)。


一个精通模拟的模型,可将其对世界的理解投射为供人类感知的像素,或是供具身智能体使用的动作预测;只具备渲染或规划能力的模型做不到这两点。模拟器的商业覆盖面极为广阔,仅英伟达的Omniverse平台就瞄准了工厂、仓库、供应链、数字孪生等领域。据估算,相关潜在市场规模超万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程和药物研发等诸多领域,都离不开模拟器这一核心载体。


另一方面,该领域最为艰巨的技术难题也存在于模拟器中。


首先,带有显式几何、材料属性和物理标注的三维数据,其稀缺程度相较渲染器训练所用的网络视频素材高出数个数量级。


其次,模拟到现实的鸿沟(sim-to-real gap),即事物在模拟环境下的表现与在现实场景中的偏差,始终未能彻底解决。


再者,生成式模拟器还新增了一类风险,即AI生成的几何体可能看似正常,实则存在自相交、尺度错误等问题,这会导致不合物理规律的模拟结果。


最后,大规模多物理场模拟(刚体、可变形物体、流体、布料等多种对象相互作用)的计算成本比单领域模拟高出数个数量级。


05


消融的边界,空间智能的未来


当下最值得关注的行业趋势,是渲染器、模拟器、规划器三类模型正开始融合。业内已形成一个共识:渲染一个世界,模拟一个世界,在一个世界里行动——三者所需的底层知识高度重合。


回到前文那关于杯子的例子:真正理解杯子几何结构、材料属性、受力响应的模型,理应能从任意角度渲染出一个杯子,模拟它被推动后会发生什么,规划出用一只手将它拿起的过程。渲染、模拟与规划,本质上是同一套底层理解的三重投影。


近年来,部分机器人实验室的研究成果印证了上述理念。


各个层级的系统都在从被动输出转向交互式:渲染器开始支持根据动作输入动态生成画面,模拟器生成的世界更加可控、可编辑,规划器不再只是被动响应,而能主动地推演、决策。


我认为,上述发展趋势的逻辑终点是所谓的大统一世界模型,通俗而言:单个基础模型能渲染出如照片般逼真的画面,构建起精确合乎物理定律的三维结构,还能规划行动序列,并根据下游应用需求灵活切换输出模态。


我们的方向十分清晰。自1980年代末起,人工智能世界就已笃定信念:只要创建了足够完备的世界模型,智能体就能感知世界、构建世界、与世界互动。如今,这一理念正引领新一代研究浪潮。渲染、模拟和规划本是三条独立路线,如今各自都驱动千亿级产业,且正逐步融合为一。随着三者边界的消融,一个更宏大的格局,即机器智能与其所处物理世界之间的关系,也就是空间智能的长期演进轨迹,将被重塑。


语言让机器有能力描述世界,世界模型终将使机器理解、构想、推演世界,并与之交互。


资料来源:


A Functional Taxonomy of World Models

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。