
本文来自微信公众号: InfoQ ,作者:QCon
人工智能的现状与未来
过去几年,人工智能的发展呈现出几个清晰的技术趋势。一方面,模型规模从小变大,参数量级持续攀升,能力边界不断扩展。另一方面,AI的核心任务从感知逐步转向生成,从识别图像中的物体发展到直接创造新的视觉内容。与此同时,智能的形态也开始从离身智能转向具身智能,从纯粹的信息处理走向物理世界的交互。在我们看来,由于发展速度太快,业界必须直接思考人工智能的终局是什么,或者说人类生产力革命的终局是什么。我们与大量同行、投资机构在半年间进行了广泛讨论,大家达成了一项共识:这很可能就是最后一次生产力革命。既然是最后一次,定义清楚终极形态就变得至关重要。

那么,这个终局的图景是什么样的?我们的判断是:语言智能或者说AI的生成能力一定会在五到十年内将虚拟空间中一切能够替代的事情替代掉。当虚拟空间被完全覆盖之后,下一步必然会辐射到物理空间。即便我们不确定辐射到物理空间需要多长时间,保守估计五十年之后物理空间大概率也会被AI全面覆盖。这个趋势一定会发生。然而,在这个趋势中存在一个关键环节:虽然大语言模型具备了很高的智能能力,但它“只会说不会做”,缺乏从认知到物理执行的闭环。这里我们强调的不是狭义的具身智能,而是更广义的闭环。我们对具身智能的定义是从observation生成action,但完整的智能系统还需要一个反向的通道——如何从action去预知或推演尚未发生的observation。这正是世界模型要发挥的核心作用。
世界模型:机遇与挑战
世界模型这一概念在学术史上由来已久。早在1945年,心理学领域就出现了关于从行动推演观测结果的思想,但当时停留在虚拟层面,没有具象化。直到最近几年,一系列标志性技术成果陆续浮现:2023年出现的Sora、Google的Genie Three,以及李飞飞团队World Lab推出的Marble,逐步将世界模型的概念从抽象推向具象。如果我们将世界模型的功能定位为提供从action到observation的闭环,那么它的本质就是从认知到物理世界的连接。基于这一定位,我们对理想世界模型提出了三项功能期待:第一,它应当能够推演未来,包含因果知识,而不是简单的像素预测;第二,它不能仅仅是视觉上的因果关系,必须内化大量物理学规律,能够理解重力、摩擦力、碰撞等物理现象;第三,它的表现形式应当是丰富的,因为世界模型本身是抽象的存在,可以借助2D图像去观测,也可以进行物理层面的交互。理想的世界模型应该是一个丰富的存在,能够与我们每一种观测和交互形式无缝对接。
当我们在2023年底开始系统性地思考世界模型的实现路径时,业界刚刚出现了一项重要技术——3D Gaussian Splatting。这篇发表于2023年中的论文提出了一种高质量、显式表达的三维重建方法,在当时引起了广泛关注。我们判断,无论三维重建能否预测未来,它起码提供了一种能够“摸得着”的世界表达形式。李飞飞团队的Marble虽然最终呈现形式是漫游式的场景浏览,但其底层实际上直接采用了3D Gaussian作为显式表达的基元。通过多视图图像输入,系统就能重建出一个完整的场景。但这条路径存在一个根本性问题:虽然拥有显式的几何表达,物体在视觉上可以触碰,但它完全“动不了”,无法进行推演和物理交互,因为场景中的所有物体都被粘连在一起,缺乏独立的物理实体属性。这是第一条技术路线。

第二条路线来自游戏产业和图形学领域多年积累的经验。物理引擎和图形学引擎,比如Unity、Maya、ZBrush,一直支撑着图形学工程师和游戏美术师创作各种游戏世界和虚拟空间。甚至在航空航天领域,动力学仿真也依赖工程师借助类似工具完成。在2023年这个时间节点,这或许也是一条通往世界模型的途径——通过程序化生成的方式,借助简单的语言描述或参数化输入,就能生成各类资产,同时赋予它们符合物理学规律的行为能力。这条路线最大的优势在于输出结果与工业管线天然兼容,可以直接导入物理仿真引擎进行交互测试。


第三条路线则是近几年基于视频生成的路径,以Sora为代表的一系列工作。这条路线的问题是“看得见但摸不着”,而且很难保持几何上的一致性和时间上的一致性。所谓几何一致性,是指一个物体从某个方向走过去看到的样子,退回来之后应该保持一致;从正面看到的形态和从侧面渲染出来的结果不能产生明显的偏差。所谓时间一致性,是指从一个位置往前走五步看到的内容,退回来时应当与之前一致。但这些基于视频生成的方法归根结底仍然是视频生成的逻辑,缺乏任何几何约束来维持时空一致性。当时业界并不知道最终解决方案是什么,我们决定三条路线齐头并进,团队也确实在每条路径上都进行了深入的研判和探索。

三维重建
在大规模场景重构这条路径上,我们率先开展了业界最早的大规模场景重建工作。到现在,几乎所有城市级大规模场景重建的benchmark和baseline都建立在我们的工作基础之上。我们的核心思路是:如何通过无人机飞一圈、拍摄两百多张照片,就将一个城市以显式模型的方式完整建模出来。这个过程面临巨大的计算挑战,存在大量冗余运算和内存爆炸的问题。我们通过LOD等多层次细节机制,构建出大规模场景重建的工程框架。用户只需要输入多视图的observation数据,系统就能输出显式的场景表达,支持自由漫游。但从终局视角来看,这仅仅是在三维高斯路径上迈出的一小步,距离真正的世界模型还非常遥远。这直接推动了我们的下一项工作——三维高斯V2版本。

在3D Gaussian Splatting的原始表达中,存在一个根本性的设计取向问题:它是为渲染而存在的,是为视觉质量而存在的。它的目标是在新视角下呈现出逼真的视觉效果,追求的是渲染质量的最大化。但它的显式表达实际上非常模糊。当观察者拉近视角时,会看到大量模糊的椭球状高斯体,这些高斯体在视觉上可能与真实物理世界存在很大差距,更不用说进行物理交互了。因此我们开始思考,能否仅通过多视图图像这样的视觉信息,就呈现出与真实世界高度近似的几何表达。为此,我们在训练过程中引入了大量的normal map约束以及物理和几何层面的约束,成功将几何结构优化到相当理想的水平。以操场场景为例,我们重建出的几何结构非常规整,地面平整度极高。而对比其他方法,无论是出现各种artifact还是几何扭曲,差异都非常明显。在几何质量大幅提升的前提下,渲染质量依然得到了很好的保持。

但这仍然不够。因为我们思考的是终局场景,不仅要覆盖城市规模的重建,还要走向能够交互、能够接触的物理空间。一个物体看起来表面非常平整,并不代表在进行物理模拟时能够达到足够好的仿真效果——如果底层几何结构本身就存在微小的不规则性,物理仿真依然无法达到理想状态。因此我们又往前走了一步,将几何先验或者说planar先验引入到系统之中。我们利用大量平面检测方法,将平面结构约束整合进高斯表达中,使得几何结构更加精细、更加规整,并且能够直接转换为结构化的网格表达。

这项改进带来了显著的好处。有一个非常直观的例子:我们将重建出的场景导出到物理仿真引擎中,直接进行物理学推演测试。比如,经过我们方法处理后的平面,当施加一个向左的拉力时,物体可以非常平滑地移动,说明在物理模拟层面这个平面确实是平的。但另一个箱子场景,虽然肉眼看平面非常平整,推的时候却完全拉不住,因为表面之下存在着大量肉眼难以观察到的几何不规则结构。即便如此,我们认为这还远远不够,因为场景仍然缺少物理属性——摩擦系数、金属度、光滑度、粗糙度等关键参数都没有被赋予。
为此,我们进一步开展了Material三维方面的工作。核心问题是:重建出来的场景能否被赋予完整的物理属性?金属度、光滑度、粗糙度、摩擦力这些参数应该从哪里来?问题的难点在于,人看到的是二维图像,虽然可以从中识别出材质信息,但如何将2D材质认识映射到3D空间中的对应位置?我们回归到图形学和游戏建模的思路:材质真正接触的是物体表面,因此可以通过UV映射将表面积展开。在多视图的场景下,如果将2D图像中的材质分割信息和语义认识聚合投射到3D UV空间中,就能使整个资产的每一个部分都明确知道自己是什么材质。一旦确定了材质类型,每种材质球对应的摩擦力、金属度、光滑度等物理参数就可以直接赋值。至此,我们的场景重建工作阶段性走到了这一步。

图形引擎
在推进高斯重建路径的同时,我们在2024年初判断图形学引擎这条路线也必须同步推进。做出这个判断的逻辑非常清晰:基于高斯生成的方法,因为根源上是generation的方法论,与工业管线完全无法对接,既不能导入传统的TXM工具,也难以进行各类物理仿真。而最直接能够对接物理仿真的方式,恰恰是通过图形学引擎——例如Unity制作出来的场景可以无缝导入到各类物理仿真系统。但如果仅仅依靠人工方式建模,我们的工作与游戏美术师并没有本质区别,无法体现效率上的革命性提升。


视频生成
视频生成这条路线我们同样没有放弃。但作为学术研究组织,我们并不具备使用几十万张GPU去训练像Sora那样规模的视频生成模型的条件。将视频生成引入世界模型建设,存在一个核心定位问题:重建和生成,究竟以谁为主?我们一开始选择了相对稳健的步子,希望借助视频生成模型来帮助重建,而不是反过来用重建去约束视频模型。
这项工作的直接应用场景来自自动驾驶领域。目前,很多自动驾驶公司已经开始在闭环仿真中使用高斯表达作为仿真场景。但用高斯做仿真场景存在一个特有的问题:在我们的场景重建流程中,数据采集往往使用无人机从空中飞行,拍摄视角和采集视角非常理想,覆盖范围广且均匀。但对于自动驾驶车辆来说,相机只能沿着道路行驶,视角受到严格限制。在渲染或仿真时,经常需要获得路径偏下半米或者往上偏移一定角度的观测结果。在这种情况下,输入数据的分布并不理想,相当于要求在稀疏甚至非理想的视角条件下完成整个场景的三维空间建模,同时还要支持新视角合成。因此我们判断,一定要引入视频生成模型,起到refinement的作用。

我们的具体机制是:首先利用已有的路径数据对场景进行初步重建。这个初步重建的结果在新视角上——比如将视角往左推移一定距离——会出现各种退化和大量artifact。我们刻意构建出这些带有artifact的图像,然后专门训练一个视频生成模型来将这些退化修复回来,得到理想的高质量渲染结果。通过这种方式,虽然实际采集数据只沿着一条路径,但在新视角下的观测结果都能被有效refine。refine之后的图像又可以反过来用于新一轮的重建,通过这样反复迭代,将整个场景的质量逐步夯实。最终的效果是:只需要沿路采集数据,但用户可以在任何视角、任何视点下查看场景,都不会出现几何退化或artifact。这样的质量足以支撑自动驾驶仿真,甚至可以放入车辆模型,制作动态事件并进行反控计算。
4D世界模型
经过两年时间在多条技术路线上的并行探索,我们的最终目标指向了四维世界模型。二维世界模型缺乏三维和空间约束,这个不足是根本性的。我们理想中的生成结果不是一个2D视频,而是一个体视频数据——volumetric video。这意味着,生成出来的视频在任何视点、任何视角下观察到的内容都是一个立体的、有深度的存在。
要理解这个定位在整个行业中的位置,可以沿着face map来观察。从1D到2D再到3D,Marble已经用3D方式建立了场景模型,但Marble的问题在于虽然是显式表达,用户只能在场景中走来走去进行观测,场景本身没有动态的变化。我们追求的是四维世界模型:这里发生的是一个动态的、正在演进的事件,甚至可以说正在演一部电影,但这电影实际上是一个四维显式表达在运行。与此同时,观察者可以在任何一个视角下、从任何一个位置去观测这个电影中所发生的一切。这意味着系统必须同时满足动态性和自由视点两大要求。
实现这一目标面临极其严峻的技术挑战。最大的困难在于监督信号的缺失:互联网上存在的视频数据,压根无法提供足够的三维监督信息。如果是静态场景,可以通过多视图数据进行3D监督;如果是动态场景,目前3D generation model有自己特定的监督方式,video generation model也有自己的训练数据,但我们需要的是四维时空数据的监督,这种监督在现有数据集中几乎不存在。与此同时,还存在效率问题:如果采用传统的三维高斯或三维点云方式来逐帧处理,整个流水线的运算效率非常低,难以实用化。
好在前馈式网络的出现为效率提升带来了转机,例如VGG等前馈式重建网络已经展示了将重建过程大幅加速的潜力。我们的思路是各取所长:利用不同模型各自的优势,通过相互不断refine的迭代过程,最终收敛到一个四维的优质表达。这是我们近期的一项新工作,也是2026年CVPR的接收论文。
整个系统的输入可以是一个普通的2D视频,甚至是一张图片或一句文本描述,最终的输出是一个volumetric video——体视频。系统的核心由两个模型构成。第一个是前馈式四维生成模型,它的输入是单目2D视频,但输出直接是四维的高斯表达,包含三维高斯的基本几何信息,再加上时间维度的参数、生命周期和衰减期等时变属性,构成完整的四维显式表达。然而,这一步生成的结果仍然缺乏足够的几何约束,质量需要进一步提升。
因此我们引入了第二个模型——视频refinement模型。这个refinement的过程并不是在时间维度上进行的,而是在空间维度上展开。例如,对于某一帧画面,当我们进行motion control或camera control时,需要处理的问题是这样的:当前视角渲染出来的画面是经过验证的,但当观察视角向左偏移三十度时,新视角下看到的内容应该如何修正才能保证一致性?为了训练这个空间refinement模型,我们专门渲染了五百万对pair数据。整体的迭代流程是:训练完成两个模型之后,输入视频经前馈式模型直接生成四维高斯表达,然后利用这个高斯表达渲染出新视角的观测结果,再将这些结果送入refinement模型进行优化,优化后的结果又重新用于更新高斯表达。如此往复迭代,最终收敛到高质量的时空一致表达。

四维表达的关键区别在于:我们可以在这个“视频”中自由移动视点和自由改变视角,去观察场景中到底发生了什么。如果使用点云或高斯图来可视化,结果会更加直观。另一个标志性能力是bullet time效果:系统生成的视频自带bullet time特效,可以让时间流速自由变化的同时保持视点切换的完美连贯性。即便是输入仅有一张静态图像,系统也能直接生成用户可以自由漫游的动态场景。
更重要的技术价值在于:因为底层是四维显式表达,时空不一致性被从根本上消除了。观察者走过的任何地方,回头再看时都与之前看到的一模一样,这在传统2D视频生成模型中几乎是无法保证的。
这一技术特性对具身智能应用具有巨大价值。如果用传统2D世界模型或2D生成模型来为机器人提供运动轨迹,必须经过一个额外的逆解算步骤来获取空间轨迹——因为输入本身是2D的,但机器人的运动轨迹必然是3D甚至4D的,包含位置和方向信息。而当轨迹直接建立在四维显式表达之上时,点源和刚体直接变化的轨迹就是最原始的轨迹,不需要再引入任何inverse模型来解算。
回顾过去三年在世界模型方向上的探索历程,我们的体会是“千里之行始于足下”。这个过程极为艰辛。最初我们并不知道世界模型最终应该长成什么形态,甚至对它的定义都难以清晰把握。但从2023年开始,我们确实尝试了每一个可能的维度,每一条技术路径都进行了扎实的探索,一步一步地走到了现在,暂时地往前迈出了一小步。目前的四维表达仍然不够理想,而且系统仍然依赖于模型之间的相互迭代,并没有做到绝对的端到端。下一步,如果能够实现完全端到端的四维生成模型,那将是我们理想中的终极形态。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。