扫码打开虎嗅APP
本文来自微信公众号:AI异类,编译:澜镜,原文标题:《“世界模型”能改变世界吗?李飞飞的世界实验室是啥?8000字看懂World Model演进史》,头图来自:视觉中国
Lightspeed 在美国投资AI公司的金额已经超过25亿美元。 从大模型到 AI 工具和应用,企业、医疗保健、金融技术、消费以及游戏和互动媒体……都有涉及。
之前分享过Lightspeed非常有纵深感的一些商业观察和技术思考,今天这篇内容则是关于世界模型的。

Lightspeed投资的AI项目
我想先说点感受到的现状——AI时代的财富分配可能只会进一步幂律分布。
人们平均拥有的财富大概会变多,基本生活保障会提高,但贫富差距只会更加悬殊。
互联网时代,仍然是劳动密集的,无论是电商、直播,还是短视频产品,背后都需要十万百万计的参与者,我们也见证了上一批的“造富运动”。
而AI独角兽的员工数量可能只需要个位数,普通的开发者和创作者暂时也很难分到蛋糕。
不管是DeepSeek、宇树,还是月之暗面,都只是极少数人影响多数人的游戏,甚至现阶段难以将AI称之为产业。
只需极少数的顶尖技术人员,即可取代大部分人的劳动价值;AI在生产力层面将会无限蚕食人的价值,以及意义感。
刘慈欣《赡养人类》中1个富人和99亿穷人的场景,可能会在AI时代真实上演。
不过,“世界模型”可能是人类的解药。
意义的编织、等级的划分、个性需求的满足,在现实里,想要获得“比较优势”是无解的。
比如我有王兴兴、梁文锋的微信,能看到他们的精彩,但是我几乎没有可能复刻他们的成功。
能看到天宫、看到天才,触手可及又望尘莫及,这是巨大的无解的无奈。
一切参差来自对比,一切意义来自建构。
但世界模型,可能是每个人都可以去编织的一张意义之网——在模拟世界的虚拟空间里,人人都是自己的王。
“人上人”永远是一种感觉,而这种感觉的营造者,将占领新的财富高地。
财富和共识,将逐渐向那个数字孪生的新世界去平移。
现实里永远无法超越的他,在虚拟世界也许会是你的忠实客户和粉丝;
生活里永远得不到的快乐和满足,在世界模型里也许更超乎你的想象……
如果1个地球上注定只能有1个富人和99亿穷人,假如有了99亿个地球,会怎样?
虽然眼下还只是AI视频之类的,看起来还不及抖音好玩,但也许这只是世界模型的前奏。
随着我们上网、和AI聊天越来越多,AI对游戏和交互式媒体的影响,不仅塑造了Lightspeed 的投资方式 (投了角色开发的Inworld、AI视频Pika、AI音乐Suno),而且深刻影响了人们的娱乐、工作和社交方式。
虽然我们对AI应用的开发、消费还处于早期阶段,但已经看到基础模型在各个模式下推动了巨大的经济价值,其中包括:
文本(例如,OpenAI ChatGPT、Anthropic Claude、xAI Grok 等);
音频和音乐(例如 Suno、ElevenLabs 等);
2D图像(例如 OpenAI DALL·E 3、FLUX.1、Stable Diffusion 3.5、Ideogram、Midjourney 等);
2D视频(例如 Pika 2.0、Sora、Runway Gen-3 Alpha、Luma Photon、Google DeepMind Veo 2 等)——也被视为“3D”(2D + 时间)。
这些根本性的创新,使消费者、创作者、业余爱好者和专业消费者的内容创作变得民主化,使他们能够设计和提供以前只有经过培训的专业人士才能获得的新颖的内容消费体验。
在每种模式下,模型的强大程度都不是线性的,而是随着每一代的出现而呈指数级增长。
以文本为例,从 GPT-3 到 GPT-4,模型大小(1750 亿个参数到 1.8T 个参数)、上下文窗口(2048 个标记到 128k 个标记)以及最终的推理能力(测试成绩排名后 10% 的考生 vs. 测试成绩排名前 10% 的考生)都有了显著的差异。
而且进展的步伐也在加快:
自 2023 年 3 月发布 GPT-4 以来,OpenAI 发布了 GPT-4 Turbo(2023 年 11 月),提供了更大的上下文窗口;
GPT-4o(2024 年 5 月)提供了第一个真正的多模态 LLM,速度是 Turbo 的两倍,成本是约 6 个月前的一半;
GPT-4o Mini(2024 年 7 月)的 API 成本更低;
o1(2024 年 9 月)具有高级推理能力;
o3(2024 年 12 月)在编码、数学和科学领域树立了标杆。
再变强几倍,是不是就更好玩了呢?
比现在的游戏好玩100倍会怎样?
生成视频之后会发生什么?
许多人认为世界模型是人工智能的下一个主要“模态”。
从机器学习的角度来看,世界模型可以想象虚拟(或物理)世界如何响应代理(例如玩家)的行为而演变。
基于视频生成和自动驾驶汽车方面的进步,这些“世界模拟器”可以提供具有时间和空间一致性的三维交互式体验 - 也被认为是“4D”(3D + 时间)。
为了简化起见,我们将世界模型视为生成性或“无引擎”视频游戏:允许用户输入并实时连贯响应的虚拟世界。
虽然世界模型在开发和输出保真度方面仍处于早期阶段,但它们已经展示了各种大规模新兴能力,包括复杂的角色动画、物理、代理动作预测和对象交互。
世界模型在所有其他模态(文本、音频、图像和视频)的大型数据集上进行训练,最终开发出推理动作后果的能力。
世界模型的影响将是深远的,不仅仅是虚拟世界。
Meta 的首席人工智能科学家 Yann LeCun 在最近的一次演讲中描述了 世界模型最终将如何“理解(物理)世界”并拥有“与人类一样推理和规划”的能力,为在消费者(例如,打扫房间、洗碗、带狗散步)和商业(例如,全工业机器人)环境中执行复杂任务奠定基础,而目前的模式还无法做到这一点。
然而,我们确实预计世界模型的许多近期应用将是按需生成游戏和交互式媒体应用程序(2D 和 3D 样式输出)或实时交互式视频体验(2D 样式输出)。
仍有几个关键问题需要解决,包括训练和运行世界模型所需的大量数据和计算能力,以及如何应对幻觉和模型偏差。
但如果说可以从以前的模式进步中吸取教训的话,那就是事情往往一开始有点奇怪,但几年后就会变得非常引人注目。
在我们讨论未来影响和潜在应用之前,让我们先简要回顾一下我们是如何走到这一步的。
AI 世界模型正在从根本上重塑游戏开发,推动虚拟环境的创建、理解和交互方式的创新。
从基础突破到尖端应用,这一历程展示了一系列快速进步,每一项进步都建立在其前辈的成功之上。
同样,AI 在理解和玩游戏方面也变得更好,现在它们在可视化和创建复杂、交互式 3D 世界方面正在迅速进步。
让我们回顾一下导致我们今天所处状态的发展时间线。

想象一下,人工智能通过在脑海中想象游戏世界来学习导航,就像玩家在进入迷宫之前先想象迷宫的布局一样。
这是David Ha 和 Jürgen Schmidhuber 的学术论文《世界模型》的精髓。
他们的框架结合了变分自动编码器 (VAE) 将视觉效果压缩为基本抽象,循环神经网络 (RNN) 预测这些抽象可能会如何随时间变化,以及控制器来决定最佳动作。
例如,该模型通过内部模拟圈数掌握了游戏 CarRacing-v0,无需直接交互即可优化策略。
这一突破表明,人工智能可以通过想象游戏世界来解决任务,就像在脑海中排练国际象棋的动作一样。通过抽象表示实现高效决策,这一架构创新为未来的进步奠定了基础。

Ha 和 Schmidhuber 让 AI 能够想象游戏世界,而Danijar Hafner 的深度规划网络 (PlaNet)则为 AI 提供了绘制详细蓝图的工具。
PlaNet 通过“潜在动态”改进了模型细节能力,这一过程类似于将整个城市地图总结为关键地标,以便高效导航。
这些简化的环境抽象使 PlaNet 能够通过模拟这种浓缩表示中的结果来规划行动,而不是依赖原始的复杂数据。
这项创新让 PlaNet 成为了需要持续控制的游戏的天生战略家,例如机器人移动或在虚拟吃豆人游戏中躲避幽灵。
通过关注大局,PlaNet 证明了环境的抽象草图可以带来更智能、更快速的决策——这是向可通用的 AI 规划迈出的重大一步。

Dreamer 提升了想象的概念,因为人工智能从草图发展到实现未来可能的完整“梦想”。
Dreamer 将 PlaNet 的潜在动态与强化学习相结合,使其能够模拟详细轨迹并根据想象的场景完善策略。
就像玩家在策略游戏中设想自己选择的连锁反应一样,Dreamer 能够在其潜在空间中模拟未来场景,这使其无需在真实游戏中反复试验即可完善策略。
例如,Dreamer 通过在内部生动地演绎其梦想动作,在引导机械臂和导航虚拟景观等任务上表现出色。
DreamerV2 将此功能扩展到更复杂的Atari 2600 游戏,作为评估富有想象力的预测和代理性能的基准。这有助于证明详细的模拟通常胜过蛮力实验。

2023 年,人工智能视频生成领域的领导者之一 Runway 宣布了其通用世界模型计划,旨在利用生成对抗网络 (GAN) 和高级空间建模来生成 3D 世界的模拟。
Runway 演示了用于视频生成的 3D 摄像系统 ,取得了一些进展,但交互性仍然受到严重限制。
在同一时期,DeepMind 的Genie(Alphabet 旗下)将这项技术提升到了一个新的高度。
当用户提供一张图片作为提示时,Genie 会召唤出一个交互式的 2D 世界,并配备实时物理和空间记忆。
从技术角度来说,Genie 使用所谓的时空视频标记器(一种自回归动力学模型)和可扩展的潜在动作模型来实现逐帧交互,而无需标记动作数据进行训练。
更简单地说,想象一下描述一座“带有秘密通道的闹鬼城堡”,并立即拥有一个完全可玩的关卡,而无需特殊的领域或类型知识,尽管是在 2D 平台游戏的公开视频上进行训练。
这是第一次,“世界模型”的概念终于开始名副其实了。
2024 年,创新步伐大幅加快,标志着一个转折点,AI 世界模型开始从实验性研发转变为游戏开发者的实用工具。
生成式 3D 交互式世界现在通过更多新老竞争者变得栩栩如生。

Deepmind 的 Genie 2 在其前身的基础上引入了更精细的环境交互和扩展的多模式输入。
它还实现了 3D 环境的飞跃,具有更强大的物理和动画,包括第一人称、第三人称,甚至驾驶和航行等基于车辆的游戏。
此版本还实现了更多动态交互,例如爆破气球、爆炸桶和爬梯子。
Deepmind 提供了许多不同的演示,但该模型尚未公开,而且在超过一分钟的交互性后缺乏稳定性。
世界模型方面的一大改进是其“长视界记忆”,它能够记住场景的某些部分,以便在离开并返回视图时再次准确渲染。

另一个有趣的突破是GameNGen (来自谷歌的另一个研究团队),它使用神经游戏引擎作为“实时”开发平台,实时调整游戏元素。
该系统通过以超过 20 FPS 的速度模拟经典游戏 Doom 进行了演示,随着玩家的移动,生成了一个不断扩展的环境。
GameNgen 结合了强化学习(通过 AI 代理通过玩游戏收集数据)和生成扩散模型的训练来渲染环境。
更具体地说,扩散模型建立在 Stable Diffusion 1.4 上,并经过巧妙修改,用之前的游戏帧(结合来自训练代理的动作输入)替换正常的文本提示。
这样,生成的新帧与之前的游戏帧和玩家动作同步。
另一家科技巨头和全球最大的游戏公司腾讯正在创建GameGen-O,该公司最近通过使用扩散变压器模型瞄准开放世界游戏,暗示了大规模内容生成的未来。
其开放世界视频游戏数据集 (OGameData) 基于一百多万个不同的游戏视频片段构建,并配有来自 GPT-4o 的信息性字幕。
该模型采用两步流程,即预训练文本到视频和使用游戏相关的多模态控制信号专家进行“InstructNet”控制模型训练。
目前的演示仅持续几秒钟,虽然视觉效果令人印象深刻,但目前还不是实时的。
但是,考虑到腾讯希望其工作室能够获得尖端技术,它值得关注。
经过几年的研发,人工智能模型已经不再只是玩游戏,而是开始创造游戏。
另一个学术模型 DIAMOND(扩散作为环境梦想模型)于 2022 年进入舞台。
DIAMOND 使用扩散技术(与 Stable Diffusion 和 Midjourney 等流行图像生成器使用的方法相同)来迭代细化图像,就像艺术家为游戏世界绘制超现实背景一样。
这使得 DIAMOND 能够预测和生成高保真视频模拟,包括可玩的模拟 CS:GO 环境。
该模型能够创建逼真的场景,这改变了视觉丰富的模拟游戏规则,但不一定具有交互性。即便如此,世界模型未来在游戏开发中发挥作用的可能性也变得更加清晰。
DIAMOND 的 2024 年论文是NeurIPS 2024 焦点,在训练模拟 3D 环境方面取得了重大进展。
另一个例子是,Decart 和 Etched 创建了 Oasis,作为类似 Minecraft 的生成式交互式世界模型的技术演示。
作为首次公开发布的演示,Oasis 接收用户键盘输入并生成基于物理的实时游戏玩法,允许玩家移动、跳跃、拾取物品、破坏方块等。
其世界模型可以理解建筑、照明、物理和库存管理等游戏元素。
该模型由基于变压器的空间自动编码器和潜在扩散主干的两部分系统构建而成。它使用来自 VPT(OpenAI 的 MIT 许可开源 Minecraft 数据集)的开源数据进行训练。
与上面提到的 Doom GameNgen 演示一样,此演示也以 20 FPS 运行,但它还允许实时玩家输入并在定制芯片 Sohu 上运行。
Decart 联合创始人 Dean Leitersdorf 和 Moshe Shalev 也引用了基于 GPU 自定义低级性能优化的视频推理方面的突破——可以以经济高效的方式实时生成交互式 2D 和 3D 内容。
发布后不久,YC 公司Lucid 展示了类似的 Minecraft 演示。
2024 年:世界实验室
World Labs由著名 AI 研究员李飞飞创立,最近还推出了将 2D 照片转换为空间连贯的 3D 环境的工具。
所展示的环境通过 WASD/鼠标控制在浏览器中实时呈现,并包括景深相机效果、带 FOV 的推拉变焦和正确的物理几何等功能。
与逐帧模型不同,World Labs 可同时生成完整的 3D 场景,并具有稳定的持久性和实时播放器控制。
3D 场景使用像素深度图生成,以从图像中预测 3D 几何形状并将其转换为保持物理一致性的世界模型。

最后,Odyssey 的 Explorer 系统与 Oasis 类似,但由于使用自定义相机拍摄的真实世界 360 度图像进行训练,因此它更适合使用高斯条纹(而不是类似 Minecraft 的外观)来呈现照片级逼真的场景。
使用 Explorer 创建的场景不包含实时游戏或机制。
相反,它们会根据文本提示生成场景,然后将其加载到 Unreal Engine、Blender 或 After Effects 中,供游戏或媒体使用。
该团队利用其在自动驾驶汽车方面的背景,并利用专有的 3D 数据收集作为其模型的竞争优势。
微软不想被初创公司打败,因此推出了自己的世界模型,可用于生成视频游戏场景和环境,这些场景和环境会根据游戏玩家在游戏控制器上的动作而变化。
微软的研究人员和 Xbox 游戏部门员工利用 Xbox 游戏《Bleeding Edge》七年的游戏画面训练了 Muse。
该公司将这项技术定位为增强传统游戏设计,而不是替代传统游戏设计。该模型旨在成为游戏开发者的工具,将来可能会用于加速游戏开发或创建针对个人玩家的定制游戏。
GameFile 的 Stephen Totilo 概括了玩家和开发者社区的褒贬不一的评价。
从数据角度来看,这是有道理的。
得益于微软的 Xbox 生态系统和对 Activision 的收购,游戏视频与人类动作(例如键盘或控制器输入)相结合,就像 YouTube 之于谷歌的 Veo2 一样,它与微软息息相关。
最后,值得一提的是:OpenAI 的 Sora 视频模型也可以呈现类似游戏的体验。
在世界模型这样快速变化的领域中,对未来技术做出假设并不容易。
作为投资者,看清现状往往比预测未来更为现实——除非你偶然预测正确,否则看清现状是必要的。
本着这种精神,我们找到了世界领先的初创公司和研究实验室,以了解他们的想法。以下假设在我们的对话中不断重复:
(1)世界模型可能不会很快取代 AAA 视频游戏——相反,它们将带来新颖的“以前不可能实现的体验”。
以推动真正创新的方式应用人工智能的重要性也是我们于 2023 年中期发布的AI x 游戏帖子中的一个核心论点 。
随着技术每个季度都取得巨大进步,我们相信,对成功方法的预测将回归到以前在互联网或移动等历史上可比的范式转变中创造出伟大突破公司的那些基本原则。
人工智能带来的效率和成本收益非常有趣且重要。但真正的突破不会只是对现有产品的改造或合理化;它们将以原生方式从头开始构建,带来全新且前所未有的体验。
对于世界模型来说,这样的经验可能是:
播放书籍或照片(例如,真正沉浸在你最喜欢的文本或家庭记忆中);
实时导演电影(即在电影播放时对其进行修改,就像实时版的《潘达斯奈基》一样);
使用无限的滤镜或风格转换来增强自拍视频或 Zoom 通话(类似 Snap 滤镜,但不仅限于“手工制作”的选项)。
这些新的体验将由杰出的创始人创造,他们遵循自己的直觉(通常是不公平的专有知识)获得独特的见解和想法。

(2)状态和记忆限制将需要渐进式创新来提供长期的、有吸引力的和可保留的世界。
目前大多数世界模型都能生成高度详细的环境,但缺乏持久状态建模,这是传统视频游戏的基本元素。
与跟踪玩家进度、库存和世界随时间变化的“手工制作”游戏引擎不同,当今的世界模型独立生成新的帧或场景,没有底层内存结构。
这一限制使得它们无法支持复杂的机制,例如渐进式关卡变化、长期因果关系或非线性叙事。
如果状态架构没有突破,世界模型将仍然更适合动态模拟,而不是真正的交互式游戏世界。
(3)就游戏而言,世界模型可能会被人工智能自动化“传统”基于算法和引擎的体验所超越。
这一点有点难以理解,但尤其是随着人工智能在自动化代码生成和生成 3D 资源方面越来越好,自动化现有的游戏设计流程(使用虚幻引擎或 Unity 等游戏引擎)——包括即时生成相关的 3D 资源和纹理——可能会优于概率实时视频生成模型。
如今甚至还在进行混合实验:
1. 世界模型: 2D表示,根据用户输入预测下一视频帧。
2. 人工智能自动化传统设计: 3D 表示,使用代码和资产来提供有状态的体验。
3. 混合方法:使用“灰盒” 3D 表示进行状态建模和空间和时间完整性,并在其上应用视频模型(如风格转换)。

人工智能自动化传统基于代码和资产的游戏创作(如图所示)最终可能在世界模式中占上风。
(4)“多人世界模型”即将到来。
多人世界模型面临着巨大的挑战,但通过正确的架构方法仍然是可行的。
核心难点在于如何在多个玩家之间保持一致、同步的世界状态,同时利用本质上具有概率性和动态性的生成模型。
与基于确定性状态更新的传统多人游戏不同,世界模型引入了可能导致不同步和不一致的可变性。
然而,服务器端权威模型、将生成式人工智能与确定性物理相结合的混合方法以及高效的数据流等技术可以缓解这些问题。
我们还没有看到多人世界模型的出现。但我们听说它们离我们不远了。
(5)法律和版权考虑并非无关紧要,甚至更加复杂。
随着世界模型变得越来越复杂,它们引发了复杂的法律和道德问题。
谁拥有程序生成资产的权利?
如果在现有视频游戏上训练的模型输出与已知知识产权高度相似的东西,这是否构成侵犯版权?
例如,DeepMind 的 Genie 可以根据视频输入生成交互式游戏关卡,这引发了人们对衍生作品的担忧。
同样,GameGen-O 和 GameNgen 可以根据文本提示合成可玩体验,可能会在不知情的情况下制作出与现有系列相似的资产。
工作室、出版商和监管机构将需要应对快速发展的法律环境,传统的知识产权框架可能不再适用。
被摄取的视频游戏直播的合法性维度更加复杂:想象一下 FIFA(现为 EA Sports FC)的 Twitch 视频:其中有 FIFA,游戏本身,以及其玩家和球队 IP。
还有主播和(可以说是艺术或运动的)游戏行为以及娱乐观众的行为。还有来自观众和聊天本身的输入。以及为其用户提供体验的流媒体平台。
(6)训练令人信服的世界模型将需要 3D 数据集来实现空间和时间的一致性。
当今大多数生成式 AI 模型主要在 2D 数据集上进行训练,这限制了它们在完全实现的 3D 环境中保持空间和时间一致性的能力。
游戏和模拟需要深入了解物体的永久性、遮挡、物理交互和长期状态变化,而这些挑战是 2D 训练模型所难以应对的。
例如,DeepMind 的 Genie 可以生成交互式游戏场景,但如果没有原生 3D 训练数据集,它在渲染深度、物体交互或持久物理状态时就会面临不一致的问题。
为了实现真正的空间和时间一致性,未来的世界模型可能需要大规模 3D 数据集,这些数据集可能来自现实世界扫描、合成环境或高保真游戏引擎。
(7)没有可玩性的模拟无法长期吸引或留住用户。
虽然世界模型擅长模拟环境,但将其转化为引人入胜、结构化的游戏体验仍然是一项重大挑战。
生成无限景观或动态 NPC 的能力并不一定会带来有趣、平衡或有意义的玩家体验。
引人入胜的游戏需要有意识的关卡设计、进度系统和玩家代理——纯程序生成难以确保的元素。
例如,奥德赛可以生成广阔的可探索世界,但确保其中连贯的任务结构或有意义的挑战仍然需要人工干预。
未来的进步可能会涉及混合方法,其中 AI 生成的世界由精心策划的设计原则指导。
(8)可扩展性和计算效率将继续提高,可能不会对世界模型造成长期障碍。
训练和运行大规模世界模型的成本仍然是广泛采用的主要障碍,但人工智能效率的提高开始改变这种状况。
在过去五年中,生成模型的成本效益显著提高,其架构经过优化,功耗更低,推理效率更高。
例如,Decart Oasis 率先采用了新的 GPU 高效技术,降低了实时世界生成的计算要求。
同时,量化和模型提炼方面的进步使得在消费硬件上运行复杂的模拟成为可能。
随着这些趋势的持续,世界模型不仅对大型工作室可行,而且对独立开发者甚至实时应用程序也适用。
(9)世界模型最有价值的近期用例可能在游戏之外,例如机器人技术。
世界模型的直接用例远远超出了传统游戏环境。
例如,在机器人技术领域,它们可以为实时交互式视频模型提供支持,这些模型可以动态理解复杂环境并对其做出反应,为更直观、更具适应性的机器人系统铺平了道路。
抛开本文的观点,最后我想说:
我丝毫不怀疑未来人们可以更轻松,因为AI将逐步接手。
关于AGI有个标准——达到人类综合能力、智识的80%。
AI即将用人80%的能力,来接管50%的生产劳动。
到那时候,人去做啥呢?都去发明创造吗?都去虚拟世界享受吗?
也许,我们即将可以在世界模型中,或者在游戏和AI的交叉点上,去构建一些有趣的东西?
本文来自微信公众号:AI异类,编译:澜镜