扫码打开虎嗅APP
本文来自微信公众号: 游戏研究社 ,作者:强连虎
在去年,谷歌DeepMind放出世界模型Genie 3之后,利用AI生成可探索的互动场景成了值得关注的新焦点:AI世界仿真技术的重大突破,让开发者和普通用户都第一次直观感受到——AI或许真的能生成一个“可以被操作的世界”。
而在昨天上午,蚂蚁集团旗下的具身智能公司蚂蚁灵波科技也放出了自家的世界模型LingBot-World,把这股热潮又往前推了一步。
利用AI生成视频对于大家已经不陌生,不管是骑着飞龙翱翔天际,还是在车水马龙的城市中驾车穿行,如今的AI都能够轻松做到,画面效果也愈发难辨真假。
但“世界模型”展示出的效果,则有着截然不同的潜力——创作者生成的并非一段孤立的视频片段,而是可以持续探索、自由控制的虚拟场景。
比如在LingBot-World的其中一个演示视频中,就出现了一段类似于“步行模拟”的场景。
创作者使用WASD控制角色向着远方的教堂前进,还可以随时停下来环顾四周,回望来时的小道,再回过身来,继续向着教堂走去:
在另一个名为“喷泉”的Demo中,LingBot-World则展示了改变世界的能力:通过使用“青蛙”、“花瓣”和“鱼”等不同提示词,出现在喷泉中的物体也会发生相应的改变,或是干脆将画面变成像素风。但与此同时,不管操作者如何转动视角,喷泉的主体结构和周围的场景都会保持一致。
这样的Demo在LingBot-World的页面上有超过20余个,既有修仙、科幻类天马行空的场景,也能生成生活气息浓郁的日常画面。
不论哪一个,都可以通过移动进行探索、调整视角自由观察。哪怕是见多识广的玩家,第一眼也很容易把它当成某个游戏开发者做出的可玩Demo——你甚至会忍不住想,真把它转发到“相亲相爱一家亲”群里,能唬住多少亲戚朋友。
1
结合Demo的展示,我们其实已经能把LingBot-World的能力拆成几个更“落地”的模块来看。
可以生成多种不同风格的场景自不必多说,在这个基础上,它还能维持相对高保真的场景细节和令人信服的一致性。
比如在前面提到的“步行模拟”Demo中,场景位于一条山间小路上,当视野转向侧边时可以看到两边的山涧,看向后方则是一条蜿蜒过来的山路,这都和大家的直觉相似。
更能展现技术力的则在视角重新转回正面之后,画面上出现的小路、教堂和远景与最初的场景完全一致。
在AI生成领域,上下文记忆一直是令从业者十分头疼的问题,而根据LingBot-World技术文档的介绍,模型可以保证分钟级的一致性。在目前展示的特定条件下,即使建筑、雕塑、车辆等物体离开视野范围60s左右,再度进入镜头时依旧能保证外观一致。
自由探索的能力也是世界模型和此前的视频生成类AI决定性的区别,LingBot-World在训练时除去使用海量视频作为训练素材,也引入了WASD等动作控制的指令。
这种训练方式让模型的预测、联想能力不仅限于单一的时间流逝,而是要在训练中引入WASD等动作信号作为条件,让生成过程从‘时间驱动’转向‘动作驱动’:用户输入动作,模型生成与动作一致的后续画面,并尽量维持场景结构稳定。
LingBot-World当前能以每秒16帧的速度生成实时画面,指令输入到响应之间的延迟小于1秒。结合前文提到的长一致性,这些特点让“给定一套世界设定→生成一个可探索的世界”变成可能。
去年谷歌公开的Genie 3在惊艳之余也有些遗憾,该模型并未立即向大众开放,因此,即使大家见识到了新模型的强大之处,却不能上手真的尝试一番。
在这点来说LingBot-World在策略上展现得更明确和大胆一些:项目选择了直接开源,使开发者能够下载并在本地部署、验证与迭代。毕竟AI领域从来没有一成不变的事物,只有在实践中不断尝试、测试,才能发现改进的方向。
LingBot-World的项目代码已经放到了开源平台Github上
而在LingBot-world发布一天之后,谷歌也终于开放了Genie 3的付费体验(对Google AI Ultra订阅用户开放了Project Genie的访问权限),进一步说明这种注重交互体验的世界模型,需要更多的人亲身参与进来。
在技术领域,世界模型被认为是AI技术的下一个阶段,可以给自动驾驶、仿真机器人训练等领域提供大量的训练数据。放进蚂蚁灵波最近几天连续开源的产品序列里,LingBot-World也像是具身智能基础设施的一块关键拼图——与负责“感知”的LingBot-Depth、负责“决策与操作”的LingBot-VLA相互配合,形成了一个从真实数据到模拟环境、再回到真实世界的闭环。
对于游戏行业的从业者和普通玩家来说,这个听上去很“硬核”的世界模型,也同样会影响到未来的游戏体验与内容生产。
2
当然,虽然看着像“直接生成游戏世界”,但绝大多数游戏有着更长的单次游戏时间,更为复杂的交互逻辑,这些都超过了目前世界模型的生成能力范围。
可以肯定的是,虽然LingBot-World呈现出了很多类似游戏的表现,但世界模型目前并非是游戏的“成熟平替”,它与游戏的关系,反而更值得从两个方向去看。
在前面我们提到过,LingBot-World等世界模型的训练和一般的AI并不相同,训练素材需要引入方向、视角等指令。AI训练所需要的素材是海量的,通过现实世界快速而大量地获取这类素材并非易事,但以“玩家交互”为核心的电子游戏却能成为天然的“素材库”。

除去游戏,虚幻这种成熟的游戏引擎也可以提供训练素材
这某种程度上也解释了LingBot-World的游戏味。比如在演示Demo中有一段以“林教头风雪山神庙”为主题的视频,角色的动作和周围的场景和虚幻引擎的呈现效果十分相似。刹那间让人产生了一种“有人做了个水浒传游戏”的错觉。
如果把视线拉长,Genie 3这类世界模型的研究路径里一直都有游戏的影子。
我们此前也报道过,DeepMind的研究者们曾在GameNGen模型中,用《毁灭战士》这类规则简单明确的游戏环境做技术验证(当然还有一部分原因是全球玩家都对玩坏DOOM喜闻乐见):
把玩家的动作输入(如移动、转向、射击等控制信号)与对应的画面序列配对,用来训练模型在动作条件下预测后续画面与世界演化。
这类研究之所以常从游戏出发,是因为游戏能提供高密度、可规模化的交互数据与规则反馈,便于检验模型的一致性与可控性。换句话说,电子游戏显然是世界模型在训练中最重要的基石之一。
另一方面,长期来看,世界模型也的确能参与到游戏研发的诸多环节当中,对开发者的助力不可小觑。
在近些年,随着国内游戏产业在技术、项目管理等方面的快速追赶,一个个全新的游戏项目如雨后春笋涌现。大伙在预告看个饱的同时,也借着这个机会和本土的开发者们近距离交流,更熟悉开发背后的秘辛。
比如在游戏公开首个预告之前,通常有着一段十分紧张的“试错期”。开发团队要尝试不同的美术风格、游戏玩法,确定游戏的最终方向。对于财力紧张的中小型团队来说,能否尽快做出一个玩法原型,争取到足够的投资,有时候能决定整个项目的命运。
在这个阶段,制作团队不可避免的会遇到“走弯路”的情况,可能是玩法没有想象中的那么好,或是美术风格不尽如人意。
比如V社的《传送门2》,曾曝光过有一个称作“F-Stop”的玩法废案:开发者制作了一套使用相机的新玩法,玩家可以用相机把物体“拍下来”,再在另一个位置把它“洗”出来——相当于把3D场景压成一张2D图,再以另一种方式还原回3D空间。
V开发团队甚至真的做出了一段流程不短的测试关卡,最终却因种种原因(比如“不够传送门”)而将整个方案废弃。直到今天,仍有爱好者尝试挖掘数据,在起源引擎上重现“F-Stop”。
Project Capture:一部分爱好者根据V社遗留内容尝试复现当年的废案
对于V社这种“颇有家资”的团队而言,这种壮士断腕的行为可以作为精益求精的正面案例,但是很多中小团队并没有尝试这种高难开发行为的余裕,类似规模的试错,可能就意味着项目资金链断裂,或者被迫大幅降档。
这也正是世界模型在短期内更可能切入游戏行业的位置:它未必能替代引擎和完整制作流程,但有了LingBot-World这样的世界模型,就可以用较小的成本实现玩法和美术上的呈现(尤其是上面“3D拍照”这种高难度的点子),从而帮助团队更快地完成早期试错,少走弯路。
从长远上讲,这也是LingBot-World背后团队所乐于见到的。如果能有更多的游戏出现在市场上,未来也会有更多成熟的素材用于模型训练,实现AI模型和游戏开发领域的双赢。
结语
和Genie 3相似,LingBot-World展现出的阶段性成果远到不了完美无瑕的地步。但将AI模型从单纯的内容生成推进到可互动的大型场景上,这样的技术尝试和进步的确值得肯定,也让人期待未来更进一步的潜力。
其实在去年,Genie 3的发布尚未让很多开发者感受到这种“潜力”——彼时外界最初能接触到的主要还是研究展示层面的内容,公开信息多以演示与论文/博客为主,因此普通的游戏开发者,也很难直观感受到“这东西到底有什么用”。
到了今天,Genie 3正式对付费订阅用户开放,LingBot-World则选择走免费开源路线,这种“潜力”不再是纸面上的空谈,游戏开发团队可以亲手部署、试用、复现上面提到的一切。更现实的想象是,它短期内可能扮演一种“原型工具”或“探索组件”的角色——帮助团队用更低成本把想法快速做成可体验的交互片段,用于早期展示和试错。
在AI技术的发展过程中,人类被替代曾是不少人所担心的。但随着AI绘画和AI视频生成的逐渐成熟,这份担忧也在不断化解:AI产物无法取代高水平的创作者,更为成熟的运用是利用AI加速制作,或是降低门槛,让大家可以轻松地将自己有趣的创意转化为实际的作品。
对于AI世界模型来说,它在游戏领域要扮演的角色也并非是取代游戏引擎与专业制作流程,而是降低开发者的时间和人力成本,缩短从大脑里的创意到“可体验原型”的距离。
对游戏开发来说,AI工具的加速赋能显然是重大利好:当这种距离被持续压缩,游戏创作与交互形态的演化,也就有了新的驱动力。