扫码打开虎嗅APP
本文来自微信公众号:果壳 (ID:Guokr42),作者:TTT,编辑:沈知涵
截至目前,全世界最畅销的游戏是哪款?
自从2010年诞生以来,《我的世界》在全球卖出了超过3亿份,打破了《俄罗斯方块》的纪录,成为世界上最畅销的游戏。
《我的世界》
密集的真人玩家互动、高度开放性和自由度,让《我的世界》如今成为了AI公司们各种耍宝的一方热土。
你也许还记得之前OpenAI训练出了机器人玩家。
OpenAI用大量人类游戏视频,预训练了一个神经网络,让其成功学会制作“金刚石”游戏工具。要制作这个工具包含24000个游戏操作,即使是熟练的《我的世界》玩家也需要超过20分钟才能完成。
更夸张的事情在上个月发生,一款名为Oasis的“游戏”使用了OpenAI的开源数据集,几乎一比一地复刻了《我的世界》的界面——然而,Oasis并不依赖游戏引擎或者手工编写的代码,它的每一帧画面都由AI模型生成。
Oasis这个名字来自于欧内斯特·克莱恩(Ernest Cline)的科幻小说《头号玩家》。被更多人熟知,是在2018年,斯皮尔伯格将其改编成了电影。小说中,Oasis是个虚拟的游戏世界,人们为了逃避混乱的现实,大部分时间都投入在这个足以乱真的世界中。
Oasis已经成为试图打造虚实难辨的体验的代名词。取名倒是足以见得它开发者的野心。声称“世界上第一款可玩的AI生成游戏”,真实体验到底如何?
不像绿洲,倒更像是《盗梦空间》
先说结论,眼下,你就可以通过浏览器就可以免费玩到Oasis;但相信我,你玩不下去,或者说,没法玩……
与《我的世界》游戏操作类似,玩家可以在游戏里行走、跳跃、打破方块、打开库存和使用物品。Oasis也理解复杂的游戏机制,如建筑、照明物理、库存管理、对象理解等。
放置非立方体块
与动物互动
吃饭恢复健康
但不同的是,Oasis的每一帧画面都是AI实时生成的。
尽管“AI生成游戏”听起来很唬人,但从本质上来说,Oasis和Sora、Runway使用技术类似,依赖于基于Transformer架构的扩散模型。
基于DiT的潜在扩散主干架构、基于ViT的变分自编码器、加速的轴向、因果、时空注意力机制、以及克服长序列模型发散问题的新策略丨Etched
不过那些文生视频产品的提示词是“文本”,像Sora根据文本一次性生成60秒的视频。Oasis根据的“提示词”是玩家的键盘、鼠标操作和之前帧,生成下一帧。
也就是说,Oasis生成画面也是逐帧的,因为在模型架构和推理技术方面的进步,使得Oasis延迟尽可能小,小到画面连贯起来(这与早期动画的原理类似,静止的图像以一定频率变化之后,因为视觉暂留的缘故,人会觉得画面动了起来),就能让Oasis产生“可交互、可操作”的效果。
《运动中的马》,Eadweard Muybridge,1879
发布3天左右,Oasis的用户数量就突破了100万。汹涌而来的玩家使得服务器一度崩溃,即使到现在也不太稳定,甚至经常出现服务器断连的情况。
79小时内Oasis玩家数量增长情况|Decart
抛开不稳定的服务器和10分钟的限制不谈。从游戏体验而言,Oasis基本还处于“不可玩”的状态。
玩家很快会发现,随着时间的推移,游玩Oasis会呈现一种劣质版《盗梦空间》的体验——敲碎一个砖块或者转动鼠标换个视野,地图就可能完全变成另外一个样子。
以自回归方式生成的每一帧都会累积细小的错误,随着时间的推移,这些错误就会像雪球一样越滚越大,使得画面很快就会和原始图像南辕北辙。
如何用AI生成一个连续的世界,克服幻觉,这其实是一个整个AI业界都在面临的难题。
为了改善这点,开发人员使用了一种称为“动态噪声”的技术。简单来说,他们在生成每个帧的早期阶段有意为图像数据添加一些随机噪声,以防止错误积累。随着AI模型对图像进行细化,这种人工噪声会逐渐被去除,使得画面保持与前一帧的一致性。
开发者也承认,第一个版本只是用于研究和概念验证,表明AI模型有潜力做到——跟那些视频生成工具一样,他们还无法解决生成连续画面的问题。
下一步,造芯片,赢过英伟达
Oasis的开发者,是以色列初创公司Decart和硅谷芯片设计公司Etched。
Etched开发了一款名为Sohu(搜狐?)的专用AI芯片,将Transformer架构刻录在芯片中。目前,Oasis以480p的分辨率运行在英伟达的H100 GPU上。Etched声称,相比英伟达,Sohu会将性能提升20倍,可以以4k的分辨率处理1000亿参数的大模型。
Etched认为,Sohu芯片的性能会是H100的20倍丨Etched
当然,Sohu的开发也还处于早期阶段,Etched的说法目前无法得到证实。纽约大学电气和计算机工程教授Siddharth Garg就表示了质疑。他说,鉴于市场上顶级GPU的AI专业化程度,“对仅通过更智能或更专业的设计就能实现10倍的改进持怀疑态度。”
Dean Leitersdorf毕业于以色列理工学院,在2022年结识了哈佛毕业生Robert Wachen。受到OpenAI的启发,Wachen在2022年联合创立了Etched,Leitersdorf在2023年联合创立了Decart。
在他们的设想中,Etched会像英伟达一样构建下一代硬件,Decart则像OpenAI一样开发运行在硬件上的模型。
Leitersdorf表示,他们的目标是创造一个生成式体验的新时代。“你的屏幕可以变成一个门户——进入某个不需要编码、可以即时更改的虚构世界。”
就像LLMs跨越了复杂的人类语言体系,让机器学会用人话和我们沟通。Oasis大抵是想克服视觉障碍,学会像人类一样看世界,以及世界的运行机制,并以我们的视觉和交互习惯展示环境。
Leitersdorf称,像Oasis这样的模型可以用于需要交互式视频的各种环境,例如娱乐、教育工具,甚至是AI驱动的创意媒体。
目前,风险投资公司红杉资本已经领投了Decart2100万美元的种子轮融资,用真金白银表示了他们对于Decart愿景的认可。