正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-12-11 14:30

对话超参数:Agent 诞生于游戏,最终会走进生活

本文来自微信公众号:极客公园 (ID:geekpark),作者:凌晨


复杂性科学的奠基人布莱恩·阿瑟总结:「新技术诞生于已有的技术组合。」


超参数科技成立于2019年初。时间上,是如今被称为上一代AI——即「模式识别」,浪潮顶峰的尾巴。泡沫尾随其后。那时候,OpenAI和DeepMind还专注于用强化学习RL(Reinforce Learning)教AI玩游戏。优化LLM输出的核心方法RLHF也诞生于彼时。


当下,在Scaling Law边际效应递减的时候,技术界又将目光投回了强化学习RL。于是,Scaling Law+RLHF成为目前最受关注的技术组合之一。


超参数创始人刘永升是腾讯围棋AI「绝艺」、王者荣耀AI「绝悟」项目负责人。他也是在用RL教AI下棋、玩游戏中,对AI产生了信心。「像训练一个小朋友一样,看到AI从什么都不会,到慢慢学会各种本领……最终看到AI做出人类做不出来地动作,冲击感太强了」。


也是最初对于AI的信心,让他和团队从腾讯出来,成立了超参数。这之后,外界对AI信心,从顶峰降至谷底,又迎来了2.0的高潮。


在大模型出来之后,聊起游戏AI时,不时会听到新生代的创业者,将超参数定义为「上一代」。而市面上,的确很少听见这家公司的声音。


最近,极客公园和刘永升做了一次交流,请他讲了讲从RL,再到LLM+RL一路走来做的事情,正在推进的AI-Native游戏项目,还有他对游戏AI的看法。


超参数科技创始人&CEO刘永升


01


游戏Agent:


从比人强、到拟人、再到有温度


极客公园:LLM出现以来,人们开始讨论AI对游戏领域带来变革,你观察到这个领域里出现了怎样的变化?


刘永升:我观察到两个方向。


一个是能不能通过LLM和AIGC,用更低的成本产生更多差异化的内容,目前能看到生产各种素材的尝试。另外一条是沿着GameAgent的路线,能不能让游戏里面的Bot、NPC变得更有生命感。


以前,我们通过强化学习的方式,能让游戏里的Bot变得很厉害。但是这仅仅是游戏体验的一个方面,玩家还是希望更有差异化、以及人性化的体验。


很多人认为游戏中加上了AI能力就是AI游戏,我们认为这是一种「掺水」,或者说是对AI游戏标准、对自己的作品的一种「宽容」。有些界定,最好是能比较清晰的。以AI游戏来说,AI从游戏的底层架构开始就应该发挥作用,而不是加点AI的边角料就说自己是AI游戏。


极客公园:怎么理解「拟人化」的体验?


刘永升:我们以前做强化学习,让游戏里的Bot能力变得很强,甚至比真人还要厉害。但是对于玩家来说,希望在游戏里遇到的Bot不要完全碾压自己,TA能够对我好,有温度。比如我在游戏里面遇到的队友、角色也能够跟进我的要求。


我们之前通过SL(Supervise Learning)和RL(Reinforce Learning)结合起来,能够解决在操作上「拟人」的问题。


比如物理上的一些限制,人在游戏操作里不能够瞬间180度转身,决策一次需要0.1~0.2秒,这些限制对于AI来说不存在。


通过建模,我们可以把人在游戏世界里操作时的限制、或者模式写进去。这是我们以前解决比较多的一个点。


极客公园:在LLM出现之后,技术可以对游戏体验的提升带来哪些影响?


刘永升:玩家也会希望Agent在游戏世界的行为更像人,跟人的互动更加丰富,(这意味着)Agent不仅能够响应玩家的命令,还能够主动地向玩家提出一些请求。


这种效果在LLM技术出来之前,用之前的一套技术栈满足互动性的需求,是比较难的。


我们的目标一直是提高Agent的自主性和互动性。在2021年之前,我们一直在提高自主性,让AI在复杂场景里做决策。在2021年我们发布了「猎户座α」,相当于突破了3D环境里的GameAgent,让AI可以玩射击类的游戏,这也是全球范围内我们最先做出这个成果。


极客公园:似乎是LLM出来之后,像斯坦福小镇这样的研究出现之后,人们开始对Agent在游戏里的具体形态有了更多想象。


刘永升:现在,Agent除了实现自主决策是不够的,还需要具有的「互动性」,也就是它们之间彼此互动产生足够多的内容。于是我们做了「活的长安城」这样一个城市Demo,里面有很多不同背景、不同职业的人,他们之间有各种复杂的关系,形成自运转的一个小型社会。对应这个Demo同时发布的叫做「游戏NPC生态技术」。


在2019、2020年的时候,我们讨论过Agent这个概念。但是那个时候,Agent会翻译成代理,近一两年才翻译成「智能体」。


如果在当时的环境下,翻译成代理跟别人去介绍,对方完全会一脸懵逼。所以当时我们就退而求其次,叫做GameBot。


极客公园:对于未来Agent的发展,会怎样设想?


刘永升:未来我们的生活中会出现越来越多Agent,比如越来越多的机器狗、无人机。某种意义上,机器人属于Agent的一种,未来的硬件、具身智能也会越来越发达。


具体到游戏领域,Agent也会走出来,因为你在游戏世界和Agent有大量的互动,它会加深对你的了解,你对他就会产生很强的羁绊,这种羁绊是可以延续到生活中的。


那么当游戏的周边实体出现,比如游戏里的一些角色,就能够变成你生活中的高级玩具,他能够和你一起创建Both Reality,在游戏世界与你探索,在生活中与你进行各种互动。所以我们认为未来是10亿人和100亿AI共同生活的世界。


02、游戏研发是一个非常复杂的系统工程


极客公园:「活的长安城」这个虚拟城市Demo对应的「游戏NPC生态技术」,这个技术栈要怎么理解?


刘永升:在Agent的技术拆分上,我们和大多数团队的处理方式都一样,分成不同的模块,Control、Plan、Memory、Reflection等。这是每一个个体,也就是一个Agent的底层架构。


此外,这个生态需要更好地运转,也就是Agent和Agent之间更好地互动,需要有更上层的设计。可以将它理解为一个「事件的触发器」,进行top-down的控制。如果没有这种top-down的控制,只靠底层的涌现,生产的内容很快就会让人觉得索然无味了。


实际上最难的是在顶层要做多大的控制,即事件触发。某个事件触发之后,会改变游戏世界的很多状态或数值,进而影响到最底层的Agent。


很像人和国家的关系、国家之间的关系博弈,(一个顶层事件)会改变很多东西,再进一步传递到个体,个体也会受到影响。在没有大模型之前,或者是大模型没有这么强的时候,「事件触发」做起来是挺难的。


极客公园:需要写很多规则?


刘永升:要依靠策划,并且做大量的修改。但是我们发现像GPT-4出来之后,上层的事件触发和LLM结合起来,是比较有效的。首先,大的事件不会特别高频,不会时时刻刻变化。第二,发生变化之后,传递到底层「人们」的行为发生变化,也会有一个过程。


极客公园:底层的Agent,和上层触发器之间的如何联动很关键。


刘永升:我认为最牛逼的就是这样一套全新的体系。底下的互动,也会影响上层事件触发的逻辑。如果只是Bottom-up,相当于只给了一个起点,具体会发生什么,完全是不可控的。如果我给的是很多关键节点a、b、c、d、e。这些节点是确定的,但是每个节点之间怎么走,是交给AI自己决定的,但是整体主线是make sense的。


极客公园:目前这套技术框架,有没有应用到具体的游戏开发中?


刘永升:我们最近在和一个Steam游戏团队合作,把这样的技术架构落到一个商业化游戏里面去。


关于太空商人和经营类的游戏。大致设定是在太空里有很多星球,有很多Agent,而A国和B国之间的关系会影响到商人之间的经营。比如两国关系紧张了,可能B国就突然不跟A国做生意了,或者提价等等。


极客公园:这套新的技术框架,应用到游戏开发的过程中,最大的挑战在哪里?


刘永升:对现有游戏研发管线造成了很大冲击。


现在的游戏研发比较追求确定性。而游戏研发本身是一个非常复杂的系统工程,有很多不同工种、不同专业的人参与进来,也有非常严密的项目管理。


AI最大的特点是不确定性,怎么让对确定性要求非常高的一套管理软件,去兼容不确定性,是很难的。


比如合作中经常会发生AI和策划同学都崩溃了的情况,怎么把双方都梳理好,这里面临巨大的挑战。


这也可以解释,为什么所谓的AI-Native的商业化游戏还没有出来,因为你不是有个想法就行,具体到团队付诸实施的层面,经常会被整疯了。要不做游戏的疯了,要不做AI的疯了。(笑)


极客公园:那就超参数自己探索的经验来说,有什么心得?


刘永升:团队很重要。选人的时候,对团队的要求变高了,真正有信仰的人,疯了一段时间之后,又能冷静下来,具体去探讨怎么把这个问题解决。对于整个项目而言,耐心程度要更高一些。


这里面,除了AI的不确定性,最终的整体游戏体验也有不确定性。那么整个过程中就不像传统游戏的Milestone,很够很清晰地建立对下一个版本的预期。


比较难建立预期的时候,团队怎样保持住凝聚,就需要内心强大。


03、坚韧是机缘巧合你身上就具备的某种东西


极客公园:外界常常将超参数视为游戏AI公司,但是似乎这和超参数对自己的理解有所不同?


刘永升:我们也很无奈,可能我们身上的「游戏」标签比较重,我们只是把游戏作为一个AI技术迅速落地的场景而已。


此前,游戏是一个适合强化学习、无监督学习迭代的场景。那么现在LLM+RL的技术栈,依旧是合适在GameAgent的场景中去迭代。


极客公园:毕竟从商业化角度而言,超参数约等于是中国最大的第三方AINPC供应商。


刘永升:作为技术公司,我们不像DeepMind有大公司养活,所以我们需要考虑商业化,游戏领域的商业化我们做的的确不错。


我们也在其它的领域尝试应用,比如将Agent技术应用在低空交通领域,包括自动驾驶。还有一个非常重要的方向叫做Agent based simulation,比如我们在和一个大学合作,对古代的城市进行模拟,对经济系统中人的行为进行模拟。


很多复杂系统不能归纳推理,利用AI技术将一些场景模拟出来,再返回生活的场景,能够解决一些问题。


极客公园:怎么看今年夏天谷歌推出的AI游戏引擎?


刘永升:如果他们想做一种新的游戏引擎,去取代现有的引擎,我觉得会很难。现在的游戏项目已经是一个超级复杂的工程,有非常复杂的管线的管理。有内容、运营、商业化的,很多不同的要素。如果你想让AI进行端到端的尝试,非常不利于人与人协同开发。即使现在生成的视频,最后要用起来,还是需要人做后期的处理。


如果作为视频生成的加强版,除了呈现还增加了互动,我觉得是一个比较好的科研项目。能够让AI更好地理解物理世界。因为生成内容于对一致性的要求更高,如果真的能够解决一致性,势必对物理世界的理解会更深。


极客公园:那怎么看前不久一家初创公司实现的实时可交互世界模型Oasis?


刘永升:现在挺多人会尝试用自然语言聊天的方式来实现一个游戏,我自己也会跟进一些这样的项目。我自己最大的感受是,不见得写代码就会比语言更复杂。


极客公园:但是降低了门槛。


刘永升:所以我倾向于认为,未来通过语言交互生产的内容,很难做一些非常复杂的系统,因为复杂的东西,你要用语言描述出来其实是很难的,效率也很低。


极客公园:这样的视角,或许与超参数这些年作为一个成熟技术的供应商有关?除了技术突破之外,也很注重工程的稳定性,效率等因素。


刘永升:碰到这个话题,我挺想多说一点。很多时候,大家一讲到技术,就会更多讲算法,比如在强化学习的时候,大家会对PPO、DQN等很感兴趣。


但是在这次大模型出来之后,大家开始注意工程。比如让10万块A100或者H200并行,面临大量的工程挑战。


从我的视角去看,这仅仅是offline的工程,还有另外一块非常重要的点是Online,就是模型怎样去delivery服务。


特别是像我们需要在全球去提供服务,在南美、东南亚很多地方,IDC不具备部署新型GPU的条件,这种时候要提供实时的服务,本身就是一个巨大的难题。我们过去一直在解决这些问题,比如如何让压缩过的小模型在10年前的CPU上都能够跑起来,做大量的压缩和预测,在网络质量差的情况下也做到低延时。


看到大家现在重视工程,比较欣喜。我也相信接下来,过去两年积累起来的大模型的能力,真的去大规模服务的话,高并发、低延时的场景,会遇到很多Online的巨大挑战。


极客公园:创业者这么多年,肯定经历了很多的挑战,其中也有起起伏伏,有什么体会特别想分享的吗?


刘永升:我对自己比较震惊的一点,就是我觉得自己肯定不会犯的错误,我还是老老实实犯了两次。从理智角度来讲,你觉得自己绝对不会犯这个错误,但还是犯了——就是不够聚焦。


大家都知道,创业应该聚焦,用有限的资源去做最重要的事情。道理都是知道的,但是我为什么还会犯错误,我自己想这里面的原因是什么。很大一个原因是,之前在大厂各方面资源支持比较充足,也赶上了趋势,加上团队很给力,在很长一段时间里呈现出「没有做不到,只有想不到」的状态。惯性或者说潜意识里就会过于乐观。


到今年4月份之后,我们深刻认识到要有敬畏之心。经历过教训,会告诉自己一定要控制好自己的手脚,不要分兵,是一件很难很难,但是非常非常重要的事情。


极客公园:听员工说,你经常给大家写内部信。最近的内部信,有写到什么?


刘永升:上次我写的内部信,我最喜欢的是标题,「坚韧如歌,随风起舞」。像坚韧,也是很难通过后天去习得的,是机缘巧合你身上就会具备的某种东西。


「最后,我想与大家分享一篇最近读到的英文文章的标题:Whispers of Resilience:Dancing with the Winds of Change,挺难完美翻译出英文的味道。最打动我的是Whispers of Resilience这个短语,它以一种独特的方式描述了身处困境时的坚韧,如轻声低语,既轻盈又自信,是一种内在的、持久的力量。它让我联想到古希腊吟游诗人荷马,荷马的坚韧与「Whispers of Resilience」中的力量如出一辙。他在失明、孤独的境遇中,依然创作出传世的史诗《伊利亚特》和《奥德赛》。他没有被命运打倒,而是以音乐和诗歌为武器,描绘战争与漂泊,传递希望与勇气。荷马的诗句,犹如微风中的低语,在逆境中保持优雅与从容。他用艺术为世界带来光明,用内心的坚定与乐观,告诉后世:即便面对风暴,也能与命运共舞。」


From超参数科技第十一封全员信《坚韧如歌,随风起舞》

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: