对话超参数：Agent 诞生于游戏，最终会走进生活-虎嗅网

本文来自微信公众号：极客公园（ID：geekpark），作者：凌晨

复杂性科学的奠基人布莱恩·阿瑟总结：「新技术诞生于已有的技术组合。」

超参数科技成立于2019年初。时间上，是如今被称为上一代AI——即「模式识别」，浪潮顶峰的尾巴。泡沫尾随其后。那时候，OpenAI和DeepMind还专注于用强化学习RL（Reinforce Learning)教AI玩游戏。优化LLM输出的核心方法RLHF也诞生于彼时。

当下，在Scaling Law边际效应递减的时候，技术界又将目光投回了强化学习RL。于是，Scaling Law+RLHF成为目前最受关注的技术组合之一。

超参数创始人刘永升是腾讯围棋AI「绝艺」、王者荣耀AI「绝悟」项目负责人。他也是在用RL教AI下棋、玩游戏中，对AI产生了信心。「像训练一个小朋友一样，看到AI从什么都不会，到慢慢学会各种本领……最终看到AI做出人类做不出来地动作，冲击感太强了」。

也是最初对于AI的信心，让他和团队从腾讯出来，成立了超参数。这之后，外界对AI信心，从顶峰降至谷底，又迎来了2.0的高潮。

在大模型出来之后，聊起游戏AI时，不时会听到新生代的创业者，将超参数定义为「上一代」。而市面上，的确很少听见这家公司的声音。

最近，极客公园和刘永升做了一次交流，请他讲了讲从RL，再到LLM+RL一路走来做的事情，正在推进的AI-Native游戏项目，还有他对游戏AI的看法。

超参数科技创始人&CEO刘永升

游戏Agent：

从比人强、到拟人、再到有温度

极客公园：LLM出现以来，人们开始讨论AI对游戏领域带来变革，你观察到这个领域里出现了怎样的变化？

刘永升：我观察到两个方向。

一个是能不能通过LLM和AIGC，用更低的成本产生更多差异化的内容，目前能看到生产各种素材的尝试。另外一条是沿着GameAgent的路线，能不能让游戏里面的Bot、NPC变得更有生命感。

以前，我们通过强化学习的方式，能让游戏里的Bot变得很厉害。但是这仅仅是游戏体验的一个方面，玩家还是希望更有差异化、以及人性化的体验。

很多人认为游戏中加上了AI能力就是AI游戏，我们认为这是一种「掺水」，或者说是对AI游戏标准、对自己的作品的一种「宽容」。有些界定，最好是能比较清晰的。以AI游戏来说，AI从游戏的底层架构开始就应该发挥作用，而不是加点AI的边角料就说自己是AI游戏。

极客公园：怎么理解「拟人化」的体验？

刘永升：我们以前做强化学习，让游戏里的Bot能力变得很强，甚至比真人还要厉害。但是对于玩家来说，希望在游戏里遇到的Bot不要完全碾压自己，TA能够对我好，有温度。比如我在游戏里面遇到的队友、角色也能够跟进我的要求。

我们之前通过SL（Supervise Learning)和RL（Reinforce Learning）结合起来，能够解决在操作上「拟人」的问题。

比如物理上的一些限制，人在游戏操作里不能够瞬间180度转身，决策一次需要0.1~0.2秒，这些限制对于AI来说不存在。

通过建模，我们可以把人在游戏世界里操作时的限制、或者模式写进去。这是我们以前解决比较多的一个点。

极客公园：在LLM出现之后，技术可以对游戏体验的提升带来哪些影响？

刘永升：玩家也会希望Agent在游戏世界的行为更像人，跟人的互动更加丰富，（这意味着）Agent不仅能够响应玩家的命令，还能够主动地向玩家提出一些请求。

这种效果在LLM技术出来之前，用之前的一套技术栈满足互动性的需求，是比较难的。

我们的目标一直是提高Agent的自主性和互动性。在2021年之前，我们一直在提高自主性，让AI在复杂场景里做决策。在2021年我们发布了「猎户座α」，相当于突破了3D环境里的GameAgent，让AI可以玩射击类的游戏，这也是全球范围内我们最先做出这个成果。

极客公园：似乎是LLM出来之后，像斯坦福小镇这样的研究出现之后，人们开始对Agent在游戏里的具体形态有了更多想象。

刘永升：现在，Agent除了实现自主决策是不够的，还需要具有的「互动性」，也就是它们之间彼此互动产生足够多的内容。于是我们做了「活的长安城」这样一个城市Demo，里面有很多不同背景、不同职业的人，他们之间有各种复杂的关系，形成自运转的一个小型社会。对应这个Demo同时发布的叫做「游戏NPC生态技术」。

在2019、2020年的时候，我们讨论过Agent这个概念。但是那个时候，Agent会翻译成代理，近一两年才翻译成「智能体」。

如果在当时的环境下，翻译成代理跟别人去介绍，对方完全会一脸懵逼。所以当时我们就退而求其次，叫做GameBot。

极客公园：对于未来Agent的发展，会怎样设想？

刘永升：未来我们的生活中会出现越来越多Agent，比如越来越多的机器狗、无人机。某种意义上，机器人属于Agent的一种，未来的硬件、具身智能也会越来越发达。

具体到游戏领域，Agent也会走出来，因为你在游戏世界和Agent有大量的互动，它会加深对你的了解，你对他就会产生很强的羁绊，这种羁绊是可以延续到生活中的。

那么当游戏的周边实体出现，比如游戏里的一些角色，就能够变成你生活中的高级玩具，他能够和你一起创建Both Reality，在游戏世界与你探索，在生活中与你进行各种互动。所以我们认为未来是10亿人和100亿AI共同生活的世界。

02、游戏研发是一个非常复杂的系统工程

极客公园：「活的长安城」这个虚拟城市Demo对应的「游戏NPC生态技术」，这个技术栈要怎么理解？

刘永升：在Agent的技术拆分上，我们和大多数团队的处理方式都一样，分成不同的模块，Control、Plan、Memory、Reflection等。这是每一个个体，也就是一个Agent的底层架构。

此外，这个生态需要更好地运转，也就是Agent和Agent之间更好地互动，需要有更上层的设计。可以将它理解为一个「事件的触发器」，进行top-down的控制。如果没有这种top-down的控制，只靠底层的涌现，生产的内容很快就会让人觉得索然无味了。

实际上最难的是在顶层要做多大的控制，即事件触发。某个事件触发之后，会改变游戏世界的很多状态或数值，进而影响到最底层的Agent。

很像人和国家的关系、国家之间的关系博弈，（一个顶层事件）会改变很多东西，再进一步传递到个体，个体也会受到影响。在没有大模型之前，或者是大模型没有这么强的时候，「事件触发」做起来是挺难的。

极客公园：需要写很多规则？

刘永升：要依靠策划，并且做大量的修改。但是我们发现像GPT-4出来之后，上层的事件触发和LLM结合起来，是比较有效的。首先，大的事件不会特别高频，不会时时刻刻变化。第二，发生变化之后，传递到底层「人们」的行为发生变化，也会有一个过程。

极客公园：底层的Agent，和上层触发器之间的如何联动很关键。

刘永升：我认为最牛逼的就是这样一套全新的体系。底下的互动，也会影响上层事件触发的逻辑。如果只是Bottom-up，相当于只给了一个起点，具体会发生什么，完全是不可控的。如果我给的是很多关键节点a、b、c、d、e。这些节点是确定的，但是每个节点之间怎么走，是交给AI自己决定的，但是整体主线是make sense的。

极客公园：目前这套技术框架，有没有应用到具体的游戏开发中？

刘永升：我们最近在和一个Steam游戏团队合作，把这样的技术架构落到一个商业化游戏里面去。

关于太空商人和经营类的游戏。大致设定是在太空里有很多星球，有很多Agent，而A国和B国之间的关系会影响到商人之间的经营。比如两国关系紧张了，可能B国就突然不跟A国做生意了，或者提价等等。

极客公园：这套新的技术框架，应用到游戏开发的过程中，最大的挑战在哪里？

刘永升：对现有游戏研发管线造成了很大冲击。

现在的游戏研发比较追求确定性。而游戏研发本身是一个非常复杂的系统工程，有很多不同工种、不同专业的人参与进来，也有非常严密的项目管理。

AI最大的特点是不确定性，怎么让对确定性要求非常高的一套管理软件，去兼容不确定性，是很难的。

比如合作中经常会发生AI和策划同学都崩溃了的情况，怎么把双方都梳理好，这里面临巨大的挑战。

这也可以解释，为什么所谓的AI-Native的商业化游戏还没有出来，因为你不是有个想法就行，具体到团队付诸实施的层面，经常会被整疯了。要不做游戏的疯了，要不做AI的疯了。（笑）

极客公园：那就超参数自己探索的经验来说，有什么心得？

刘永升：团队很重要。选人的时候，对团队的要求变高了，真正有信仰的人，疯了一段时间之后，又能冷静下来，具体去探讨怎么把这个问题解决。对于整个项目而言，耐心程度要更高一些。

这里面，除了AI的不确定性，最终的整体游戏体验也有不确定性。那么整个过程中就不像传统游戏的Milestone，很够很清晰地建立对下一个版本的预期。

比较难建立预期的时候，团队怎样保持住凝聚，就需要内心强大。

03、坚韧是机缘巧合你身上就具备的某种东西

极客公园：外界常常将超参数视为游戏AI公司，但是似乎这和超参数对自己的理解有所不同？

刘永升：我们也很无奈，可能我们身上的「游戏」标签比较重，我们只是把游戏作为一个AI技术迅速落地的场景而已。

此前，游戏是一个适合强化学习、无监督学习迭代的场景。那么现在LLM+RL的技术栈，依旧是合适在GameAgent的场景中去迭代。

极客公园：毕竟从商业化角度而言，超参数约等于是中国最大的第三方AINPC供应商。

刘永升：作为技术公司，我们不像DeepMind有大公司养活，所以我们需要考虑商业化，游戏领域的商业化我们做的的确不错。

我们也在其它的领域尝试应用，比如将Agent技术应用在低空交通领域，包括自动驾驶。还有一个非常重要的方向叫做Agent based simulation，比如我们在和一个大学合作，对古代的城市进行模拟，对经济系统中人的行为进行模拟。

很多复杂系统不能归纳推理，利用AI技术将一些场景模拟出来，再返回生活的场景，能够解决一些问题。

极客公园：怎么看今年夏天谷歌推出的AI游戏引擎？

刘永升：如果他们想做一种新的游戏引擎，去取代现有的引擎，我觉得会很难。现在的游戏项目已经是一个超级复杂的工程，有非常复杂的管线的管理。有内容、运营、商业化的，很多不同的要素。如果你想让AI进行端到端的尝试，非常不利于人与人协同开发。即使现在生成的视频，最后要用起来，还是需要人做后期的处理。

如果作为视频生成的加强版，除了呈现还增加了互动，我觉得是一个比较好的科研项目。能够让AI更好地理解物理世界。因为生成内容于对一致性的要求更高，如果真的能够解决一致性，势必对物理世界的理解会更深。

极客公园：那怎么看前不久一家初创公司实现的实时可交互世界模型Oasis？

刘永升：现在挺多人会尝试用自然语言聊天的方式来实现一个游戏，我自己也会跟进一些这样的项目。我自己最大的感受是，不见得写代码就会比语言更复杂。

极客公园：但是降低了门槛。

刘永升：所以我倾向于认为，未来通过语言交互生产的内容，很难做一些非常复杂的系统，因为复杂的东西，你要用语言描述出来其实是很难的，效率也很低。

极客公园：这样的视角，或许与超参数这些年作为一个成熟技术的供应商有关？除了技术突破之外，也很注重工程的稳定性，效率等因素。

刘永升：碰到这个话题，我挺想多说一点。很多时候，大家一讲到技术，就会更多讲算法，比如在强化学习的时候，大家会对PPO、DQN等很感兴趣。

但是在这次大模型出来之后，大家开始注意工程。比如让10万块A100或者H200并行，面临大量的工程挑战。

从我的视角去看，这仅仅是offline的工程，还有另外一块非常重要的点是Online，就是模型怎样去delivery服务。

特别是像我们需要在全球去提供服务，在南美、东南亚很多地方，IDC不具备部署新型GPU的条件，这种时候要提供实时的服务，本身就是一个巨大的难题。我们过去一直在解决这些问题，比如如何让压缩过的小模型在10年前的CPU上都能够跑起来，做大量的压缩和预测，在网络质量差的情况下也做到低延时。

看到大家现在重视工程，比较欣喜。我也相信接下来，过去两年积累起来的大模型的能力，真的去大规模服务的话，高并发、低延时的场景，会遇到很多Online的巨大挑战。

极客公园：创业者这么多年，肯定经历了很多的挑战，其中也有起起伏伏，有什么体会特别想分享的吗？

刘永升：我对自己比较震惊的一点，就是我觉得自己肯定不会犯的错误，我还是老老实实犯了两次。从理智角度来讲，你觉得自己绝对不会犯这个错误，但还是犯了——就是不够聚焦。

大家都知道，创业应该聚焦，用有限的资源去做最重要的事情。道理都是知道的，但是我为什么还会犯错误，我自己想这里面的原因是什么。很大一个原因是，之前在大厂各方面资源支持比较充足，也赶上了趋势，加上团队很给力，在很长一段时间里呈现出「没有做不到，只有想不到」的状态。惯性或者说潜意识里就会过于乐观。

到今年4月份之后，我们深刻认识到要有敬畏之心。经历过教训，会告诉自己一定要控制好自己的手脚，不要分兵，是一件很难很难，但是非常非常重要的事情。

极客公园：听员工说，你经常给大家写内部信。最近的内部信，有写到什么？

刘永升：上次我写的内部信，我最喜欢的是标题，「坚韧如歌，随风起舞」。像坚韧，也是很难通过后天去习得的，是机缘巧合你身上就会具备的某种东西。

「最后，我想与大家分享一篇最近读到的英文文章的标题：Whispers of Resilience:Dancing with the Winds of Change，挺难完美翻译出英文的味道。最打动我的是Whispers of Resilience这个短语，它以一种独特的方式描述了身处困境时的坚韧，如轻声低语，既轻盈又自信，是一种内在的、持久的力量。它让我联想到古希腊吟游诗人荷马，荷马的坚韧与「Whispers of Resilience」中的力量如出一辙。他在失明、孤独的境遇中，依然创作出传世的史诗《伊利亚特》和《奥德赛》。他没有被命运打倒，而是以音乐和诗歌为武器，描绘战争与漂泊，传递希望与勇气。荷马的诗句，犹如微风中的低语，在逆境中保持优雅与从容。他用艺术为世界带来光明，用内心的坚定与乐观，告诉后世：即便面对风暴，也能与命运共舞。」

From超参数科技第十一封全员信《坚韧如歌，随风起舞》

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

对话超参数：Agent 诞生于游戏，最终会走进生活

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜