从陪聊到战友：网易腾讯入局AI游戏助手-虎嗅网

本文来自微信公众号：娱乐资本论，作者：林书，原文标题：《腾讯网易急入局，桌崽留存超豆包，游戏新世代由AI队友开启》，题图来源：AI生成

文章摘要

AI在游戏中实现实时互动与个性化辅助

• 🎮 AI助力游戏机制革新，提升玩家体验

• 🤖 桌崽AI突破多模态交互，懂玩家懂游戏

• 🕹️ 大厂引领AI游戏工业化，技术壁垒提升

2024年，AI在游戏行业正不断由表及里，不断触及游戏机制的核心。

大家比较熟知的《沙威玛传奇》，更多是用AI赋能制作，降本增效，到后来《1001 night》、《换你来当爹》中，AI成为游戏的核心玩法。最近，背靠大厂的《永劫无间》《暗区突围》里的AI技术再次往前进了一步，要成为玩家在游戏中的“助手”、“队友”。

和腾讯、网易做游戏内AI队友不同，就在上个月，一款名为“桌崽AI”的桌面陪伴宠物火了起来，在传统桌宠的外衣下，它真正做到了懂玩家、懂游戏，且在游戏过程中提供了实实在在的价值（查攻略、实时陪聊）。从功能性这一点看，颇有点当年游戏语音助手YY的意思。

内测一个月，总注册用户超过1万，DAU超过3000，付费率超出意料之外。

留存率也挺高，次留63%，7日留29%，30日留22%，平均每日时长237分钟。这个数据，甚至超过了很多国内大厂的大模型产品。

要知道，根据之前一张盛传的统计图表，国产 AI 大模型用户在30 日后，往往流失严重，从字节的豆包，到百度的文心一言（现在改名文小言），30日后使用率就都低于 1%。

问题来了，为何AI布局这么多赛道，唯独在游戏赛道如此成功？

原因就在于，游戏佬既对科技感兴趣，又对AI助手有强刚需，而这样的盲区和痛点，正是目前AI在其他领域少有触及，也需要一定门槛的部分。

AI助手，或许将成为AI领域竞争的下一个胜负手。

跨次元的碰撞

桌崽AI的制作团队，是国内一家名叫脸谱心智的企业，成立于去年6月。

创始人Adam是个爱玩游戏的95后，本硕毕业于帝国理工学院。在创业前，他在亚马逊、微软都工作过，对聊天机器人颇有研究。

由于创始人及其整个团队，对游戏都十分热爱，因此桌崽AI在推出时，就具备了其他同类产品少有的优势——对当前各大主流游戏的匹配。

目前，桌崽AI已经适配了《黑神话·悟空》《原神》《绝区零》《鸣潮》等20多款游戏。

只要打开游戏，桌崽AI就会在屏幕上陪着你。玩家可通过文字或语音，与和桌崽进行实时的互动。

但是，仅仅做到“陪伴”，还远不能让其脱颖而出。

如前所述，其核心亮点在于“懂游戏”、“懂玩家”，这点主要体现在两方面：其一是，在游戏过程中，桌崽AI不仅能看懂游戏中的画面、内容，并且还能根据玩家的行为，针对性地进行反馈。

例如玩家要是发挥得好，它就会夸玩家很棒；要是玩家不幸失手，它也会用幽默的语言进行调侃。

第二个方面就在于，在看懂游戏的基础上，它还能实时提供游戏攻略，在玩家卡关时提供帮助。

这样一来，玩家就再也不用在游戏时，切换回桌面，再打开浏览器去各种网站、论坛搜攻略了，桌崽就站旁边告诉你该怎么打通关。

除了这些核心功能外，桌崽还能通过生成式AI，根据玩家的喜好，定制出各种不同的外形、声音，而这种个性化的特点，又进一步增加了玩家的粘性。

然而，这样的功能，虽然看着简单，但真正要实现起来，背后却有着一定的技术门槛。具体来说，这样的门槛包括了：

多模态游戏陪玩大模型——让AI“懂游戏”；
二次元视频生成大模型——自定义外观；
语音声线定制大模型——自定义声音（语音克隆等）；

其中多模态游戏陪玩大模型，是其与游戏契合的关键所在，按照脸谱心智的介绍，该模型的运作机制，是经用户授权后，模型把游戏画面、音效和用户带有各种情绪的声音作为输入，从而给予和游戏进度同频的个性化反馈。

从技术上来说，关于游戏知识性方面的信息，模型尚且可以通过吸收各种来源的资料（游戏介绍、攻略）等，来让自己“精通”不同的游戏。

但最大的难点就在于，怎样让模型在理解各种不同模态的输入（画面、声音）的同时，还能做到实时反馈？

这就涉及到了一个十分重要的技术——多模态融合。

从某种程度上说，这是决定将来大模型在游戏中广度、深度的一个重要技术。

会看、会听的AI队友

多模态技术，之所以在游戏AI的下一阶段如此重要，主要是因为，在之前所有结合了LLM的游戏，例如《1001 night》等作品中，AI的定位与作用，始终都脱离不了“对话”这一单调的框架。

这种局限，使得AI在游戏中的作用，被限定在了提供对话选项和简单的互动，而无法深入到其他方面。

而通过对不同模态的数据进行特征提取，游戏中的AI助手，可以将原始数据转换为可以被模型处理的数值表示，同时将异构特征投影到公共子空间，使得具有相似语义的多模态数据由相似向量表示，从而让AI理解了不同模态的信息。

实际上，这种多模态的思路，已经愈发成为了一种AI+游戏的潜在发展方向。

在今年英伟达展示的一个名为G-Assist的游戏助手项目中，这个由RTX驱动的AI助手，会通过分析玩家的语音或文本指令，以及游戏界面截图，提供实时攻略等相关帮助。

这与桌崽AI的某些思路几乎如出一辙。

G-Assist的核心技术在于其AI视觉模型，通过集成先进的AI视觉模型，G-Assist能够实时分析游戏窗口中的视觉信息，比如识别屏幕上出现的敌对NPC，或是推荐优选武器和材料收集方法。

而除了“会看”之外，这类多模态融合技术的另一大挑战，就是怎样在实时的游戏中，以极低的延迟实现玩家与AI之间的语音互动。

最理想的状态，是玩家能像平时说话时那样，与AI助手进行即时的交流，这考验的是AI“会听”的功夫。

在今年5月的开发者大会上，微软推出了Copilot+ PC，一款为AI时代而生的全新PC，其同样具备了在游戏中充当AI助手的能力。

例如，在《我的世界》视频演示中，通过集合Open AI 的 GPT-4o模型，Copilot能够实时分析游戏画面内容，并根据不同的情境、场景，以各种语调、语气与玩家交流。

像是当玩家成功躲避敌人的追击后，Copilot就会发出喘气声并祝贺玩家成功找到庇护处。

这种实时的、低延迟的语音交互，背后依托的技术，大致可以分成两种，一种是传统的，以神经网络为基础的文本转语音（Text-to-Speech ）技术，也称TTS；另一种则是端到端的，GPT-4o所展现的那种实时语音技术。

从技术力上来说，后者的要求更高，但效果也远优于前者。

这是因为，传统的TTS合成，通常需要先将文本转换为语音，其输出往往存在一定的延迟，这样的差距，在某些竞技类、动作类等要求快速反应的游戏中，会显得尤为突出。

更重要的是，由于整合了意图理解、自然语言处理等环节，端到端的语音大模型，在做到“如真人般丝滑”的同时，还能根据不同的情境，实时地调整自身的语气、语调。

而传统TTS要做到这点，只能预先进行人为的设置。

在具备了“会看”、“会听”的能力后，LLM在游戏中的定位，就不再仅限于单纯进行对话的NPC，甚至不再局限于能够实时交互的AI助手，对于某些更有野心的游戏大厂来说，这种多模态技术的成熟，还成为了在AI时代，重新构筑自身护城河的一种新手段。

Agent技术，让AI胜似真人

在打破了“对话”这一框架的局限后，AI助手在游戏中能干什么？

网易在《永劫无间》中给出的答案是：一个能听懂语音指令，实现自动跑图、搜集物资，配合战斗的智能化AI队友。

6月19日，《永劫无间》手游在“定胜终测”中引入了全新的“游戏Copilot”功能。并依托先进的LLM技术，为玩家提供了一个胜似真人的AI队友。

这样的队友，究竟有多智能？

举例来说，在战斗中，玩家要是说了句：“给我来点药”，AI队友马上跑到玩家身边给予相应的道具。

同样地，在战斗中，AI队友不仅能指哪打哪，也会通过自主判断战场局势优化决策，打造和真人队友组队开黑一致的默契体验。

有时候，对于一些具体的道具搜寻，AI队友也能有求必应。

除了基本的战斗、搜寻指令外，AI队友还会主动搭话，聊天，在战斗之余缓解氛围，为玩家提供情感陪伴的价值。

总的来说，这个AI 队友能跑图，搜物资，战斗，辅助救援，与玩家实时语音聊天，真人队友能做到的一切，它也几乎全做到了。

而要实现这些，网易靠的正是前面提到的多模态识别、实时语音交互等技术。

具体来说，这个AI队友，不仅能听懂玩家的话（语音识别）、观察战场局势（视觉信息输入）、了解地图和英雄技能（游戏机制学习），甚至借助诸多高手的大数据学会了如何打好永劫手游。

但除了多模态之外，要打造这样智能化的AI队友，还有一块最重要的拼图：AI Agent 技术。

这是因为，多模态+LLM的组合，尽管解决了AI队友看、听、理解与交流的问题，但要真正让其成为游戏中的得力助手，它就必须会亲自操作游戏。

这背后靠的正是AI Agent 技术。

与传统依靠预设程序执行固定操作的NPC不同，Agent技术赋予了AI队友更高的灵活性和自主性，这是因为Agent技术让AI队友具备了“自主规划”与“自我操作”的能力。

在AI领域，Agent 指的是能够感知环境、做出决策并执行行动的系统，能够在复杂多变的环境中独立完成任务。

实际上，早在《永劫无间》的AI队友出现前，业内早已对 Agent+游戏的方向进行了一番探索。比如说网易自身，就有一个叫网易数智的AI平台，提供MMO、SLG等游戏类型的AI对手。

还有在今年3月，Google 的DeepMind就公布了一项关于新型AI智能体SIMA的开创性研究，旨在让智能体能够理解并执行多种游戏环境中的自然语言指令。

让SIMA在游戏中执行操作，只需要两个输入：屏幕上的图像和用户提供的自然语言指令。在测试中，SIMA在九种不同的游戏上进行了训练和测试，包括《无人深空》和《拆解》，并在其中进行了驾驶飞船、挖矿、砍树等一系列操作。

通过从不同的游戏世界中学习，SIMA捕捉了图像、语言与游戏玩法行为之间的联系。

这样的联系，来自游戏过程中收集的大量数据。比如屏幕上的画面、音效、文字说明，甚至鼠标和键盘的操作记录。

之后，收集的数据集被用于训练预先设定的模型，以适应不同的游戏场景和任务。

从玩法机制上来说，AI Agent技术在游戏领域的介入，几乎是一种必然，因为有太多的游戏，都存在着需要复杂规划和多个子任务才能完成的目标了，例如“寻找资源并建立营地”等等。

而这类融合了多模态、Agent等技术的游戏尝试，在发展到一定阶段后，必定会出现某个成熟的“集大成者”。

例如《暗区突围》中的AI队友，就是这样一个例子。

更高的壁垒，更高的体验

在今年8月的科隆游戏展上，腾讯魔方工作室分享了自研的最新AI技术——F.A.C.U.L.。

这是由魔方工作室联合暗区突围项目团队，推出的全球首个语音指挥FPS AI，应用了最先进的生成式AI技术，包括语音输入、大语言模型、实时语音合成和环境识别等。

所谓的F.A.C.U.L.，实际上是一系列核心功能的集合，为的是使AI表现得更像人类队友。

具体来说，它包括了：

Complex Command Recognition（复杂指令识别）：这个功能意味着AI可以理解玩家下达的复杂命令，使其能够识别和执行多步指令，适应不同的战术需求。

Tactic Execution（战术执行）：指AI具备执行战术操作的能力，比如掩护、包抄、进攻等。AI不再是简单地跟随玩家或进行基础攻击，而是能够参与到更复杂的战术中。

Object Identification（物体识别）：这意味着AI可以识别场景中的特定物体，比如敌人、掩体、道具等。这种识别能力是执行任务和战术的基础，帮助AI在复杂环境中做出合适的决策。

Human-Like Interaction（类人交互）：旨在让AI在行为上更加接近人类，AI会表现出类似人类的反应，增强游戏的沉浸感。

虽然与《永劫无间》中的AI队友一样，《暗区突围》的F.A.C.U.L.也结合了多模态、Agent等技术，但从复杂度和要求上来说，其却比前者更上了一个台阶。

这主要是因为，与《永劫无间》相比，《暗区突围》中的道具、武器、场景更多，更复杂，战斗中需要执行的战术也更多样化，更充满变数。

例如，“F.A.C.U.L.”将允许 AI 角色识别多大 1.7 万个游戏物品，包括建筑物、武器、地表。魔方工作室称它们甚至能识别“一根草”。

在具体战斗中，玩家还可以对AI队友还可以发处一系列连续的、复杂的指令，而AI队友在执行这些指令时，不仅能准确理解其含义，还能知道指令中提到的“沙袋”、“汽车”究竟在哪。

在执行指令时，F.A.C.U.L.首先会基于多模态输入，对环境进行结构化分析，建立一个包含敌我位置、障碍物、目标物体等要素的“局势地图”。

之后，当玩家发布“清理房间并守住出口”这样的复合命令时，AI队友就会通过Agent的任务分解与多步骤执行能力，将其分解为多个步骤：首先清理敌人，然后搜索物资，最后在出口守卫。

这种多阶段任务分解与执行能力，是Agent技术中“自主规划”的重要环节，也是F.A.C.U.L.这类AI高效、灵活地完成任务的关键。

结语

可以说，《永劫无间》《暗区突围》这样的例子，揭示了随着多模态、Agent等技术的进一步发展，AI在游戏中的介入程度正不断加深，其带来的游戏体验上的提升，也越来越明显。

但与此同时，AI+游戏的另一大趋势是：随着技术复杂度不断提升，“AI游戏”的门槛和壁垒也在一步步变高，有实力留在牌桌上的选手，也成了资源和资金更加充足的大厂。

然而，从行业的角度来说，这种不断提升的门槛，也未尝不是一件好事。

因为随着大厂逐渐主导AI+游戏领域，AI游戏的制作，会迈入一个更稳健，也更有标准和规范可循的“工业化时代”，其品质的提升会更扎实，更可控。而非像AI游戏的初期阶段那样，游戏的爆火与走红，大多只能靠团队的“灵感”、禀赋或运气。

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

从陪聊到战友：网易腾讯入局AI游戏助手

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜