扫码打开虎嗅APP
本文来自微信公众号:娱乐资本论,作者:林书,原文标题:《腾讯网易急入局,桌崽留存超豆包,游戏新世代由AI队友开启》,题图来源:AI生成
2024年,AI在游戏行业正不断由表及里,不断触及游戏机制的核心。
大家比较熟知的《沙威玛传奇》,更多是用AI赋能制作,降本增效,到后来《1001 night》、《换你来当爹》中,AI成为游戏的核心玩法。最近,背靠大厂的《永劫无间》《暗区突围》里的AI技术再次往前进了一步,要成为玩家在游戏中的“助手”、“队友”。
和腾讯、网易做游戏内AI队友不同,就在上个月,一款名为“桌崽AI”的桌面陪伴宠物火了起来,在传统桌宠的外衣下,它真正做到了懂玩家、懂游戏,且在游戏过程中提供了实实在在的价值(查攻略、实时陪聊)。从功能性这一点看,颇有点当年游戏语音助手YY的意思。
内测一个月,总注册用户超过1万,DAU超过3000,付费率超出意料之外。
留存率也挺高,次留63%,7日留29%,30日留22%,平均每日时长237分钟。这个数据,甚至超过了很多国内大厂的大模型产品。
要知道,根据之前一张盛传的统计图表,国产 AI 大模型用户在30 日后,往往流失严重,从字节的豆包,到百度的文心一言(现在改名文小言),30日后使用率就都低于 1%。
问题来了,为何AI布局这么多赛道,唯独在游戏赛道如此成功?
原因就在于,游戏佬既对科技感兴趣,又对AI助手有强刚需,而这样的盲区和痛点,正是目前AI在其他领域少有触及,也需要一定门槛的部分。
AI助手,或许将成为AI领域竞争的下一个胜负手。
跨次元的碰撞
桌崽AI的制作团队,是国内一家名叫脸谱心智的企业,成立于去年6月。
创始人Adam是个爱玩游戏的95后,本硕毕业于帝国理工学院。在创业前,他在亚马逊、微软都工作过,对聊天机器人颇有研究。
由于创始人及其整个团队,对游戏都十分热爱,因此桌崽AI在推出时,就具备了其他同类产品少有的优势——对当前各大主流游戏的匹配。
目前,桌崽AI已经适配了《黑神话·悟空》《原神》《绝区零》《鸣潮》等20多款游戏。
只要打开游戏,桌崽AI就会在屏幕上陪着你。玩家可通过文字或语音,与和桌崽进行实时的互动。
但是,仅仅做到“陪伴”,还远不能让其脱颖而出。
如前所述,其核心亮点在于“懂游戏”、“懂玩家”,这点主要体现在两方面:其一是,在游戏过程中,桌崽AI不仅能看懂游戏中的画面、内容,并且还能根据玩家的行为,针对性地进行反馈。
例如玩家要是发挥得好,它就会夸玩家很棒;要是玩家不幸失手,它也会用幽默的语言进行调侃。
第二个方面就在于,在看懂游戏的基础上,它还能实时提供游戏攻略,在玩家卡关时提供帮助。
这样一来,玩家就再也不用在游戏时,切换回桌面,再打开浏览器去各种网站、论坛搜攻略了,桌崽就站旁边告诉你该怎么打通关。
除了这些核心功能外,桌崽还能通过生成式AI,根据玩家的喜好,定制出各种不同的外形、声音,而这种个性化的特点,又进一步增加了玩家的粘性。
然而,这样的功能,虽然看着简单,但真正要实现起来,背后却有着一定的技术门槛。具体来说,这样的门槛包括了:
多模态游戏陪玩大模型——让AI“懂游戏”;
二次元视频生成大模型——自定义外观;
语音声线定制大模型——自定义声音(语音克隆等);
其中多模态游戏陪玩大模型,是其与游戏契合的关键所在,按照脸谱心智的介绍,该模型的运作机制,是经用户授权后,模型把游戏画面、音效和用户带有各种情绪的声音作为输入,从而给予和游戏进度同频的个性化反馈。
从技术上来说,关于游戏知识性方面的信息,模型尚且可以通过吸收各种来源的资料(游戏介绍、攻略)等,来让自己“精通”不同的游戏。
但最大的难点就在于,怎样让模型在理解各种不同模态的输入(画面、声音)的同时,还能做到实时反馈?
这就涉及到了一个十分重要的技术——多模态融合。
从某种程度上说,这是决定将来大模型在游戏中广度、深度的一个重要技术。
会看、会听的AI队友
多模态技术,之所以在游戏AI的下一阶段如此重要,主要是因为,在之前所有结合了LLM的游戏,例如《1001 night》等作品中,AI的定位与作用,始终都脱离不了“对话”这一单调的框架。
这种局限,使得AI在游戏中的作用,被限定在了提供对话选项和简单的互动,而无法深入到其他方面。
而通过对不同模态的数据进行特征提取,游戏中的AI助手,可以将原始数据转换为可以被模型处理的数值表示,同时将异构特征投影到公共子空间,使得具有相似语义的多模态数据由相似向量表示,从而让AI理解了不同模态的信息。
实际上,这种多模态的思路,已经愈发成为了一种AI+游戏的潜在发展方向。
在今年英伟达展示的一个名为G-Assist的游戏助手项目中,这个由RTX驱动的AI助手,会通过分析玩家的语音或文本指令,以及游戏界面截图,提供实时攻略等相关帮助。
这与桌崽AI的某些思路几乎如出一辙。
G-Assist的核心技术在于其AI视觉模型,通过集成先进的AI视觉模型,G-Assist能够实时分析游戏窗口中的视觉信息,比如识别屏幕上出现的敌对NPC,或是推荐优选武器和材料收集方法。
而除了“会看”之外,这类多模态融合技术的另一大挑战,就是怎样在实时的游戏中,以极低的延迟实现玩家与AI之间的语音互动。
最理想的状态,是玩家能像平时说话时那样,与AI助手进行即时的交流,这考验的是AI“会听”的功夫。
在今年5月的开发者大会上,微软推出了Copilot+ PC,一款为AI时代而生的全新PC,其同样具备了在游戏中充当AI助手的能力。
例如,在《我的世界》视频演示中,通过集合Open AI 的 GPT-4o模型,Copilot能够实时分析游戏画面内容,并根据不同的情境、场景,以各种语调、语气与玩家交流。
像是当玩家成功躲避敌人的追击后,Copilot就会发出喘气声并祝贺玩家成功找到庇护处。
这种实时的、低延迟的语音交互,背后依托的技术,大致可以分成两种,一种是传统的,以神经网络为基础的文本转语音(Text-to-Speech )技术,也称TTS;另一种则是端到端的,GPT-4o所展现的那种实时语音技术。
从技术力上来说,后者的要求更高,但效果也远优于前者。
这是因为,传统的TTS合成,通常需要先将文本转换为语音,其输出往往存在一定的延迟,这样的差距,在某些竞技类、动作类等要求快速反应的游戏中,会显得尤为突出。
更重要的是,由于整合了意图理解、自然语言处理等环节,端到端的语音大模型,在做到“如真人般丝滑”的同时,还能根据不同的情境,实时地调整自身的语气、语调。
而传统TTS要做到这点,只能预先进行人为的设置。
在具备了“会看”、“会听”的能力后,LLM在游戏中的定位,就不再仅限于单纯进行对话的NPC,甚至不再局限于能够实时交互的AI助手,对于某些更有野心的游戏大厂来说,这种多模态技术的成熟,还成为了在AI时代,重新构筑自身护城河的一种新手段。
Agent技术,让AI胜似真人
在打破了“对话”这一框架的局限后,AI助手在游戏中能干什么?
网易在《永劫无间》中给出的答案是:一个能听懂语音指令,实现自动跑图、搜集物资,配合战斗的智能化AI队友。
6月19日,《永劫无间》手游在“定胜终测”中引入了全新的“游戏Copilot”功能。并依托先进的LLM技术,为玩家提供了一个胜似真人的AI队友。
这样的队友,究竟有多智能?
举例来说,在战斗中,玩家要是说了句:“给我来点药”,AI队友马上跑到玩家身边给予相应的道具。
同样地,在战斗中,AI队友不仅能指哪打哪,也会通过自主判断战场局势优化决策,打造和真人队友组队开黑一致的默契体验。
有时候,对于一些具体的道具搜寻,AI队友也能有求必应。
除了基本的战斗、搜寻指令外,AI队友还会主动搭话,聊天,在战斗之余缓解氛围,为玩家提供情感陪伴的价值。
总的来说,这个AI 队友能跑图,搜物资,战斗,辅助救援,与玩家实时语音聊天,真人队友能做到的一切,它也几乎全做到了。
而要实现这些,网易靠的正是前面提到的多模态识别、实时语音交互等技术。
具体来说,这个AI队友,不仅能听懂玩家的话(语音识别)、观察战场局势(视觉信息输入)、了解地图和英雄技能(游戏机制学习),甚至借助诸多高手的大数据学会了如何打好永劫手游。
但除了多模态之外,要打造这样智能化的AI队友,还有一块最重要的拼图:AI Agent 技术。
这是因为,多模态+LLM的组合,尽管解决了AI队友看、听、理解与交流的问题,但要真正让其成为游戏中的得力助手,它就必须会亲自操作游戏。
这背后靠的正是AI Agent 技术。
与传统依靠预设程序执行固定操作的NPC不同,Agent技术赋予了AI队友更高的灵活性和自主性,这是因为Agent技术让AI队友具备了“自主规划”与“自我操作”的能力。
在AI领域,Agent 指的是能够感知环境、做出决策并执行行动的系统,能够在复杂多变的环境中独立完成任务。
实际上,早在《永劫无间》的AI队友出现前,业内早已对 Agent+游戏的方向进行了一番探索。比如说网易自身,就有一个叫网易数智的AI平台,提供MMO、SLG等游戏类型的AI对手。
还有在今年3月,Google 的DeepMind就公布了一项关于新型AI智能体SIMA的开创性研究,旨在让智能体能够理解并执行多种游戏环境中的自然语言指令。
让SIMA在游戏中执行操作,只需要两个输入:屏幕上的图像和用户提供的自然语言指令。在测试中,SIMA在九种不同的游戏上进行了训练和测试,包括《无人深空》和《拆解》,并在其中进行了驾驶飞船、挖矿、砍树等一系列操作。
通过从不同的游戏世界中学习,SIMA捕捉了图像、语言与游戏玩法行为之间的联系。
这样的联系,来自游戏过程中收集的大量数据。比如屏幕上的画面、音效、文字说明,甚至鼠标和键盘的操作记录。
之后,收集的数据集被用于训练预先设定的模型,以适应不同的游戏场景和任务。
从玩法机制上来说,AI Agent技术在游戏领域的介入,几乎是一种必然,因为有太多的游戏,都存在着需要复杂规划和多个子任务才能完成的目标了,例如“寻找资源并建立营地”等等。
而这类融合了多模态、Agent等技术的游戏尝试,在发展到一定阶段后,必定会出现某个成熟的“集大成者”。
例如《暗区突围》中的AI队友,就是这样一个例子。
更高的壁垒,更高的体验
在今年8月的科隆游戏展上,腾讯魔方工作室分享了自研的最新AI技术——F.A.C.U.L.。
这是由魔方工作室联合暗区突围项目团队,推出的全球首个语音指挥FPS AI,应用了最先进的生成式AI技术,包括语音输入、大语言模型、实时语音合成和环境识别等。
所谓的F.A.C.U.L.,实际上是一系列核心功能的集合,为的是使AI表现得更像人类队友。
具体来说,它包括了:
Complex Command Recognition(复杂指令识别):这个功能意味着AI可以理解玩家下达的复杂命令,使其能够识别和执行多步指令,适应不同的战术需求。
Tactic Execution(战术执行):指AI具备执行战术操作的能力,比如掩护、包抄、进攻等。AI不再是简单地跟随玩家或进行基础攻击,而是能够参与到更复杂的战术中。
Object Identification(物体识别):这意味着AI可以识别场景中的特定物体,比如敌人、掩体、道具等。这种识别能力是执行任务和战术的基础,帮助AI在复杂环境中做出合适的决策。
Human-Like Interaction(类人交互):旨在让AI在行为上更加接近人类,AI会表现出类似人类的反应,增强游戏的沉浸感。
虽然与《永劫无间》中的AI队友一样,《暗区突围》的F.A.C.U.L.也结合了多模态、Agent等技术,但从复杂度和要求上来说,其却比前者更上了一个台阶。
这主要是因为,与《永劫无间》相比,《暗区突围》中的道具、武器、场景更多,更复杂,战斗中需要执行的战术也更多样化,更充满变数。
例如,“F.A.C.U.L.”将允许 AI 角色识别多大 1.7 万个游戏物品,包括建筑物、武器、地表。魔方工作室称它们甚至能识别“一根草”。
在具体战斗中,玩家还可以对AI队友还可以发处一系列连续的、复杂的指令,而AI队友在执行这些指令时,不仅能准确理解其含义,还能知道指令中提到的“沙袋”、“汽车”究竟在哪。
在执行指令时,F.A.C.U.L.首先会基于多模态输入,对环境进行结构化分析,建立一个包含敌我位置、障碍物、目标物体等要素的“局势地图”。
之后,当玩家发布“清理房间并守住出口”这样的复合命令时,AI队友就会通过Agent的任务分解与多步骤执行能力,将其分解为多个步骤:首先清理敌人,然后搜索物资,最后在出口守卫。
这种多阶段任务分解与执行能力,是Agent技术中“自主规划”的重要环节,也是F.A.C.U.L.这类AI高效、灵活地完成任务的关键。
结语
可以说,《永劫无间》《暗区突围》这样的例子,揭示了随着多模态、Agent等技术的进一步发展,AI在游戏中的介入程度正不断加深,其带来的游戏体验上的提升,也越来越明显。
但与此同时,AI+游戏的另一大趋势是:随着技术复杂度不断提升,“AI游戏”的门槛和壁垒也在一步步变高,有实力留在牌桌上的选手,也成了资源和资金更加充足的大厂。
然而,从行业的角度来说,这种不断提升的门槛,也未尝不是一件好事。
因为随着大厂逐渐主导AI+游戏领域,AI游戏的制作,会迈入一个更稳健,也更有标准和规范可循的“工业化时代”,其品质的提升会更扎实,更可控。而非像AI游戏的初期阶段那样,游戏的爆火与走红,大多只能靠团队的“灵感”、禀赋或运气。