正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-09-28 15:55

GPT-4o 打《黑神话·悟空》,AI“马喽”拿捏Boss ,胜率超人类

本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,头图来自:AI生成

文章摘要
AI助力《黑神话·悟空》,VARP智能体高效通关。

• 🧠 AI智能体VARP框架提升游戏操控

• 🎮 生成式AI加速游戏开发与渲染

• 🤖 AI与游戏结合提升玩家体验和挑战

《黑神话·悟空》这个游戏就一个怪吗?


我承认,当朋友对我发出这样的质疑时,那一刻,我破防了。


从意识到必拿下杨戬,到必撑死虎先锋,我只花了不到半天的时间,而如果想通关《黑神话》,我们能够指望AI吗?


翻滚闪避,拉开距离,精怪的行动尽收眼底。



时机一到,天命人猛地挥出重棍。



借助AI的力量,一套丝滑连招下来,Boss被拿捏得毫无还手之力,不知馋哭多少游戏手残党。


阿里研究团队最近提出了一个VARP智能体框架。而这个AI“马喽”正是出自他们之手。


可以说,不是外挂,却胜似外挂。


直面大圣的GPT们,还真不比人类差


AI直面大圣,其实也没那么复杂。


传统上,游戏AI依赖游戏API来获取环境信息和可执行的动作数据。但问题是,不是每个游戏都愿意提供开放的API,或者即使提供,有的API也缺胳膊少腿,很难满足实际需求。


而且,传统方法也总感觉少点什么,无法完全模拟人类玩家的真实游戏体验。


基于此,阿里研究团队提出了一个新的VARP(Vision Action Role-Playing)智能体框架。


VARP智能体框架在接收输入的游戏屏幕截图后,通过运用一组VLMs进行推理,最终生成Python形式的代码来操控游戏角色,包括一系列原子命令的组合,如轻攻击、躲避、重攻击和回血等。



VARP包含三个知识库:情境库、动作库和人类引导库,以及两个系统:动作规划系统和人类引导轨迹系统。


简单来说,动作规划系统相当于图书馆管理员,负责从情境库和可更新的动作库中找出最合适的资料。



系统根据输入的游戏屏幕截图,挑选或生成符合当前情境的动作,然后这些动作和情境会被存入或更新到这两个库中。


而人类引导轨迹系统则利用人类操作数据集来提升VARP在复杂任务中的表现,比如寻路任务和高难度战斗任务等。


在动作库中,“def new_func_a()”表示由动作规划系统生成的新动作,而“def new_func_h()”表示由人类引导轨迹系统生成的新动作。“def pre_func()”表示预定义的动作。



在上文提到的《黑神话·悟空》游戏中,研究团队设定了12个任务,其中75%涉及战斗,并使用包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 pro等VLMs进行了基准测试。


结果显示,VARP在基本任务和简单到中等难度的战斗中,胜率高达90%。但在面对高难度任务时,VARP的表现容易掉链子,整体水平仍然不如人类玩家。


此外,VARP智能体在处理游戏中的决策时,因为依赖于视觉语言模型(VLM)的推理速度,所以不能够实时地分析每一个游戏帧(即游戏画面)


换句话说,它不能像人类玩家那样,几乎瞬间对屏幕上发生的一切作出反应。相反,它只能每隔几秒钟处理一次游戏画面,选择一些重要的帧(关键帧)来进行分析和决策。


《黑神话·悟空》上线时曾被吐槽缺乏地图,且存在大量的“空气墙”,所以在没有人类的辅助下,AI也会像无头苍蝇一样找不到Boss。


生成式AI点燃了世界变革的火种,而在它尚未涌入大众视野之时,普通人对AI更直观的羁绊或许大多源于游戏。


在电子游戏史上,AI远比我们想象的重要


可能很多人都没想到,最早一批搭上AI快车的游戏会是经典街机游戏《吃豆人》。


玩家胜利的前提是吃掉迷宫内的所有豆子,而看似傻乎乎的彩色鬼魂则拥有不同的追击算法,它们会以不同的路径和方式对玩家展开围追堵截。


每个鬼魂的算法招数异常简单,也缺乏任何学习能力,一旦玩家摸透了这些规律,游戏的挑战难度便会直线下降。



1987年推出的《合金装备》则标志着游戏AI的另一个重要里程碑。


游戏中的AI角色开始展现出更为复杂的行为模式,并首次引入了对玩家的敌对反应机制。如果玩家被敌人发现,敌人会触发警报系统,呼叫增援,改变巡逻路线,甚至设置陷阱。


再后来,如果粗浅地将AI与游戏的发展历程用一连串标志性事件罗列出来,大致如下:


1997,IBM的“深蓝”在国际象棋比赛中击败人类世界冠军,标志着AI在棋类游戏中的重大突破。


2004年,《半条命2》发布,游戏中的AI角色能够进行更复杂的决策和互动,提升了游戏的沉浸感。


2011年,IBM的“沃森”在智力问答节目《危险边缘》中击败了人类冠军,展示了AI在自然语言处理和知识推理方面的进步。


2016年,AlphaGo在围棋比赛中击败了李世石,标志着AI在复杂策略游戏中的重大突破。


2018年,《荒野大镖客2》发布,游戏AI角色和环境互动水平大幅提高,提供了高度逼真的游戏体验。


2020年,英伟达推出了DLSS技术,利用AI加速图形渲染,提升了游戏的性能和画质。



置于当下的游戏环境中审视,游戏依然主打一个陪伴,而AI则如同一台放大器,将这份陪伴放大了无数倍。


在今年的CES展会上,英伟达使用Avatar Cloud Engine(ACE)让游戏NPC“活”起来,也借此火爆出圈。


在名为Kairos的演示中,玩家能够与拉面店老板Jin进行互动。虽然Jin只是一个NPC,但在生成式AI的帮助下,他像真人一样回答问题。



AI与游戏的结合也总是让人感到既爱又恨。


就拿竞技类游戏来说吧,过往的做法只是生硬地调整难度,而现在则是模仿人的操作,让游戏体验更加真实。


支持者认为,当模拟人类的AI成为对手或队友的时候,反过来也能提升因缺乏真人玩家所带来的游戏竞技感。


而弊端也正在于此,玩家的留存率是提高了,但在系统的操控下,玩家们也逃脱不了被AI玩弄的漩涡。


前期豪言壮语,中期胡言乱语,后期沉默不语。


当我们熬夜通宵只为再赢一把的时候,已经很难说清楚究竟是我们在玩这个游戏,还是这个游戏在玩我们。


尤其当你意识到队友可能是AI时,那种无力感就像是拳头打在了棉花上。心里也软绵绵的,毫无着力点。


老黄预言家!未来游戏或将由AI生成?


即便是代码小白,我们也能用AI手搓游戏。


这放在几年前,估计只能在梦里想想了,但生成式AI到来让这一切有了落地的空间。


往小了说,创建一个GPTs玩起故事剧本杀,大了点说,那就是AI辅助生成小程序游戏,虽然互动性差点意思,但胜在画面精美。


再往大了说,甚至未来连3A大作级别的游戏,都有可能直接通过AI渲染生成。


去年英伟达创始人黄仁勋曾预言,未来游戏中的每一个像素都将被生成,而不是渲染。当时这话说的时候,但大家可能还半信半疑。


通常,制作一款小型游戏的环境可能需要一周时间,对于工作室项目,创建游戏环境可能需要更长的时间,具体取决于设计的复杂程度。


上个月,Google DeepMind公布了首个“AI游戏引擎”GameNGen


它能够在单个TPU芯片上以超过20帧每秒的速度实时模拟经典射击游戏《毁灭战士》。


其工作原理是利用扩散模型实时预测每一帧,这意味着,游戏中的每一刻都是根据玩家的操作和环境的复杂互动实时生成的。


当时,英伟达高级科学家Jim Fan不禁感慨,被黑客们在各种地方疯狂运行的《毁灭战士》竟然在纯粹的扩散模型中实现了,每个像素都是生成的。


再后来,类似更多成果也正在涌现。


前不久,腾讯也放了大招,推出了一款专门面向3A开放世界游戏的大模型——GameGen-O


GameGen-O能模拟各类3A游戏,比如《巫师3》《赛博朋克2077》《刺客信条》以及《黑神话:悟空》里的角色、动态环境,以及复杂动作等,生成的游戏场景质量也很高


为了构建数据集,下血本的腾讯搜集了超过32000个游戏视频,每个视频短则几分钟,长则几小时,然后经过人工数据标注挑选了15000个可用视频。


这些精选的视频通过场景检测被切割成片段,然后按照美学、光流分析和语义内容进行了严格的排序和过滤。


美国游戏开发商Electronic Arts最近也通过一段“从想象到创造”视频,向业界展示了未来AI在游戏开发落地的美好愿景。


视频中,玩家仅凭简单的指令,就能使用AI工具创建游戏场景、角色和其他内容。



CEO Andrew Wilson称未来生成式AI可改进公司一半以上开发流程,预计将在三至五年内设计创造更大、更身临其境的游戏世界。


AI不仅能够提升现有游戏的开发效率,还可能创造出全新的游戏体验。


也许你会说,不管游戏用的是什么高大上的技术,归根结底,好玩才是王道。


但在GTA 6反复跳票,迟迟不见踪影的情况下,我们或许也会萌生一种自己动手、丰衣足食的念头。


毕竟,如果能亲手打造一个“罪恶都市”,感觉好像也还不错。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: