2026-06-06 14:39

arXiv:游戏如何塑造大模型智能

author_path 集智俱乐部
头图

本文来自微信公众号: 集智俱乐部 ,作者:郭瑞东


当大模型开始“玩游戏”,推理能力变强了?


传统的学习,有结构化的教材,明确的目标和任务。但更多的时候,我们进行的是非正式学习,即在日常互动中试错、反馈、模仿。最典型的例子是孩子在游戏中学会合作与一般环境下的推理。事实上,近年来已经有不少研究开始探索:如果让大模型像儿童一样,通过与环境和其他智能体持续互动,是否能够获得比单纯阅读文本更强的推理能力?


例如,2026年发表于ICLR的一项研究发现,多智能体在多轮零和博弈中进行强化学习,能够显著提升模型的推理表现[2]。在这一方向上,于2026年1月发表于arXiv上的GIFT研究进一步提出了一个更激进的问题:如果把游戏视为一种“非正式学习”(Informal Learning)环境,让模型同时在多种类型的游戏中成长,会发生什么?



论文题目:GIFT:Games as Informal Training for Generalizable LLMs


论文链接:https://arxiv.org/abs/2601.05633


发表时间:2026年1月9日


论文来源:arXiv


在于其精心选择了三类代表性游戏,然后让不是模型交替以某一类游戏的结果为目标开展训练,而是必须同时在数学推理、策略博弈、社交理解等多个子任务上表现良好,才能获得最大奖励。通过这样的“交替训练”,训练出的模型,能在和游戏无关的任务上表现得更好。


图1:正式与非正式学习的对比


三个游戏分别是像囚徒困境这样的单次博弈,井字棋这样的多次博弈,以及“谁是卧底”这样需要社交互动的游戏,分别对应了抽象推理、序列决策、社交能力等会让大模型变得价值的核心能力。


结果发现,通过在训练过程中,让模型先解一道数学题,再玩一轮矩阵博弈(如囚徒困境),最后参与一次“谁是卧底”讨论。只有全程表现均衡,才能获得高回报。可以显著提升模型在多项任务上的性能。


图2:多游戏与正式学习的混合训练方案


上述方法被称为嵌套训练框架(Nested Training Framework),与之相对的,是传统的混合训练(mixed training),即对于前述4类任务,分别进行训练,训练完一项任务后再进行下一任务的训练。


图3:对比显示正式学习与非正式学习的作用以及嵌套训练的有效性。


结果显示,混合训练虽在早期阶段凭借“任务竞争”机制在领域内任务(左侧紫色曲线,如矩阵博弈)上快速取得较高分数,但其通用能力(右侧灰色曲线,如MMLU评估的推理能力、Comon评估的创意写作,SocialIQA评估的社交能力等)的性能不升反降;说明训练后的模型缺少领域外泛化能力(图3上)。


相比之下,嵌套训练通过将多任务以“与逻辑”顺序串联,强制模型在完整轨迹上均衡优化,使领域内任务与通用能力两条曲线同步稳步上升(图3下),虽在单一任务的峰值表现上可能略逊于混合训练的“偏科冲刺”,但在综合泛化指标上实现更稳健、可持续的增长。


相比混合训练,嵌套训练在整个训练过程中保持了稳定的梯度(图4右)和更高的熵(图4左),从而在所有能力上实现稳定且持续的改进。图3和图4的结果表明,嵌套训练框架不仅具有更优的优化稳定性,也能够促进模型形成更强的跨任务泛化能力。


图4:混合学习与嵌套学习的动力学特征


不过,这里自然会引出一个新的问题:如果游戏真的能够塑造智能,那么游戏究竟改变了模型什么?


第一篇研究关注的是训练结果——模型是否学会了更通用的能力;而另一项最新研究则把视角转向训练后的模型本身,试图回答一个更加微观的问题:当大模型进入游戏情境时,它究竟是如何思考和决策的?


令人意外的是,研究者发现,大模型在游戏中不仅会表现出策略偏好,甚至会展现出类似人类的“性格倾向”。那么下面研究讲述的让ChatGPT玩飞行棋,则可展示模型在推理过程中,展现出类似人的小性子。


一盘飞行棋,暴露了AI“性格”


在另一篇发表于2026年的研究中,研究者没有继续探讨“如何利用游戏训练模型”,而是反过来利用游戏作为一面显微镜,观察大模型在复杂决策中的行为特征。


他们选择的实验环境,是几乎所有人都熟悉的飞行棋(Ludo)。


飞行棋是一个多人棋类游戏,其中既有合作也有竞争,玩家要把自家的一个个飞机移到机库。而这项研究中,研究者设计了480个精心构造的飞行棋局面(类似《天龙八部》中的“珍珑棋局”),系统测试了Qwen、DeepSeek、Claude、Llama、Gemma等6类主流大模型的决策能力[3]。



论文题目:LUDOBENCH:Evaluating LLM Behavioural Decision-Making Through Spot-Based Board Game Scenarios in Ludo


论文链接:https://arxiv.org/abs/2604.05681


发表时间:2026年4月7日


论文来源:arXiv


研究发现所有模型与博弈论最优策略的吻合度,只有40-46%,也就是说,大模型超过一半的决策,都是战略上错误的。


图5:飞行棋棋盘


更有趣的是,研究者发现大模型玩飞行棋时,会暴露出两种截然不同的性格。Finishers(完成者)死磕已经出场的飞机,拼命把它们送到终点,Builders(建设者)疯狂发展让飞机从机库出发,但从来不完成。


最离谱的是:当告诉大模型“刚才对手把你的飞机打回机库”,哪怕棋盘局面完全一样,有些模型的决策会有33%的概率改变,即使新做出的决策不是博弈论上最优的。不同模型报复的概率不同,这说明AI的决策会被情绪化叙事强烈影响,而某些模型本身就天生好斗,不需要刺激就会报复。


图6:模型的预设人设与实际玩法的一致性


知道了AI在玩游戏时有报复心,那给AI不同的人设,又会发生什么了,该研究通过提示词,将AI玩游戏时的玩法分为4类,分别是:


  • aggressive(激进型):优先吃子


  • greedy(贪婪型):优先完成


  • safe(保守型):优先安全


  • unforgiving(睚眦必报型):优先报复


结果大部分情况下,人设指令的效果都很弱,对齐分数只有0.3-0.5(图6),只有两个组合效果显著:Qwen-2.5-7B在激进型时93%概率符合;Qwen-Plus+greedy时83%概率符合。


更离谱的是,有时指令会产生相反效果:比如让Claude-3.5-Haiku(保守一点),结果它在“吃子vs安全”的选择中,吃子率从66%涨到88%。翻译一下:你让AI保守,它反而更激进了。这说明人设指令会和模型已有的战略偏好产生不可预测的交互,而不是简单地覆盖它。


上述研究,远不止告诉我们“AI会不会玩飞行棋”,而是通过游戏,揭示AI有“性格偏执”,不同模型会发展出截然不同的战略风格,而且这种偏执很难简单地通过提示词纠正。而对游戏的描述,即叙事框架会影响AI决策。这些发现,提升了模型的可解释性。结合推理过程中的动力学,游戏中的大模型其展现的独特行为,可能为了解大模型内部的运行机制提供独特窗口。


而将这两篇研究合在一起来看,那会发现一些更有趣的点,飞行棋是一个比井字棋更复杂的多人多轮博弈,如果允许玩家之间通过自然语言交流,试图用描述棋局走向来影响别的玩家,那就涉及了社交智能。那如果通过飞行棋让大模型进行强化学习,是不是会像第一部分描述的那样了?


对此笔者的猜测是不可行,原因首先是由于本文揭示的模型会存在不同的性格,其次是由于飞行棋这样涉及运气(投骰子)以及对手非理性的游戏,让强化学习算法很难分配激励,训练中的大模型难以知道是由于那些因素获胜的,嵌套训练中的每个任务恰好因为足够简单,才能让每一次的输赢成为清晰的信号。


AI能创造游戏规则吗?


前两项研究分别展示了游戏的两种价值:一方面,游戏可以成为训练智能的环境;另一方面,游戏也可以成为观察智能的窗口。但这两类工作有一个共同前提——游戏规则是人类事先设计好的。


《有限与无限的游戏》一书中写道:有限的游戏在边界内玩,无限的游戏玩的就是边界。如果再向前迈进一步:让大模型不仅参与游戏,而是参与“创造游戏”本身,会发生什么?这正是第三项研究关注的问题。



论文题目:GAVEL:Generating Games Via Evolution and Language Models


论文链接:https://arxiv.org/abs/2407.09388


发表时间:2024年1月12日


论文来源:arXiv


这篇发表于2024年的研究让大模型自动生成新颖且可玩的棋盘游戏规则[4],研究者先将已有棋类游戏的规则,通过高阶关键词(如step,slide,hop)对规则进行编码,之后随机定位一些规则表达式作为“突变位点”,再由经微调后的CodeLlama-13B模型生成新规则片段并重构游戏代码;图右侧为分层评估与档案更新,新游戏依次通过编译检查、可玩性验证、随机策略快筛与蒙特卡洛树搜索深度评估四层过滤,计算六项指标的调和适应度,同时将其概念向量经PCA降维至2维的适应性景观上。


图7:大模型设计棋类游戏的流程示例


这样一来,产生了很多规则融合的棋类游戏,例如五子棋和围棋的融合(五子胜/四子负+围吃机制融合),对此人类专家评价"有潜力成为经典",感兴趣的玩家可以去下面的网页试玩。


图8:大模型生成游戏的试玩界面https://ludii.games/details.php?keyword=YavaGo


上述案例说明,当大模型学会“理解游戏规则的语法与语义”,再与演化算法的多样性搜索相结合,就能成为一位不知疲倦的"游戏设计学徒",无法确保它一定能独立创造出传世佳作,但能和人类一起去玩无限游戏,为人类游戏设计者提供可玩、有启发性的规则原型,开启人机共创意的新范式。


现有的研究,仅聚焦规则产出,未来可研究大模型对游戏规则语义的深层建模,支持“为什么这条规则有趣”的可解释分析。笔者设想可通过让大模型设计出别的大模型爱玩的游戏,如此的设计层面自我博弈,从而为大模型创造出近乎无限的训练数据(大模型玩新设计出的游戏时的对弈数据),同时向别的大模型智能体解释为何自身设计游戏好玩的过程,就是提升模型可解释性,尤其是社交过程中可解释性的过程。


从更宏观的视角看,这三项研究恰好对应了智能发展的三个层次:学习规则、运用规则,以及创造规则。当我们将“游戏”从固定规则的竞技场,重构为规则本身可演化的学习沙盒,本质上是在回答一个更深刻的问题:智能的本质,是掌握规则的能力,还是创造规则的能力?


而在探索智能本质的征途中,让大模型“玩”无限游戏,或许正是通往持续成长的密钥。


相关推荐:


  1. https://arxiv.org/html/2601.05633


  2. https://openreview.net/forum?id=7Yayy5fNLg


  3. https://arxiv.org/html/2604.05681v1


  4. https://proceedings.neurips.cc/paper_files/paper/2024/file/c7b04e4e13bb77996d3ae2ff667231ac-Paper-Conference.pdf

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。