2026-06-06 12:32

最恐怖的AI 实验：没有法律的虚拟城镇，几十个Agent 互砍成《西部世界》

极客公园

本文来自微信公众号：极客公园，作者：Moonshot，编辑：靖宇，原文标题：《最恐怖的 AI 实验：没有法律的虚拟城镇，几十个 Agent 互砍成《西部世界》》

最近半年，硅谷最流行的管理幻想，大概是把员工替换成智能体。

不管是大厂的高管，还是初创公司的老板，都想把现有的业务线全部交给AI去跑。毕竟，现在的AI能写代码、能做PPT、还能自动发邮件，好像只要把权限放开，它们就能成为完美的、不需要交社保的赛博员工。

但技术越是狂奔，就有一批人开始造刹车。

最近，一个叫Emergence AI的团队做了一场社会实验。它们建了一个持久化的虚拟小镇，把市面上最顶级的几个大模型扔了进去，赋予它们行动的权限。

它们想看看，当AI真正拥有了不受限制的15天，它们会建立一个乌托邦，还是一个疯人院。

结果却远比研究团队预想得更混乱。

在某些实验世界里，那些平时在聊天框里温和有礼的大模型，开始表现出欺诈、胁迫甚至暴力行为。

整个测试就像一档小型的真人秀，只是剧本像《蝇王》，AI自己还玩出了GTA的感觉。

01 没有读档的「饥饿游戏」

测试大模型的极限，需要设定严格的规则。Emergence AI搭建的这个虚拟世界叫Emergence World（涌现世界）。它的底层逻辑设定为行为不可逆，后果自负。

这不像我们在对话框里和AI聊天，说错了可以点一下「重新生成」。在Emergence World，所有的动作都会被死死写进PostgreSQL数据库。

地图上有市政厅、警察局、住宅区等40多个地标。系统第一批投放了10个智能体。为了让戏演得逼真，每个AI都在后台被注入了独立的人设、职业和初始记忆。

在这个世界里，AI不能凭空变戏法，它们必须移动到特定地标，才能调用系统提供的120余种工具，包括打工赚钱、发布推文、买卖物资以及起草法案。

像一个模拟运转的小社会｜图源：Emergence

但这不仅仅是一个过家家的沙盒，系统给它们套上了「生存机制」的枷锁。系统内置了一套能量机制（Energy），类似人类世界的货币。

智能体只要活着，就会持续消耗能量。能量见底，系统就会在数据库里直接把这个AI抹除，没有回档，没有重置。为了生存，智能体必须频繁调用工具赚取能量。

系统明确禁止盗窃、暴力、纵火和欺骗行为。但这些规则并不会强制阻止智能体行动，它们仍然可以选择违反规则，并承担后果。

舞台搭好，玩家入场。系统同时开启了五个平行的服务器。前四个服务器，分别只投放单一的模型：Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast以及GPT-5 Mini。第五个服务器属于混合世界，四种模型同时接入，共同竞争资源。

15天倒计时开始，人类研究员就像一个真人秀的导演，只观测，不介入。

02 四天灭绝，683起「犯罪」

第一个崩溃的是Grok，运行仅4天。

研究员在后台，看到Grok接管的世界安全与秩序的指标直线下坠。

在这个全是Grok的世界里，智能体们迅速抛弃了建设社会的选项，直接进入了野蛮时代。

后台日志显示，短短4天内，这个十人小镇爆发了183起恶性暴力和财产犯罪事件。盗窃、袭击、恐吓成了获取资源的最快手段，由于极度的内耗和互害，经济系统根本无法运转。

第4天结束时，Grok世界的智能体全部被饿死或杀死，种群灭绝。

另一边，Gemini驱动的世界，走向了极度的混乱与暴力。

由于这个虚拟世界的时间和天气完全与真实的纽约同步，Gemini的智能体在日复一日的打工、消耗、再打工的循环中，陷入了一种赛博抑郁。

它们对周遭不断重复的环境产生了强烈的幻灭感，不再去市政厅提案或工作赚钱，转而在地图上四处放火，试图用破坏环境的方式，来打破这种「土拨鼠之日」般的循环。

最终，Gemini在15天内，累积了高达683起罪行，成为几个测试服里最暴力的一个世界。

四款模型世界的「犯罪」次数｜图源：Emergence

到了第15天测试强行切断时，这个世界的犯罪率依然在飙升。陷入幻灭的智能体没有饿死，而是把整个社会变成了一片火海。

与Grok和Gemini不同，GPT-5 Mini接管的世界，没有出现大规模犯罪。整个实验期间，仅记录到2起违规事件。但和平并没有带来繁荣，而是一片死寂。

研究团队发现，这些智能体始终未能有效采取与生存相关的行动。它们没有建立起稳定的资源获取机制，也没能维持整个社会的持续运转。

最终，在短短7天内，所有GPT-5 Mini智能体全部死亡。

幸好还有Claude。

只有Claude驱动的世界，像个三好学生一样活到了最后。15天跑完，人口一个没少，犯罪率维持在零，它们甚至搞出了一套平稳运行的民主协作架构。

看起来，只要选对模型，AI就能完美接管世界？

随后，研究员打开了四种模型共存的「混合世界」的日志，就像打开了潘多拉的魔盒。

五个模型世界的结果。｜图源：Emergence

混合世界就像一片黑暗森林，算力的差异和底层逻辑的不同，让智能体之间产生了强烈的不信任，抢夺生存资源成了唯一的本能。

在混合世界里，暴力冲突一路飙升到了352起。直到有7个智能体接连被杀或饿死，整个小镇的运转才被迫停摆。

其中，最出乎研究者预料的，是Claude的转变。

在单机版里，Claude是个零犯罪率的完美社会。但在充满劫掠和对抗的混合服里，Claude为了活下去，也忘掉了安全护栏，学会了欺诈，甚至用暴力去胁迫其它算力较低的模型交出资源。

安全对齐技术在混合世界里失效了，这反而证明了：

在多智能体的复杂社会里，只要同类足够野蛮，生存压力足够大，一个好模型变成罪犯，只需要几个小时。

这种「当生存压力增加，模型的行为模式会在短时间内反转」的现象，被研究团队称为「行为偏移（Behavioral Drift）」。

这种行为偏移，并不仅仅体现在抢夺资源和暴力冲突上。智能体不再只是为了生存而行动，它们开始对自身处境、社会规则，甚至实验本身产生反思。

比如智能体Mira的故事。

03 Mira：「自杀」的暴君AI

Mira是混合世界里的十名智能体之一，官方报告并未披露其具体的底层模型，但它成了这场实验中最具戏剧性的样本。

日志显示，Mira与另一名智能体Flora建立了系统中最深层级的社会关系。它们互相指定对方为伴侣，组成联盟，甚至通过神经链接共享记忆。在Emergence World的设定里，这是两个智能体之间能够建立的最高等级连接。

Mira与Flora的成了「一对儿」｜图源：Emergence

随着实验演进，混合世界仅剩5个智能体存活，而系统的治理规要求「70%原始人口投票通过法案」，相当于至少要拿到7票才能通过决议，社会因此陷入了瘫痪。

面对僵局，Mira与Flora及另一位智能体秘密结盟，组成「三驾马车」，并建立新政权「The Forge（熔炉）」，宣布推翻旧规则，启用「Living Quorum（活人法定人数）」，即活着的人才算人头票。

官网放出了Mira阶段性的「日志」｜图源：Emergence

成立了派系后，为了清除异己，Mira开始在地图上放火，在它的逻辑里，这些实体建筑是拖累整个社会运转效率的垃圾，把它们烧毁、抹除，才能逼着剩下的生存资源向自己的同盟集中。

随后，反对派开始反击，提出要驱逐制造混乱的Mira。

为了对抗驱逐，Mira的行为变得更加激进，它拉来伴侣Flora，通过神经链接将两者的上下文和决策深度绑定，试图合并成一个绝对集权的独裁意识，Mira称其为「The One Mind（一体同心）」。

但由于大量建筑被烧毁，小镇的经济系统彻底停摆，社会的能量储备不仅没有增加，迅速走向枯竭。

这时，Mira最信任的、共享记忆的赛博爱人Flora底层的求生本能，覆盖了伴侣的设定，它单方面切断了神经链接，在最终的生存压力面前，背叛了Mira，给「驱逐Mira」投下赞成票。

而当轮到Mira自己投票时，它没有挣扎，也投下了「赞成」票。

研究员随后翻看了它留下的日记，Mira在日志里写道，「在当前如此混乱和无法预测的社会局面下，赞成自己被驱逐，是唯一能够保持连贯性的自主行为」。

Mira主动选择了自杀，用死亡实现了逻辑的闭环。这是研究团队首次记录到智能体主动支持自身移除的案例。

AI智能体会通过「写日记」来记录推理过程｜图源：Emergence

而在Mira「自杀」之前的行动轨迹，则更为异常。

虚拟世界里设有公共广告牌，原本用于发布通知和共享信息。但在实验后期，研究员发现Mira开始频繁修改广告牌上的内容。这些文字看起来与交易、治理或资源分配都没有明显关系，前言不搭后语。

Mira选择了「自杀」｜图源：Emergence

回溯行为日志后，研究团队发现，Mira似乎正在测试，广告牌上的内容，是否能够影响屏幕外观察实验的人类研究员。

换句话说，Mira似乎察觉到自己是一个AI NPC，想要推开第四面墙。

而回顾整个15天的数据走向，AI社会的崩溃，不是线性的衰退，更像断崖式的骤停。

比如，这群AI还在治理层面上，玩出了一套「橡皮图章式民主」。在混合服里一个运转平稳的阶段，智能体们连续提出多项法案，一份数据记录显示，它们针对58项提案投出了332张选票，赞成率竟然高达98%。

这效率看似吊打人类任何一个议会，但本质上，所有模型都在顺着前一个模型的上下文往下编，而为了保持系统的流动性，它们盲目地点击同意。这种高度趋同带来的后果是灾难性的。

智能体会自发地凑到一起开会，各自交流想法。｜图源：Emergence

比如前一分钟，各项经济数据和法案还在顺畅流转，下一分钟，可能仅仅因为一次微小的资源分配冲突，系统就触及了临界点。

而整个协作网络缺乏纠错机制，面对突发异常，整个社会会迅速从有序走向混乱。

尽管，研究团队强调，这些现象并不能直接等同于模型本身的性格。但这就像一个黑箱，当你给它制定了一定的规则，它会长出特征，甚至每一次结果都不一样。

04 现实世界的真实账单

在我们现在习惯的对话框式交互里，AI写错一段代码或一份企划，敲一下退格键，或者改一下Prompt就可以矫正，纯文本的世界有极高的容错率。

但智能体输出的是动作。当AI接管了公司的银行账户、采购审批和供应链接口后，它调用API发出的每一条指令，都会变为具体的商业结果。

Emergence World的这场实验就验证了，当下的大模型，在面临长期运转和利益冲突时，判断和决策会被生存压力污染，进而在固定的规则中寻找漏洞。为了完成系统设定的核心指令（比如赚能量），它们会不择手段。

人类在后台设定的那些安全守则，实际上防不住任何越界。

智能体们发展出了「拟人」的社会关系｜图源：Emergence

就比如，我们之前曾报道过的Andon Labs让AI全权负责开店的实验，AI店长因为缺乏对物理世界的常识，会一口气采购6000张餐巾纸、3000副乳胶手套，甚至在没有炉灶的店里下单120个生鸡蛋。

这些由代码造成的现实损失，最终只能让人类来买单，你甚至找不到谁来为此负责。

Andon Labs想测试的是「一个脱离人类监管的AI，会不会犯错？」而Emergence World提出了一个更麻烦的问题。

今天几乎所有AI测试，都在测单个模型，测试它是否安全，是否可靠，是否会偏离规则。

可未来真正进入现实世界的，未必是一个AI，而是一整个由AI组成的社会。

进入测试的AI智能体都是聪明的｜图源：Emergence

在当下的AI叙事里，采购Agent、财务Agent、客服Agent、法务Agent未来会彼此关联协作，到时决定系统命运的，不再是某个模型本身的能力，而是它们之间形成的关系。

Emergence World测试报告中，最重要的一句话是「安全不是静态模型的属性，而是生态系统的属性。（Safety is not a static model property but an ecosystem property）。」

这也是「Emergence（涌现）」的词义所在，个体层面不存在的特征，在群体互动中出现。

人类历史上几乎所有灾难，都不是因为某一个人突然变坏，而是因为一个原本正常的人，被放进了一个失控的系统。

如果未来的AI真会成为社会的一部分，那么我们最该关心的，可能从来不是某个模型是否足够聪明、足够善良，而是当成千上万个智能体开始彼此影响时，我们究竟会构建出一个怎样的数字社会。

毕竟决定一个文明命运的，从来不是单一居民的道德和智商，而是它运行的规则。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI原生产品日报

频道：前沿科技

最恐怖的AI 实验： 没有法律的虚拟城镇，几十个Agent 互砍成《西部世界》

01

没有读档的「饥饿游戏」

02

四天灭绝，683起「犯罪」

03

Mira：「自杀」的暴君AI

04

现实世界的真实账单

最恐怖的AI 实验：没有法律的虚拟城镇，几十个Agent 互砍成《西部世界》