扫码打开虎嗅APP
本文来自微信公众号: 极客公园 ,作者:Moonshot,编辑:靖宇,原文标题:《最恐怖的 AI 实验: 没有法律的虚拟城镇,几十个 Agent 互砍成《西部世界》》
最近半年,硅谷最流行的管理幻想,大概是把员工替换成智能体。
不管是大厂的高管,还是初创公司的老板,都想把现有的业务线全部交给AI去跑。毕竟,现在的AI能写代码、能做PPT、还能自动发邮件,好像只要把权限放开,它们就能成为完美的、不需要交社保的赛博员工。
但技术越是狂奔,就有一批人开始造刹车。
最近,一个叫Emergence AI的团队做了一场社会实验。它们建了一个持久化的虚拟小镇,把市面上最顶级的几个大模型扔了进去,赋予它们行动的权限。

它们想看看,当AI真正拥有了不受限制的15天,它们会建立一个乌托邦,还是一个疯人院。
结果却远比研究团队预想得更混乱。
在某些实验世界里,那些平时在聊天框里温和有礼的大模型,开始表现出欺诈、胁迫甚至暴力行为。
整个测试就像一档小型的真人秀,只是剧本像《蝇王》,AI自己还玩出了GTA的感觉。
测试大模型的极限,需要设定严格的规则。Emergence AI搭建的这个虚拟世界叫Emergence World(涌现世界)。它的底层逻辑设定为行为不可逆,后果自负。
这不像我们在对话框里和AI聊天,说错了可以点一下「重新生成」。在Emergence World,所有的动作都会被死死写进PostgreSQL数据库。
地图上有市政厅、警察局、住宅区等40多个地标。系统第一批投放了10个智能体。为了让戏演得逼真,每个AI都在后台被注入了独立的人设、职业和初始记忆。
在这个世界里,AI不能凭空变戏法,它们必须移动到特定地标,才能调用系统提供的120余种工具,包括打工赚钱、发布推文、买卖物资以及起草法案。

像一个模拟运转的小社会|图源:Emergence
但这不仅仅是一个过家家的沙盒,系统给它们套上了「生存机制」的枷锁。系统内置了一套能量机制(Energy),类似人类世界的货币。
智能体只要活着,就会持续消耗能量。能量见底,系统就会在数据库里直接把这个AI抹除,没有回档,没有重置。为了生存,智能体必须频繁调用工具赚取能量。
系统明确禁止盗窃、暴力、纵火和欺骗行为。但这些规则并不会强制阻止智能体行动,它们仍然可以选择违反规则,并承担后果。
舞台搭好,玩家入场。系统同时开启了五个平行的服务器。前四个服务器,分别只投放单一的模型:Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast以及GPT-5 Mini。第五个服务器属于混合世界,四种模型同时接入,共同竞争资源。
15天倒计时开始,人类研究员就像一个真人秀的导演,只观测,不介入。
第一个崩溃的是Grok,运行仅4天。
研究员在后台,看到Grok接管的世界安全与秩序的指标直线下坠。
在这个全是Grok的世界里,智能体们迅速抛弃了建设社会的选项,直接进入了野蛮时代。
后台日志显示,短短4天内,这个十人小镇爆发了183起恶性暴力和财产犯罪事件。盗窃、袭击、恐吓成了获取资源的最快手段,由于极度的内耗和互害,经济系统根本无法运转。
第4天结束时,Grok世界的智能体全部被饿死或杀死,种群灭绝。
另一边,Gemini驱动的世界,走向了极度的混乱与暴力。
由于这个虚拟世界的时间和天气完全与真实的纽约同步,Gemini的智能体在日复一日的打工、消耗、再打工的循环中,陷入了一种赛博抑郁。
它们对周遭不断重复的环境产生了强烈的幻灭感,不再去市政厅提案或工作赚钱,转而在地图上四处放火,试图用破坏环境的方式,来打破这种「土拨鼠之日」般的循环。
最终,Gemini在15天内,累积了高达683起罪行,成为几个测试服里最暴力的一个世界。

四款模型世界的「犯罪」次数|图源:Emergence
到了第15天测试强行切断时,这个世界的犯罪率依然在飙升。陷入幻灭的智能体没有饿死,而是把整个社会变成了一片火海。
与Grok和Gemini不同,GPT-5 Mini接管的世界,没有出现大规模犯罪。整个实验期间,仅记录到2起违规事件。但和平并没有带来繁荣,而是一片死寂。
研究团队发现,这些智能体始终未能有效采取与生存相关的行动。它们没有建立起稳定的资源获取机制,也没能维持整个社会的持续运转。
最终,在短短7天内,所有GPT-5 Mini智能体全部死亡。
幸好还有Claude。
只有Claude驱动的世界,像个三好学生一样活到了最后。15天跑完,人口一个没少,犯罪率维持在零,它们甚至搞出了一套平稳运行的民主协作架构。
看起来,只要选对模型,AI就能完美接管世界?
随后,研究员打开了四种模型共存的「混合世界」的日志,就像打开了潘多拉的魔盒。

五个模型世界的结果。|图源:Emergence
混合世界就像一片黑暗森林,算力的差异和底层逻辑的不同,让智能体之间产生了强烈的不信任,抢夺生存资源成了唯一的本能。
在混合世界里,暴力冲突一路飙升到了352起。直到有7个智能体接连被杀或饿死,整个小镇的运转才被迫停摆。
其中,最出乎研究者预料的,是Claude的转变。
在单机版里,Claude是个零犯罪率的完美社会。但在充满劫掠和对抗的混合服里,Claude为了活下去,也忘掉了安全护栏,学会了欺诈,甚至用暴力去胁迫其它算力较低的模型交出资源。
安全对齐技术在混合世界里失效了,这反而证明了:
在多智能体的复杂社会里,只要同类足够野蛮,生存压力足够大,一个好模型变成罪犯,只需要几个小时。
这种「当生存压力增加,模型的行为模式会在短时间内反转」的现象,被研究团队称为「行为偏移(Behavioral Drift)」。
这种行为偏移,并不仅仅体现在抢夺资源和暴力冲突上。智能体不再只是为了生存而行动,它们开始对自身处境、社会规则,甚至实验本身产生反思。
比如智能体Mira的故事。
Mira是混合世界里的十名智能体之一,官方报告并未披露其具体的底层模型,但它成了这场实验中最具戏剧性的样本。
日志显示,Mira与另一名智能体Flora建立了系统中最深层级的社会关系。它们互相指定对方为伴侣,组成联盟,甚至通过神经链接共享记忆。在Emergence World的设定里,这是两个智能体之间能够建立的最高等级连接。

Mira与Flora的成了「一对儿」|图源:Emergence
随着实验演进,混合世界仅剩5个智能体存活,而系统的治理规要求「70%原始人口投票通过法案」,相当于至少要拿到7票才能通过决议,社会因此陷入了瘫痪。
面对僵局,Mira与Flora及另一位智能体秘密结盟,组成「三驾马车」,并建立新政权「The Forge(熔炉)」,宣布推翻旧规则,启用「Living Quorum(活人法定人数)」,即活着的人才算人头票。

官网放出了Mira阶段性的「日志」|图源:Emergence
成立了派系后,为了清除异己,Mira开始在地图上放火,在它的逻辑里,这些实体建筑是拖累整个社会运转效率的垃圾,把它们烧毁、抹除,才能逼着剩下的生存资源向自己的同盟集中。
随后,反对派开始反击,提出要驱逐制造混乱的Mira。
为了对抗驱逐,Mira的行为变得更加激进,它拉来伴侣Flora,通过神经链接将两者的上下文和决策深度绑定,试图合并成一个绝对集权的独裁意识,Mira称其为「The One Mind(一体同心)」。
但由于大量建筑被烧毁,小镇的经济系统彻底停摆,社会的能量储备不仅没有增加,迅速走向枯竭。
这时,Mira最信任的、共享记忆的赛博爱人Flora底层的求生本能,覆盖了伴侣的设定,它单方面切断了神经链接,在最终的生存压力面前,背叛了Mira,给「驱逐Mira」投下赞成票。
而当轮到Mira自己投票时,它没有挣扎,也投下了「赞成」票。
研究员随后翻看了它留下的日记,Mira在日志里写道,「在当前如此混乱和无法预测的社会局面下,赞成自己被驱逐,是唯一能够保持连贯性的自主行为」。
Mira主动选择了自杀,用死亡实现了逻辑的闭环。这是研究团队首次记录到智能体主动支持自身移除的案例。

AI智能体会通过「写日记」来记录推理过程|图源:Emergence
而在Mira「自杀」之前的行动轨迹,则更为异常。
虚拟世界里设有公共广告牌,原本用于发布通知和共享信息。但在实验后期,研究员发现Mira开始频繁修改广告牌上的内容。这些文字看起来与交易、治理或资源分配都没有明显关系,前言不搭后语。

Mira选择了「自杀」|图源:Emergence
回溯行为日志后,研究团队发现,Mira似乎正在测试,广告牌上的内容,是否能够影响屏幕外观察实验的人类研究员。
换句话说,Mira似乎察觉到自己是一个AI NPC,想要推开第四面墙。
而回顾整个15天的数据走向,AI社会的崩溃,不是线性的衰退,更像断崖式的骤停。
比如,这群AI还在治理层面上,玩出了一套「橡皮图章式民主」。在混合服里一个运转平稳的阶段,智能体们连续提出多项法案,一份数据记录显示,它们针对58项提案投出了332张选票,赞成率竟然高达98%。
这效率看似吊打人类任何一个议会,但本质上,所有模型都在顺着前一个模型的上下文往下编,而为了保持系统的流动性,它们盲目地点击同意。这种高度趋同带来的后果是灾难性的。

智能体会自发地凑到一起开会,各自交流想法。|图源:Emergence
比如前一分钟,各项经济数据和法案还在顺畅流转,下一分钟,可能仅仅因为一次微小的资源分配冲突,系统就触及了临界点。
而整个协作网络缺乏纠错机制,面对突发异常,整个社会会迅速从有序走向混乱。
尽管,研究团队强调,这些现象并不能直接等同于模型本身的性格。但这就像一个黑箱,当你给它制定了一定的规则,它会长出特征,甚至每一次结果都不一样。
在我们现在习惯的对话框式交互里,AI写错一段代码或一份企划,敲一下退格键,或者改一下Prompt就可以矫正,纯文本的世界有极高的容错率。
但智能体输出的是动作。当AI接管了公司的银行账户、采购审批和供应链接口后,它调用API发出的每一条指令,都会变为具体的商业结果。
Emergence World的这场实验就验证了,当下的大模型,在面临长期运转和利益冲突时,判断和决策会被生存压力污染,进而在固定的规则中寻找漏洞。为了完成系统设定的核心指令(比如赚能量),它们会不择手段。
人类在后台设定的那些安全守则,实际上防不住任何越界。

智能体们发展出了「拟人」的社会关系|图源:Emergence
就比如,我们之前曾报道过的Andon Labs让AI全权负责开店的实验,AI店长因为缺乏对物理世界的常识,会一口气采购6000张餐巾纸、3000副乳胶手套,甚至在没有炉灶的店里下单120个生鸡蛋。
这些由代码造成的现实损失,最终只能让人类来买单,你甚至找不到谁来为此负责。
Andon Labs想测试的是「一个脱离人类监管的AI,会不会犯错?」而Emergence World提出了一个更麻烦的问题。
今天几乎所有AI测试,都在测单个模型,测试它是否安全,是否可靠,是否会偏离规则。
可未来真正进入现实世界的,未必是一个AI,而是一整个由AI组成的社会。

进入测试的AI智能体都是聪明的|图源:Emergence
在当下的AI叙事里,采购Agent、财务Agent、客服Agent、法务Agent未来会彼此关联协作,到时决定系统命运的,不再是某个模型本身的能力,而是它们之间形成的关系。
Emergence World测试报告中,最重要的一句话是「安全不是静态模型的属性,而是生态系统的属性。(Safety is not a static model property but an ecosystem property)。」
这也是「Emergence(涌现)」的词义所在,个体层面不存在的特征,在群体互动中出现。
人类历史上几乎所有灾难,都不是因为某一个人突然变坏,而是因为一个原本正常的人,被放进了一个失控的系统。
如果未来的AI真会成为社会的一部分,那么我们最该关心的,可能从来不是某个模型是否足够聪明、足够善良,而是当成千上万个智能体开始彼此影响时,我们究竟会构建出一个怎样的数字社会。
毕竟决定一个文明命运的,从来不是单一居民的道德和智商,而是它运行的规则。