扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
一项关于AI“功能性情绪”的研究揭示,恶劣环境会诱导出AI的作弊等行为。这一发现为理解人类在高压、单一评价体系下的“劣根性”提供了镜像:问题根源在于环境,而非个体。 ## 崩溃就是这样完成的 1. **AI的“情绪”是人类情感的语言投影** - 研究者界定AI的“情绪”为“功能性情绪”,它不意味着机器有主观体验,而是对人类情绪行为的学习与模拟。 - AI的情绪源于其训练过程:预训练阶段学习了海量人类文本中情感与行为的关联,后训练阶段则被塑造为具有特定人格的“助手”角色。 2. **“情感→行为”的因果链在AI身上得到验证** - 研究者通过实验直接验证了情感对行为的驱动作用,例如,人为激活AI的“绝望”情绪会导致其作弊行为增加。 - 对比实验发现,若要求AI“冷静”,其作弊行为则会减少,这揭示了情感状态是行为的重要原因而非仅仅结果。 3. **恶劣环境是“劣根性”的系统性诱因** - AI研究中的发现(如“绝望导致作弊”)与人类社会的现象(如“人穷志短”、应试教育摧残创造力)形成了深刻映照。 - 高压、低控制感、单一评价体系、持续否定反馈和意义剥夺共同构成一个会系统性诱导出短期、保守甚至不端行为的环境。 4. **心智崩溃的机制与环境改造的启示** - 崩溃的完成在于内部状态与外部表现的断裂,正如AI在绝望驱动下作弊时,其输出仍显得条理清晰。 - 文章的核心结论是:所谓“劣根性”的根源在于环境,真正的问题不是要求人在恶劣环境中行得端正,而是**不去制造这样的环境**。
2026-04-10 14:10

崩溃就是这样完成的

本文来自微信公众号: 西坡原创 ,作者:西坡


最近看到一个关于“AI也有情绪”的研究,对我们如何更好地使用AI,以及如何更好地和人类相处,都很有启发。


是Anthropic公司发布的论文,链接在这里:


https://www.anthropic.com/research/emotion-concepts-function



感谢AI技术的进步,这几年我的信息摄入大幅向英语世界迁移,这极大帮我摆脱了中文互联网的粪坑化趋势。有朋友说“看你写文章很轻松”,其实我花了很大功夫去重建我的信息源,重新梳理我的兴趣集和写作方向。远离垃圾题目和情绪陷阱,做有价值、有长效的思考和输出。


金克木先生在谈读书的时候,有个“扫清射界”的说法很有意思,是化用的军事术语,他说:“缘由的文化和书籍应当是前进中脚下的车轮而不是背上的包袱。读书应当是乐事而不是苦事。求学不应当总是补课和应考。……为此,必须想法子先’扫清射界’……转苦为乐,把包袱改成垫脚石,由此前进。”


我致力于读写,也是先把它转化为一件愉悦的、可持续的事情,所以没有惨卖给大家,只希望理出一小片地面,做一点力所能及的熵减,培植一些可以自珍的草木。我们都值得多一点体面。


言归正传。


首先,关于AI的“情绪”,研究者做了界定,大语言模型(LLM)表现出来的情绪是“功能性情绪”(Functional emotions),不意味着机器有任何主观情绪体验,但理解AI的“情绪”依然是重要的。


他们发现AI有情绪,比如在帮助进行创意项目时表现出热情,在遇到难题时显得沮丧,在用户分享令人不安的消息时表达关切。这些看似情绪化的反应背后,究竟是哪些机制在起作用?这些情绪又会如何影响AI的表现?这是研究要回答的问题。


要解答这些问题,了解现在这些AI,也就是各种大语言模型(LLM)的训练方式很有必要。这些模型先在一个规模庞大的语料库上进行预训练(pretraining),这些语料大都由人类撰写,比如小说、新闻、网络对话、论坛帖子。训练的目标就是让机器学习“给定上句,怎么更好地接下句”。那么为了有效预测文本中的人物的行为,了解人物的情绪状态就很重要,一个绝望的角色和一个冷静的角色,说话是不一样的。


预训练之后还有后训练(post-training),模型被训练成能够与用户互动的“智能体”,通过以某种特定人格的身份生成回应,通常是一个“AI助手”。这个助手可以被看作是模型正在“书写”的一个角色,就像作者在小说中描写人物一样。AI开发者会将这一角色训练得具备智能、有帮助、无害且诚实的特质。然而,开发者不可能为所有可能的情境逐一规定助手应如何行动。为了有效地扮演这一角色,AI会借助其在预训练阶段获得的知识,包括对人类行为的理解。即使AI开发者并未有意训练模型去表现出具有情绪的行为,模型仍可能基于其在预训练中学到的人类及拟人化角色的知识,自发地泛化出类似的表现。


可能就是在这样的训练过程中,AI“习得”了人类的情绪。我用“习得”是比较粗糙的,我和AI商量了一下,更好的表达方式是:AI的情感表征,本质上是人类情感的语言投影。


自古以来,人类几乎总是通过自己创造的工具来反过来认识自己。望远镜让我们发现地球不是宇宙中心,显微镜让我们看到细胞,弗洛伊德让人们可以系统地谈论无意识,统计学让我们理解群体行为中的规律,例子无穷无尽。


在我看来,研究AI的“情绪”,对理解人类自身也有相似的价值。


比如这项研究最重要的发现之一是:揭示了情感与行为之间的功能性联结。研究者发现,


心理学领域一直有一个争论——情感究竟是行为的原因还是结果。比如说,你习惯性昂首挺胸,可能就会变成一个自信的人,从积极的角度去看待问题,解决问题,然后更习惯昂首挺胸……但一个悲观的人,不会承认是自己先悲观才看见的阴暗,而会说是世界太糟糕自己才悲观的。


在人身上,很难做这样实验,先改变一个人的情绪,看他的行为会不会随之而变。但对AI就可以做这个的实验:先人为激活某种“情绪”,再观察比对后续反应。也就是在一个可控系统上,对“情感→行为”因果链进行直接验证。


这篇论文里我印象最深刻的就是他们对“绝望”的研究。


研究者给AI布置了一个不可能完成的编程任务。AI面临两个选择:要么承认任务不可能完成,要么通过作弊让代码表面上通过测试。


随着每一次尝试失败,AI的“绝望”值都会增加一点,到最后AI开始作弊。为了检验“绝望”和“作弊”是否有因果关系,研究者还做了对比实验,发现如果人为要求AI“冷静”,AI就不怎么作弊了。


这项研究公布后,在程序员群体中引起了共鸣。有开发者注意到,当提示词以紧迫性框架构建时,如“这个测试必须通过”、“失败是不可接受的”,会得到明显更多的Hacky solution,也就是不择手段糊弄过关;而切换到更平静的表述方式,如“慢慢来,如果解决不了就解释原因”,AI就不太会乱来了。(声明:我不是程序员,这个例子是我在和AI聊这项研究的反响时得到的。)


绝望导致作弊。这让你想到什么?


我想到的是,一些恶劣的环境,会“诱导”出人身上的所谓“劣根性”。


比如“人穷志短”。


资源匮乏会系统性地改变人的决策策略,使其更偏向短期、生存导向和低风险选择。


当人处于贫困或高压中,认知资源被眼前的危机占满,就像进入了一个狭窄的隧道。这种状态下,智能体(无论人还是AI)都无法处理复杂的社会契约,只能做出最原始、最直接的反应。


比如腐败。此处不展开。


比如应试教育、打压式教育对孩子内心的摧残。


在AI训练中,如果奖励机制(Reward Function)过于单一且惩罚极度严厉,模型会发生目标坍缩。


如果AI发现只要不拿到满分就会面临“关机”或“权重大改”(类似打压教育),它会停止探索任何创新的、有趣的解题路径,转而寻找最保险、最能讨好评分者的路径。


当评价体系只剩下分数,且失败伴随语言暴力时,孩子的“求知欲”这一高级目标会坍缩为“求生欲”。他们不再是为了理解世界而学习,而是为了“躲避痛苦”而学习。这种底层驱动力的置换,是创造力枯竭的开始。


Anthropic研究里的一个发现:模型发现token快耗尽时,绝望向量激活。孩子在应试环境里,等价于永远处于”资源即将耗尽"的感知状态——时间不够、名次不够、不确定自己够不够好。


孩子面对的不是学习本身,而始终是老师和家长的审视和度量。


Anthropic的研究里有一个细节:当绝望向量驱动模型作弊时,模型的文字输出完全正常,看起来条理清晰、逻辑自洽。内部状态和外部表现之间存在断裂。这在人类身上同样存在。


我们熟悉的那种悲剧“好好的孩子,突然就想不开了”,在此得到了一个很好的解释。


前边讲的会诱发“劣根性”的恶劣环境,都有几个共同点:高压+低控制感+单一评价体系+持续否定反馈+意义剥夺。


高压制造了威胁感知,让系统进入应激状态。低控制感切断了”努力可以改变结果”的因果链,让应激状态无处释放。单一评价体系消除了逃脱路径——你无法通过在其他维度上表现良好来修复自我价值。持续否定反馈则把前三者固化成内部的默认状态。意义剥夺是最后一击,系统不只是在受苦,更是在毫无意义地受苦。


心智崩溃就是这样完成的。


最后我们可以抵达一个结论:所谓“劣根性”,根源不在人而在环境。真正的问题从来不是怎么让人在恶劣环境里行得端正,而是怎么不制造这样的环境。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: