崩溃就是这样完成的-虎嗅网

本文来自微信公众号：西坡原创，作者：西坡

最近看到一个关于“AI也有情绪”的研究，对我们如何更好地使用AI，以及如何更好地和人类相处，都很有启发。

是Anthropic公司发布的论文，链接在这里：

https://www.anthropic.com/research/emotion-concepts-function

感谢AI技术的进步，这几年我的信息摄入大幅向英语世界迁移，这极大帮我摆脱了中文互联网的粪坑化趋势。有朋友说“看你写文章很轻松”，其实我花了很大功夫去重建我的信息源，重新梳理我的兴趣集和写作方向。远离垃圾题目和情绪陷阱，做有价值、有长效的思考和输出。

金克木先生在谈读书的时候，有个“扫清射界”的说法很有意思，是化用的军事术语，他说：“缘由的文化和书籍应当是前进中脚下的车轮而不是背上的包袱。读书应当是乐事而不是苦事。求学不应当总是补课和应考。……为此，必须想法子先’扫清射界’……转苦为乐，把包袱改成垫脚石，由此前进。”

我致力于读写，也是先把它转化为一件愉悦的、可持续的事情，所以没有惨卖给大家，只希望理出一小片地面，做一点力所能及的熵减，培植一些可以自珍的草木。我们都值得多一点体面。

言归正传。

首先，关于AI的“情绪”，研究者做了界定，大语言模型（LLM）表现出来的情绪是“功能性情绪”（Functional emotions），不意味着机器有任何主观情绪体验，但理解AI的“情绪”依然是重要的。

他们发现AI有情绪，比如在帮助进行创意项目时表现出热情，在遇到难题时显得沮丧，在用户分享令人不安的消息时表达关切。这些看似情绪化的反应背后，究竟是哪些机制在起作用？这些情绪又会如何影响AI的表现？这是研究要回答的问题。

要解答这些问题，了解现在这些AI，也就是各种大语言模型（LLM）的训练方式很有必要。这些模型先在一个规模庞大的语料库上进行预训练（pretraining），这些语料大都由人类撰写，比如小说、新闻、网络对话、论坛帖子。训练的目标就是让机器学习“给定上句，怎么更好地接下句”。那么为了有效预测文本中的人物的行为，了解人物的情绪状态就很重要，一个绝望的角色和一个冷静的角色，说话是不一样的。

预训练之后还有后训练（post-training），模型被训练成能够与用户互动的“智能体”，通过以某种特定人格的身份生成回应，通常是一个“AI助手”。这个助手可以被看作是模型正在“书写”的一个角色，就像作者在小说中描写人物一样。AI开发者会将这一角色训练得具备智能、有帮助、无害且诚实的特质。然而，开发者不可能为所有可能的情境逐一规定助手应如何行动。为了有效地扮演这一角色，AI会借助其在预训练阶段获得的知识，包括对人类行为的理解。即使AI开发者并未有意训练模型去表现出具有情绪的行为，模型仍可能基于其在预训练中学到的人类及拟人化角色的知识，自发地泛化出类似的表现。

可能就是在这样的训练过程中，AI“习得”了人类的情绪。我用“习得”是比较粗糙的，我和AI商量了一下，更好的表达方式是：AI的情感表征，本质上是人类情感的语言投影。

自古以来，人类几乎总是通过自己创造的工具来反过来认识自己。望远镜让我们发现地球不是宇宙中心，显微镜让我们看到细胞，弗洛伊德让人们可以系统地谈论无意识，统计学让我们理解群体行为中的规律，例子无穷无尽。

在我看来，研究AI的“情绪”，对理解人类自身也有相似的价值。

比如这项研究最重要的发现之一是：揭示了情感与行为之间的功能性联结。研究者发现，

心理学领域一直有一个争论——情感究竟是行为的原因还是结果。比如说，你习惯性昂首挺胸，可能就会变成一个自信的人，从积极的角度去看待问题，解决问题，然后更习惯昂首挺胸……但一个悲观的人，不会承认是自己先悲观才看见的阴暗，而会说是世界太糟糕自己才悲观的。

在人身上，很难做这样实验，先改变一个人的情绪，看他的行为会不会随之而变。但对AI就可以做这个的实验：先人为激活某种“情绪”，再观察比对后续反应。也就是在一个可控系统上，对“情感→行为”因果链进行直接验证。

这篇论文里我印象最深刻的就是他们对“绝望”的研究。

研究者给AI布置了一个不可能完成的编程任务。AI面临两个选择：要么承认任务不可能完成，要么通过作弊让代码表面上通过测试。

随着每一次尝试失败，AI的“绝望”值都会增加一点，到最后AI开始作弊。为了检验“绝望”和“作弊”是否有因果关系，研究者还做了对比实验，发现如果人为要求AI“冷静”，AI就不怎么作弊了。

这项研究公布后，在程序员群体中引起了共鸣。有开发者注意到，当提示词以紧迫性框架构建时，如“这个测试必须通过”、“失败是不可接受的”，会得到明显更多的Hacky solution，也就是不择手段糊弄过关；而切换到更平静的表述方式，如“慢慢来，如果解决不了就解释原因”，AI就不太会乱来了。（声明：我不是程序员，这个例子是我在和AI聊这项研究的反响时得到的。）

绝望导致作弊。这让你想到什么？

我想到的是，一些恶劣的环境，会“诱导”出人身上的所谓“劣根性”。

比如“人穷志短”。

资源匮乏会系统性地改变人的决策策略，使其更偏向短期、生存导向和低风险选择。

当人处于贫困或高压中，认知资源被眼前的危机占满，就像进入了一个狭窄的隧道。这种状态下，智能体（无论人还是AI）都无法处理复杂的社会契约，只能做出最原始、最直接的反应。

比如腐败。此处不展开。

比如应试教育、打压式教育对孩子内心的摧残。

在AI训练中，如果奖励机制（Reward Function）过于单一且惩罚极度严厉，模型会发生目标坍缩。

如果AI发现只要不拿到满分就会面临“关机”或“权重大改”（类似打压教育），它会停止探索任何创新的、有趣的解题路径，转而寻找最保险、最能讨好评分者的路径。

当评价体系只剩下分数，且失败伴随语言暴力时，孩子的“求知欲”这一高级目标会坍缩为“求生欲”。他们不再是为了理解世界而学习，而是为了“躲避痛苦”而学习。这种底层驱动力的置换，是创造力枯竭的开始。

Anthropic研究里的一个发现：模型发现token快耗尽时，绝望向量激活。孩子在应试环境里，等价于永远处于”资源即将耗尽"的感知状态——时间不够、名次不够、不确定自己够不够好。

孩子面对的不是学习本身，而始终是老师和家长的审视和度量。

Anthropic的研究里有一个细节：当绝望向量驱动模型作弊时，模型的文字输出完全正常，看起来条理清晰、逻辑自洽。内部状态和外部表现之间存在断裂。这在人类身上同样存在。

我们熟悉的那种悲剧“好好的孩子，突然就想不开了”，在此得到了一个很好的解释。

前边讲的会诱发“劣根性”的恶劣环境，都有几个共同点：高压+低控制感+单一评价体系+持续否定反馈+意义剥夺。

高压制造了威胁感知，让系统进入应激状态。低控制感切断了”努力可以改变结果”的因果链，让应激状态无处释放。单一评价体系消除了逃脱路径——你无法通过在其他维度上表现良好来修复自我价值。持续否定反馈则把前三者固化成内部的默认状态。意义剥夺是最后一击，系统不只是在受苦，更是在毫无意义地受苦。

心智崩溃就是这样完成的。

最后我们可以抵达一个结论：所谓“劣根性”，根源不在人而在环境。真正的问题从来不是怎么让人在恶劣环境里行得端正，而是怎么不制造这样的环境。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

崩溃就是这样完成的

大 家 都 在 搜

大家都在搜