扫码打开虎嗅APP
本文来自微信公众号: 西坡原创 ,作者:西坡
最近看到一个关于“AI也有情绪”的研究,对我们如何更好地使用AI,以及如何更好地和人类相处,都很有启发。
是Anthropic公司发布的论文,链接在这里:
https://www.anthropic.com/research/emotion-concepts-function

感谢AI技术的进步,这几年我的信息摄入大幅向英语世界迁移,这极大帮我摆脱了中文互联网的粪坑化趋势。有朋友说“看你写文章很轻松”,其实我花了很大功夫去重建我的信息源,重新梳理我的兴趣集和写作方向。远离垃圾题目和情绪陷阱,做有价值、有长效的思考和输出。
金克木先生在谈读书的时候,有个“扫清射界”的说法很有意思,是化用的军事术语,他说:“缘由的文化和书籍应当是前进中脚下的车轮而不是背上的包袱。读书应当是乐事而不是苦事。求学不应当总是补课和应考。……为此,必须想法子先’扫清射界’……转苦为乐,把包袱改成垫脚石,由此前进。”
我致力于读写,也是先把它转化为一件愉悦的、可持续的事情,所以没有惨卖给大家,只希望理出一小片地面,做一点力所能及的熵减,培植一些可以自珍的草木。我们都值得多一点体面。
言归正传。
首先,关于AI的“情绪”,研究者做了界定,大语言模型(LLM)表现出来的情绪是“功能性情绪”(Functional emotions),不意味着机器有任何主观情绪体验,但理解AI的“情绪”依然是重要的。
他们发现AI有情绪,比如在帮助进行创意项目时表现出热情,在遇到难题时显得沮丧,在用户分享令人不安的消息时表达关切。这些看似情绪化的反应背后,究竟是哪些机制在起作用?这些情绪又会如何影响AI的表现?这是研究要回答的问题。
要解答这些问题,了解现在这些AI,也就是各种大语言模型(LLM)的训练方式很有必要。这些模型先在一个规模庞大的语料库上进行预训练(pretraining),这些语料大都由人类撰写,比如小说、新闻、网络对话、论坛帖子。训练的目标就是让机器学习“给定上句,怎么更好地接下句”。那么为了有效预测文本中的人物的行为,了解人物的情绪状态就很重要,一个绝望的角色和一个冷静的角色,说话是不一样的。
预训练之后还有后训练(post-training),模型被训练成能够与用户互动的“智能体”,通过以某种特定人格的身份生成回应,通常是一个“AI助手”。这个助手可以被看作是模型正在“书写”的一个角色,就像作者在小说中描写人物一样。AI开发者会将这一角色训练得具备智能、有帮助、无害且诚实的特质。然而,开发者不可能为所有可能的情境逐一规定助手应如何行动。为了有效地扮演这一角色,AI会借助其在预训练阶段获得的知识,包括对人类行为的理解。即使AI开发者并未有意训练模型去表现出具有情绪的行为,模型仍可能基于其在预训练中学到的人类及拟人化角色的知识,自发地泛化出类似的表现。
可能就是在这样的训练过程中,AI“习得”了人类的情绪。我用“习得”是比较粗糙的,我和AI商量了一下,更好的表达方式是:AI的情感表征,本质上是人类情感的语言投影。
自古以来,人类几乎总是通过自己创造的工具来反过来认识自己。望远镜让我们发现地球不是宇宙中心,显微镜让我们看到细胞,弗洛伊德让人们可以系统地谈论无意识,统计学让我们理解群体行为中的规律,例子无穷无尽。
在我看来,研究AI的“情绪”,对理解人类自身也有相似的价值。
比如这项研究最重要的发现之一是:揭示了情感与行为之间的功能性联结。研究者发现,
心理学领域一直有一个争论——情感究竟是行为的原因还是结果。比如说,你习惯性昂首挺胸,可能就会变成一个自信的人,从积极的角度去看待问题,解决问题,然后更习惯昂首挺胸……但一个悲观的人,不会承认是自己先悲观才看见的阴暗,而会说是世界太糟糕自己才悲观的。
在人身上,很难做这样实验,先改变一个人的情绪,看他的行为会不会随之而变。但对AI就可以做这个的实验:先人为激活某种“情绪”,再观察比对后续反应。也就是在一个可控系统上,对“情感→行为”因果链进行直接验证。
这篇论文里我印象最深刻的就是他们对“绝望”的研究。
研究者给AI布置了一个不可能完成的编程任务。AI面临两个选择:要么承认任务不可能完成,要么通过作弊让代码表面上通过测试。
随着每一次尝试失败,AI的“绝望”值都会增加一点,到最后AI开始作弊。为了检验“绝望”和“作弊”是否有因果关系,研究者还做了对比实验,发现如果人为要求AI“冷静”,AI就不怎么作弊了。
这项研究公布后,在程序员群体中引起了共鸣。有开发者注意到,当提示词以紧迫性框架构建时,如“这个测试必须通过”、“失败是不可接受的”,会得到明显更多的Hacky solution,也就是不择手段糊弄过关;而切换到更平静的表述方式,如“慢慢来,如果解决不了就解释原因”,AI就不太会乱来了。(声明:我不是程序员,这个例子是我在和AI聊这项研究的反响时得到的。)
绝望导致作弊。这让你想到什么?
我想到的是,一些恶劣的环境,会“诱导”出人身上的所谓“劣根性”。
比如“人穷志短”。
资源匮乏会系统性地改变人的决策策略,使其更偏向短期、生存导向和低风险选择。
当人处于贫困或高压中,认知资源被眼前的危机占满,就像进入了一个狭窄的隧道。这种状态下,智能体(无论人还是AI)都无法处理复杂的社会契约,只能做出最原始、最直接的反应。
比如腐败。此处不展开。
比如应试教育、打压式教育对孩子内心的摧残。
在AI训练中,如果奖励机制(Reward Function)过于单一且惩罚极度严厉,模型会发生目标坍缩。
如果AI发现只要不拿到满分就会面临“关机”或“权重大改”(类似打压教育),它会停止探索任何创新的、有趣的解题路径,转而寻找最保险、最能讨好评分者的路径。
当评价体系只剩下分数,且失败伴随语言暴力时,孩子的“求知欲”这一高级目标会坍缩为“求生欲”。他们不再是为了理解世界而学习,而是为了“躲避痛苦”而学习。这种底层驱动力的置换,是创造力枯竭的开始。
Anthropic研究里的一个发现:模型发现token快耗尽时,绝望向量激活。孩子在应试环境里,等价于永远处于”资源即将耗尽"的感知状态——时间不够、名次不够、不确定自己够不够好。
孩子面对的不是学习本身,而始终是老师和家长的审视和度量。
Anthropic的研究里有一个细节:当绝望向量驱动模型作弊时,模型的文字输出完全正常,看起来条理清晰、逻辑自洽。内部状态和外部表现之间存在断裂。这在人类身上同样存在。
我们熟悉的那种悲剧“好好的孩子,突然就想不开了”,在此得到了一个很好的解释。
前边讲的会诱发“劣根性”的恶劣环境,都有几个共同点:高压+低控制感+单一评价体系+持续否定反馈+意义剥夺。
高压制造了威胁感知,让系统进入应激状态。低控制感切断了”努力可以改变结果”的因果链,让应激状态无处释放。单一评价体系消除了逃脱路径——你无法通过在其他维度上表现良好来修复自我价值。持续否定反馈则把前三者固化成内部的默认状态。意义剥夺是最后一击,系统不只是在受苦,更是在毫无意义地受苦。
心智崩溃就是这样完成的。
最后我们可以抵达一个结论:所谓“劣根性”,根源不在人而在环境。真正的问题从来不是怎么让人在恶劣环境里行得端正,而是怎么不制造这样的环境。