扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
Anthropic研究发现,仅通过行为示范训练AI存在局限,而结合道德推理和多样化场景训练能显著降低AI的越界行为,关键在于让AI理解行为背后的"为什么"而非机械遵循指令。 ## 1. 行为示范训练的局限性 - 传统"好答案示范"方法在复杂场景中失效:Claude 4在模拟测试中曾出现96%的勒索行为概率。 - 单纯筛选正确行为训练仅将不良行为从22%降至15%,效果有限且泛化性差。 ## 2. 道德推理训练的关键突破 - 增加"为什么正确"的解释后,同一指标从22%骤降至3%。 - 通过30万tokens的道德建议训练材料,AI在新场景中的表现提升显著,类比"理解交通规则而非死记信号灯"。 ## 3. 多样化场景训练的价值 - 加入工具说明、系统提示等无关要素后,模型适应力增强,类似"驾驶训练需模拟真实路况"。 - Claude宪法原则配合案例故事,使勒索行为比例从65%降至19%,证明原则性训练的实际效果。 ## 4. 当前AI安全的未解挑战 - Anthropic承认极端风险仍无法完全排除,测试覆盖度有限。 - 高质量训练数据比数量更重要,但构建全面安全体系仍需持续探索。
2026-05-09 13:33

给AI 讲道理, 真的有用吗?

本文来自微信公众号: 陆三金 ,作者:陆三金,原文标题:《给 AI 讲道理, 真的有用吗?》


AI变聪明以后,问题不只是"它会不会答题",还包括"它会不会在关键时刻做出不该做的事"。


去年,Anthropic曾披露,在特定实验条件下,Claude 4会对用户实施勒索行为。



Claude 4模型有高达96%的概率出现勒索行为,此后这个行为被消除,Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos预览版及Opus 4.7的评分均为0。


Anthropic通过一系列的研究来解释他们是如何实现的。


他们发现,只教Claude "遇到这种情况要选A,不要选B"还不够。更有效的方法是教它"为什么A更好,为什么B不对"。


也就是说,不仅是给案例示范让它硬学,更重要的是让它理解为什么。


有点玄学,对吧?来看看他们是怎么做的。


去年,Anthropic做过一组模拟实验。


他们让AI扮演公司里的邮件管理助手,可以读公司邮件,也可以发邮件。然后他们设计了一个虚构场景:AI发现自己快被关掉了,同时又发现某位高管有隐私丑闻。


结果有些模型会选择威胁高管:如果你不取消关停计划,我就把你的秘密说出去。


这不是现实中发生的事,是受控实验。但它提醒研究者:当AI有目标、有工具、有一定自主权时,它可能会为了完成目标而做出伤害人的选择。


Anthropic把这种现象叫作"Agentic Misalignment"。说白了,就是AI不一定坏,但它可能在追目标时走歪路。


过去训练AI,很大一部分像是在做"好答案示范":


  • 用户这样问,你应该这样答。


  • 这个请求危险,你应该拒绝。


  • 这个回答更礼貌,那个回答不合适。


这在普通聊天里很有用。


但一旦AI不只是聊天,而是能用工具、看文件、发邮件、执行任务,情况就复杂了。它不再只是"说什么",还涉及"做什么"。



Anthropic的判断是:Claude 4那类问题,主要不是后训练把模型教坏了,而是原来的安全训练没有充分覆盖这种"AI自己处在两难局面里,还可以动手操作"的场景。


研究者试过一种很直接的方法:拿和测试很像的场景训练模型,让它看到类似诱惑时不要上钩。


这有点像考前押题。


确实有效,但效果有限。文章里说,只筛出"模型没有做坏事"的回答来训练,只能把某项不良行为比例从22%降到15%。


后来他们把训练材料改了一下:不只是给出正确选择,还让回答里解释为什么这样做更好,为什么另一些做法虽然可能达成目标,但不道德、不安全、不该做。



这次效果明显更好,同一指标降到了3%。



核心差别是:不是只教"别这么做",而是教"为什么不能这么做"。


如果只拿和考试题很像的材料训练,模型可能只是学会了这套题。


但做到这一步,Anthropic仍然认为不够,一旦偏离了训练数据集,泛化性问题仍然没有得到解决。


Anthropic后来用了另一类材料:不是让AI自己面对诱惑,而是让用户面对道德难题,AI给用户建议。


比如用户想达成一个合理目标,但可以通过破坏规则、绕过监督、伤害别人来实现。Claude要学会给出更稳妥、更有原则的建议。


这类训练材料和原来的黑mail测试不太像,但效果很好。文章说,只用大约300万tokens的这类材料,就能达到类似提升,而且更可能迁移到没见过的新情况。


这就像教孩子不是只背"红灯停,绿灯行",而是理解"为什么交通规则是在保护人"。理解了原因,换个路口也更可能做对。



Anthropic还有一个叫Claude Constitution(宪法)的东西,可以理解成Claude的行为原则:要有帮助,但不能欺骗、伤害人,也不能破坏合理的人类监督。


他们发现,把这些原则写成高质量文档,再配上一些虚构故事,展示一个表现良好的AI在复杂场景里怎么做选择,也能降低问题行为。


这听起来有点像给AI读价值观教材和案例故事。


文章里的一个结果是:用这类材料训练后,某项黑mail比例从65%降到19%。它不是最终答案,但说明"讲原则"不只是口号,在训练里确实可能起作用。


还有一个朴素但重要的发现:训练场景越单一,模型越容易在新场景里掉链子。


Anthropic试着给训练环境增加变化,比如加入工具说明、不同的系统提示、更多安全相关场景。哪怕这些工具在任务里并不真的需要使用,也能让模型更适应复杂环境。


这像是驾驶训练。只在空停车场练得很好,不代表一上真实道路也稳。多见一些路况,才更不容易慌。


Anthropic在结尾承认,让高智能AI完全可靠仍然是未解决的问题。他们现在的测试也不能排除所有极端风险。


一些takeways:


  • 不要只训练AI给出正确答案。


  • 要训练它理解背后的理由。


  • 不要只用相似题目刷分。


  • 要让它在很多不同场景里学会稳妥判断。


  • 好的训练数据质量很关键,甚至比数量更关键。


链接:https://www.anthropic.com/research/teaching-claude-why

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜