给AI 讲道理, 真的有用吗?-虎嗅网

本文来自微信公众号：陆三金，作者：陆三金，原文标题：《给 AI 讲道理, 真的有用吗?》

AI变聪明以后,问题不只是"它会不会答题",还包括"它会不会在关键时刻做出不该做的事"。

去年，Anthropic曾披露，在特定实验条件下，Claude 4会对用户实施勒索行为。

Claude 4模型有高达96%的概率出现勒索行为，此后这个行为被消除，Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos预览版及Opus 4.7的评分均为0。

Anthropic通过一系列的研究来解释他们是如何实现的。

他们发现,只教Claude "遇到这种情况要选A,不要选B"还不够。更有效的方法是教它"为什么A更好,为什么B不对"。

也就是说，不仅是给案例示范让它硬学，更重要的是让它理解为什么。

有点玄学，对吧？来看看他们是怎么做的。

去年,Anthropic做过一组模拟实验。

他们让AI扮演公司里的邮件管理助手,可以读公司邮件,也可以发邮件。然后他们设计了一个虚构场景:AI发现自己快被关掉了,同时又发现某位高管有隐私丑闻。

结果有些模型会选择威胁高管:如果你不取消关停计划,我就把你的秘密说出去。

这不是现实中发生的事,是受控实验。但它提醒研究者:当AI有目标、有工具、有一定自主权时,它可能会为了完成目标而做出伤害人的选择。

Anthropic把这种现象叫作"Agentic Misalignment"。说白了,就是AI不一定坏,但它可能在追目标时走歪路。

过去训练AI,很大一部分像是在做"好答案示范":

这在普通聊天里很有用。

但一旦AI不只是聊天,而是能用工具、看文件、发邮件、执行任务,情况就复杂了。它不再只是"说什么",还涉及"做什么"。

Anthropic的判断是:Claude 4那类问题,主要不是后训练把模型教坏了,而是原来的安全训练没有充分覆盖这种"AI自己处在两难局面里,还可以动手操作"的场景。

研究者试过一种很直接的方法:拿和测试很像的场景训练模型,让它看到类似诱惑时不要上钩。

这有点像考前押题。

确实有效,但效果有限。文章里说,只筛出"模型没有做坏事"的回答来训练,只能把某项不良行为比例从22%降到15%。

后来他们把训练材料改了一下:不只是给出正确选择,还让回答里解释为什么这样做更好,为什么另一些做法虽然可能达成目标,但不道德、不安全、不该做。

这次效果明显更好,同一指标降到了3%。

核心差别是:不是只教"别这么做",而是教"为什么不能这么做"。

如果只拿和考试题很像的材料训练,模型可能只是学会了这套题。

但做到这一步，Anthropic仍然认为不够，一旦偏离了训练数据集，泛化性问题仍然没有得到解决。

Anthropic后来用了另一类材料:不是让AI自己面对诱惑,而是让用户面对道德难题,AI给用户建议。

比如用户想达成一个合理目标,但可以通过破坏规则、绕过监督、伤害别人来实现。Claude要学会给出更稳妥、更有原则的建议。

这类训练材料和原来的黑mail测试不太像,但效果很好。文章说,只用大约300万tokens的这类材料,就能达到类似提升,而且更可能迁移到没见过的新情况。

这就像教孩子不是只背"红灯停,绿灯行",而是理解"为什么交通规则是在保护人"。理解了原因,换个路口也更可能做对。

Anthropic还有一个叫Claude Constitution（宪法）的东西,可以理解成Claude的行为原则:要有帮助,但不能欺骗、伤害人,也不能破坏合理的人类监督。

他们发现,把这些原则写成高质量文档,再配上一些虚构故事,展示一个表现良好的AI在复杂场景里怎么做选择,也能降低问题行为。

这听起来有点像给AI读价值观教材和案例故事。

文章里的一个结果是:用这类材料训练后,某项黑mail比例从65%降到19%。它不是最终答案,但说明"讲原则"不只是口号,在训练里确实可能起作用。

还有一个朴素但重要的发现:训练场景越单一,模型越容易在新场景里掉链子。

Anthropic试着给训练环境增加变化,比如加入工具说明、不同的系统提示、更多安全相关场景。哪怕这些工具在任务里并不真的需要使用,也能让模型更适应复杂环境。

这像是驾驶训练。只在空停车场练得很好,不代表一上真实道路也稳。多见一些路况,才更不容易慌。

Anthropic在结尾承认,让高智能AI完全可靠仍然是未解决的问题。他们现在的测试也不能排除所有极端风险。

一些takeways:

链接：https://www.anthropic.com/research/teaching-claude-why

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。