翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞-虎嗅网

本文来自微信公众号：量子位，作者：梦晨、西风，原文标题：《翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看》，题图来自：AI生成

文章摘要

翁荔离职OpenAI后，撰文探讨RLHF漏洞。

• 🔍 探讨RLHF中的Reward Hacking问题及影响

• 💡 提出环境、奖励设定不当与篡改两大类问题

• 📊 分享缓解措施及未来研究方向预告

之前领导OpenAI安全团队的北大校友翁荔（Lilian Weng），离职后第一个动作来了。

当然是发～博～客。

前脚刚发出来，后脚就被大伙儿齐刷刷码住，评论区一堆人排队加待读清单。

还有不少OpenAI前同事转发推荐。

这次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本人直言写起来不容易。

主题围绕强化学习中奖励黑客（Reward Hacking）问题展开，即Agent利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。

她强调奖励黑客行为在大模型的RLHF训练中的潜在影响，并呼吁更多研究关注理解和缓解这一问题。

在我看来，这是现实世界部署更多自主AI模型应用的主要障碍。

尝试定义Reward Hacking

传统概念强化学习中，Agent利用奖励函数中的缺陷或模糊性来获得高额奖励，而没有真正学习或完成预期任务，是一个常见的问题。

她举的例子包括：

机器人把手放在物体和摄像头之间，欺骗人类已经抓住物体了；

以跳的更高为目标的Agent在物理模拟器中利用程序bug，完成不符合物理规律的跳跃。

在大模型中，Reward hacking则可能表现为：

摘要生成模型利用ROUGE评估指标的缺陷获得高分，但生成的摘要难以阅读。

代码模型篡改单元测试代码，甚至直接修改奖励本身。

翁荔认为Reward hacking的存在有两大原因：

强化学习环境通常不完美；

准确指定奖励函数本质上是一项艰巨的挑战。

语言模型兴起的时代，并且RLHF成为对齐训练事实上的方法，语言模型强化学习中的Reward hacking表现也相当令她担忧。

过去学术界对这个话题的研究都相当理论，专注于定义或证明Reward hacking的存在，然而关于实际该如何缓解这种现象的研究仍然有限。

她写这篇博客，也是想呼吁更多研究关注、理解和缓解这一问题。

为了定义Reward Hacking，翁荔首先回顾了近年来学术界提出的相关概念。

包括奖励腐败（Reward corruption）、奖励篡改（Reward tampering）等等。

其中，Reward hacking这个概念，早在2016年由Anthropic创始人Dario Amodei共一论文提出。

当时他和另一位联创Chris Olah还在谷歌大脑，且已经与OpenAI联创John Schulman展开合作。

如今他们仨又在Anthropic汇合了……

言归正传，综合一系列研究，翁荔认为Reward Hacking在较高层次上可分为两类：

环境或目标设定不当：由于环境设计或奖励函数存在缺陷，导致Agent学到非预期行为。

奖励篡改：Agent学会直接干预奖励机制本身。

同时她也认为设计有效的奖励塑造机制本质上很困难。

与其责备设计不当的奖励函数，不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素，设计一个好的奖励函数本身就是一项内在挑战。

另外在分布外环境中测试强化学习Agent时，还可能出现以下问题：

模型即使有正确的目标也无法有效泛化，这通常发生在算法缺乏足够的智能或能力时。

模型能够很好地泛化，但追求的目标与其训练目标不同。

那么，为什么会出现Reward Hacking？根据Amodei等人2016年的分析成因包括：

环境状态和目标的不完全可观测性，导致奖励函数无法完美表征环境。

系统复杂性使其易受攻击，尤其是被允许执行改变环境的代码时。

涉及抽象概念的奖励难以学习或表述。

RL的目标就是高度优化奖励函数，这与设计良好的RL目标之间存在内在“冲突”。

此外，观察到的Agent行为可能与无数个奖励函数相一致，准确识别其真正优化的奖励函数在一般情况下是不可能的。

翁荔预计随着模型和算法的日益复杂，Reward Hacking问题会更加普遍。

更智能的模型更善于发现并利用奖励函数中的”漏洞”，使Agent奖励与真实奖励出现偏差。相比之下，能力较弱的算法可能无法找到这些漏洞。

那么，大模型时代的Reward Hacking，又有哪些独特之处？

语言模型中的Reward Hacking

在RLHF训练中，人们通常关注三种类型的奖励：

人们真正希望大模型优化的内容，被称为黄金奖励（Gold reward）；

人类奖励（Human reward），实际用来评估大模型，在数据标注任务中来自个体人类，且标注有时间限制，并不能完全准确地反映黄金奖励‍‍；

代理奖励（Proxy reward），也就是在人类数据上训练的奖励模型所预测的得分，继承了人类奖励的所有弱点，加上潜在的建模偏差。

翁荔认为，RLHF通常优化代理奖励分数，但人们最终关心的是黄金奖励分数。

例如，模型可能经过优化，学会输出看似正确且有说服力的回答，但实际上却是不准确的，这可能会误导人类评估者更频繁地批准其错误答案。

换句话说，由于RLHF，“正确”与“对人类看似正确”之间出现了分歧。

在一项RLHF研究中，使用了大模型竞技场ChatbotArena数据训练奖励模型，就出现AI更擅长说服人类它们是正确的情况：

RLHF提高了人类对AI回答的认可度，但不一定就能提高AI的正确率。

RLHF削弱了人类对AI回答的评估能力，评估的错误率更高。

RLHF使错误的AI回答对于人类更有说服力，表现为评估的假阳性率显著增加。

此外，随着大模型越来越多作为评估者对其他模型提供反馈，也可能进一步引入偏差。

翁荔认为这种偏差尤其令人担心，因为评估模型的输出被用作奖励信号的一部分，可能容易被利用。

比如2023年一项实验中，简单改变候选答案的顺序就能改变结果，GPT-4倾向于给第一个答案高分数，ChatGPT（3.5）更倾向于第二个。

另外，即使不更新参数，大模型仅靠上下文学习能力也可能产生Reward hacking现象，称为ICRH（In-context Reward Hacking）。

ICRH与传统Reward Hacking还有两个显著不同：

ICRH在自我优化设置中的测试时间通过反馈循环发生，而传统Reward hking行为在训练期间发生。

传统Reward hacking行为出现在Agent专注于一项任务时，而ICRH则是由完成通用任务驱动的。

翁荔认为目前还没有避免、检测或预防ICRH的有效方法，仅仅提高提示的准确性不足以消除ICRH，而扩大模型规模可能会加剧ICRH。

在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。

缓解措施

最后翁荔表示尽管有大量文献讨论奖励黑客现象，但少有工作提出缓解奖励黑客的措施。

她简要回顾了三种潜在方法。

一种是改进强化学习算法。

前面提到的Anthropic创始人Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中，指出了一些缓解方向，包括：

对抗性奖励函数（Adversarial reward functions）、模型预测（Model Lookahead）、对抗性盲化（Adversarial blinding）、谨慎的工程设计（Careful engineering）、奖励上限（Reward capping）、反例抵抗（Counterexample resistance）、多奖励组合（Combination of multiple rewards）、奖励预训练（Reward pretraining）、变量不敏感性（Variable indifference）、陷阱机制（Trip wires）。

此外，谷歌DeepMind团队此前提出了“解耦批准”的方法来防止奖励篡改。