图灵奖得主Sutton新作：用一个1967年的公式，解决流式强化学习一大缺陷-虎嗅网

本文来自微信公众号：机器之心，编辑：Panda，作者：关注RL的

2024年底，一篇题为「流式深度强化学习终于跑通了」的论文（arXiv:2410.14606）在学界引发广泛讨论。作者来自阿尔伯塔大学的Mahmood团队，他们花了大量篇幅描述一个令人尴尬的现实：强化学习作为一种天生应该「边走边学」的方法，在深度神经网络时代却几乎无法做到这一点。只要去掉回放缓冲区、只要把批量大小设为1，训练就会崩溃。他们称之为「流式壁垒」（stream barrier）。

那篇论文提出的StreamX系列算法，靠着精细调配的超参数、稀疏初始化和各种稳定化技巧，勉强越过了这堵墙。

然而不到一年半后，同一课题组的一位成员，连同来自Openmind研究院的合作者，给出了一个截然不同的答案：流式壁垒的根源不是「数据不够多」，而是「步长选错了单位」。

论文标题：Intentional Updates for Streaming Reinforcement Learning
论文地址：https://arxiv.org/pdf/2604.19033v1
代码库：https://github.com/sharifnassab/Intentional_RL

一脚油门，开出了多大的坑

想象你正在驾车学习停车入库。教练告诉你每次「踩油门0.1秒」。问题在于，同样踩0.1秒，上坡、下坡、空载、满载，车子前进的距离可能天差地别。有时候差一厘米恰好入库，有时候差30厘米直接撞墙。

传统梯度学习的步长，做的正是这件事：它规定参数每次移动多大，但对函数输出到底改变了多少，则完全没有控制。在批量训练时，成百上千个样本的误差平均下来，极端情况被稀释掉了，问题并不明显。但在「流式」环境下，每一步只有一个样本，没有平均可言。一旦梯度方向不稳定，更新幅度就会忽大忽小——今天前进30厘米，明天后退50厘米，学习过程在剧烈震荡中崩溃。

这种「过冲与欠冲」（overshooting and undershooting）现象在强化学习里尤为严重，因为每个时间步的梯度不仅幅度各异，方向也在高速变化。

重新定义「一步该做多少」

来自Openmind研究院的Arsalan Sharifnassab与阿尔伯塔大学的Mohamed Elsayed、A.Rupam Mahmood和Richard Sutton等人，近日发表的论文中提出了一个换一个角度思考的方案：与其指定参数移动多少，不如直接指定函数输出该改变多少。

这个想法并不是凭空而来的。1967年，日本学者Nagumo和Noda在论文《A learning method for system identification》中就在自适应滤波领域提出了「归一化最小均方差」（NLMS）算法；本质上也是用期望的输出变化来反推步长，而不是反过来。只不过那个算法只适用于简单的线性场景。

研究者们将这一思路推广到了深度强化学习。他们称之为「意图更新」（Intentional Updates）：每次更新之前，先明确「我希望这一步实现什么」，然后反推出应该用多大的步长。

对于价值学习（即预测未来奖励），他们定义的意图是：每次更新后，当前状态的价值预测误差应该缩小一个固定比例——例如缩小5%，不多也不少。对于策略学习（即优化决策行为），他们定义的意图是：当前动作的选择概率，每一步只允许改变一个「适度」的量。

用驾车的比喻来说：这就好比司机在每次操作前先决定「我要让车向前移动20厘米」，然后根据当前路况（坡度、载重）自动计算该踩多深的油门，而不是每次都踩同样的深度听天由命。

图灵奖得主与他的拼图

论文的署名之一，是Richard S.Sutton——2024年图灵奖得主，被广泛称为「现代强化学习之父」。

Sutton在学界的地位大约相当于物理学里的费曼：他不仅提出了时间差分学习（TD learning）和策略梯度（policy gradient）这两个现代强化学习的基础框架，还与Andrew Barto合著了该领域最权威的教材《Reinforcement Learning:An Introduction》（现已出至第二版，可免费在线阅读）。他与Barto于2024年共享图灵奖，奖项评语是「为强化学习奠定了概念与算法基础」。

获奖后，Sutton没有选择退休，而是将奖金投入创立的Openmind研究院，专门资助那些愿意在「不受商业化压迫的环境下探索基础问题」的年轻研究者。这篇新论文，正是从这家非营利机构走出来的。

而论文一作Sharifnassab，之前刚刚在ICML 2025发表了MetaOptimize框架，研究如何在线自动调整学习率。两个课题的关注点高度一致：如何让步长本身变得更智能。

算法细节：比想象中简洁

「意图更新」的数学推导并不复杂，其核心公式可以用一句话描述：步长等于「期望的输出变化量」除以「梯度方向对输出的实际影响力」。

在价值学习中，这个「实际影响力」就是梯度向量的范数（相当于衡量当前参数区域有多「陡」）：越陡的地方步长越小，越平的地方步长越大，从而保证每次更新对价值函数的冲击保持一致。

在策略学习中，「期望变化量」被定义为与优势函数成比例：当前动作比平均水平好多少，策略就往那个方向动多少——通过一个跑动平均来归一化量级，确保长期下来策略改变的幅度稳定在一个可解释的范围。

研究者还将这一核心思想与两个工程实践结合：RMSProp风格的对角缩放（处理不同参数维度量级差异）和资格迹（eligibility traces，帮助奖励信号向过去时间步传播）。

最终形成三个完整算法：用于价值预测的Intentional TD(λ)、用于离散动作控制的Intentional Q(λ)，以及用于连续控制的Intentional Policy Gradient。

实验结果：不靠GPU也能打平SAC

论文在多个标准基准上评估了这套方法，结果令人印象深刻。

在MuJoCo连续控制任务（包括Ant、Humanoid、HalfCheetah等复杂仿真机器人）上，新方法Intentional AC在流式设置下（批量大小=1，无回放缓冲区）的最终性能，多次接近甚至比肩SAC——一个使用大批量回放缓冲区、几乎是当前连续控制任务黄金标准的算法。而在计算量上，每次Intentional AC更新所需的浮点运算，只有一次SAC更新的约1/140。

在Atari和MinAtar离散动作游戏上，Intentional Q-learning的表现同样与使用回放缓冲区的DQN相当，且用同一套超参数设置跑通了全部任务，无需逐个调参。

研究者还专门验证了「意图」是否真的被实现了：他们测量了实际更新量与预期更新量的比值。在禁用资格迹的简化设置下，这个比值的标准差仅为0.016到0.029，99分位数均在1.07以内；意味着绝大多数时候，更新确实做到了「说好要做多少就做多少」。

此外，一组消融实验表明，去掉RMSProp归一化或者σ项之后，性能有所下降但仍然有竞争力，而这个「意图缩放」本身是首要贡献者，其他组件都是辅助。

问题还是有的

「意图更新」框架在鲁棒性上也展示出明显优势。当研究者逐一去掉StreamX方法所依赖的各种稳定化辅助技巧（稀疏初始化、奖励缩放、输入归一化、LayerNorm）时，Intentional AC的性能退化明显少于原始StreamAC，说明意图缩放从根源上减少了对外部「拐杖」的依赖。

但论文也坦诚了一个尚未完全解决的问题：策略学习中，步长依赖于当前采样的动作，这会使不同动作被隐性赋予不同的「权重」，可能改变策略梯度的期望方向。在Humanoid和HumanoidStandup任务中，通过测量期望更新方向的余弦相似度，研究者发现这种偏差在关键学习阶段接近0.96（几乎没有影响）；但在Ant-v4中，对齐度降至中位数0.63，说明问题并非总能被忽视。

作者指出，未来研究应当寻找对动作无关的步长选择策略，使「意图」在期望意义下也保持无偏。这是该方向上留给后来者的明确作业。

结语：让AI像人一样边做边学

当前主流的大模型训练范式，依赖海量数据的批量消化：把互联网上的文字和代码统统喂进去，反复迭代，最终涌现出令人惊叹的能力。这套路线已经被证明行之有效，但它从根本上是「先学后用」的：一旦训练完成，模型就冻结了，无法从后续的每一次实际交互中持续更新。

流式强化学习所追求的，是另一种截然不同的学习模式：不依赖海量回放，不依赖庞大GPU集群，每一步经历都立刻转化为参数更新，持续、廉价、自适应。这更接近人类和动物真实的学习方式。

从Elsayed等人2024年「终于跑通了」的初步突破，到这篇论文提出的「意图更新」原则，流式深度强化学习正在以令人意外的速度走向成熟。它不会取代批量训练的大模型，但对于需要长期在线适应的机器人、边缘设备，以及任何无法承受大规模回放缓冲区和GPU集群的应用场景，这条路线正变得越来越有说服力。

步长不只是一个超参数，它是AI每一步「想做多少」的承诺。当这个承诺终于变得可控，学习本身就稳定了。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

图灵奖得主Sutton新作：用一个1967年的公式，解决流式强化学习一大缺陷