YC合伙人：递归推理是AI下一个扩展定律-虎嗅网

本文来自微信公众号：每日天使，作者：每日天使

2024年的AI竞赛，主旋律是"更大"：更大的模型、更长的上下文、更海量的数据。但有一群研究者正在从另一个方向突围——不是把模型做大，而是让模型学会"思考"。

Y Combinator合伙人Ankit Gupta与访问合伙人Francois Chaubard，最近在一期播客中深入探讨了这个被他们称为"递归"（Recursion）的新趋势。核心逻辑很简单：人类解决复杂问题的方式，不是看一遍题目就给出答案，而是反复推敲、逐步深化。传统的大语言模型（LLM）恰恰缺少这种能力——它们是"一次性前馈"的架构，看一眼输入就给输出，中间没有任何"思考"的空间。

Francois分享了两篇正在引发关注的论文：HRM（Hierarchical Reasoning Models）和TRM（Tiny Recursive Models）。前者只有27M参数，却在ARC Prize上超越了o3的零样本表现；后者更激进，仅用7M参数和单层Transformer，将准确率从70%推到了87%。

这意味着什么？

QA正文

一、开场与背景

主持人：今天想聊聊AI研究中最令人兴奋的趋势——递归（recursion）。你们最近在这个方向上投入了大量精力，能先给观众介绍一下背景吗？

Francois：当然。让我从基础开始说起。我会讲一些技术细节，但我认为理解这个问题的全貌需要这些背景知识。

递归的核心思想是：你不是让模型一次性解决所有问题，而是让模型多次调用自身，每次都在前一次的基础上深化理解。这听起来可能有点抽象，但在具体问题上有非常实际的意义。

二、RNN基础与局限

主持人：先给我们讲讲RNN——循环神经网络，因为递归在某种程度上是RNN思想的复兴？

Francois：RNN的基本原理其实很简单：模型反复调用自身。你可以想象一个循环，数据进去，出来，然后又被送回去，再出来，再送回去，如此往复。

RNN的巅峰大约在2016年，Alex Graves的工作达到了一个高峰。但RNN有一个根本性的限制，那就是BPTT——backprop through time，中文叫"随时间反向传播"。

具体来说，你需要"展开"模型来计算梯度。假设你有100万步的上下文，你就需要100万份大脑激活的副本。更糟糕的是，随着步数增加，梯度噪声会累积，导致梯度消失或爆炸——这就是为什么RNN很难处理长序列。

这确实是一个根本性的问题。

三、LLM的优势与代价

主持人：那LLM——大语言模型，特别是Transformer架构——是如何解决这个问题的？

Francois：Transformer的关键创新是并行处理。在训练时，所有时间步可以同时处理，因为它们之间是独立的。这解决了梯度消失问题。

但代价是什么？你失去了隐式推理的能力。我所说的"隐式"，是指在时间方向上的压缩。

想象一下：你有一串数据，Transformer需要记住所有内容，因为没有压缩机制。每次解码时，你必须保留完整的上下文。这在效率上是一个巨大的差异。

让我用一个具体的例子来说明这个问题有多严重。

四、LLM的推理天花板

主持人：什么例子？

Francois：排序问题。比较排序有一个理论下界：O(n log n)。对于31个元素的列表，你至少需要31次比较。如果Transformer只有30层，就没有足够的计算步骤来完成这个任务。

这是一个非常有力的论点。LLM的前馈架构在推理能力上存在根本性的限制。

没错。这不仅仅是排序问题。Sudoku、迷宫——这些都是"不可压缩问题"（incompressible problems）。你无法通过一次性前馈来解决它们。你必须递归地处理信息。

这就是为什么当前LLM需要依赖一些"作弊"方法：

第一种是Chain of Thought（思维链）。让模型在token空间中递归——思考，再思考，再思考。但这种方法受限于训练数据中的人类知识。

第二种是Tool use（工具调用）。让模型调用外部函数，比如排序函数。但这也受限于已知函数库的范围。

两种方法本质上都是在用人类知识来弥补模型的推理缺陷。这不是真正的智能。

五、HRM论文详解

主持人：那HRM论文是如何解决这个问题的？

Francois：HRM——Hierarchical Reasoning Models——的设计灵感来自大脑。人类大脑有不同的频率区域协同工作，HRM模仿了这种结构。

它有三级递归：

第一级：低层网络（LNet），循环TL步。第二级：高层网络（HNet），循环TH步。第三级：外部精炼步骤，重复N次。

关键创新在于DEQ（Deep Equilibrium Learning）训练方法。传统的Alex Graves方法需要通过所有递归步骤反向传播梯度。但DEQ做了一个聪明的事情：只反传一步（截断的BPTT,t=1），然后不重置隐状态。

这意味着什么？每个训练样本在隐状态空间中构造了一个mini-batch。模型学会了利用历史信息，而不是每次都从零开始。

这是一个非常优雅的设计。

六、HRM结果

主持人：这些结果令人印象深刻。能具体说说性能数据吗？

Francois：HRM模型只有27M参数——相比GPT-3的175B，这是一个零头都不到。

关键的是，它没有使用任何预训练。训练数据只有1000个ARC Prize任务。

结果呢？在ARC Prize 1上达到约70%的准确率。这超越了当时o3的零样本表现——而o3是一个价值数百亿美元的闭源系统。

这个对比太悬殊了。

确实。但我想强调的是：这不是说HRM比o3更好。o3有更大的嵌入空间和更多的知识。问题在于：在特定类型的推理任务上，递归架构可以更高效地利用计算资源。

这是一个范式上的转变。

七、生物可行性的讨论

主持人：论文中提到这个设计有生物可行性（bioplausibility）——你是怎么看待这个问题的？

Francois：我对bioplausibility持怀疑态度。让我用AlexNet的例子来说明。

AlexNet最初的设计模仿了生物的局部感受野机制。但后来VGG简化了这些设计，效果反而更好。

我同意。生物系统是灵感来源，但不应该成为约束条件。

完全同意。Francois在论文中也有类似的观点。生物可行性是一个有趣的视角，但真正的答案是：什么在工程上有效，我们就用什么。

八、自动机理论的解释

主持人：那有没有一个更本质的理论框架来解释为什么递归有效？

Francois：我认为更好的解释来自自动机理论（automata theory）和数据结构/算法。

想象一个图灵机。它有一个无限长的纸带作为内存。当你运行复杂算法时，能够访问这个内存缓存是非常有用的。

HRM的隐状态——ZL和ZH——就类似于这样的内存缓存。它们允许模型在推理过程中存储和检索信息。

这是一个更清晰的解释。

九、TRM论文详解

主持人：后来Alexia的TRM论文进一步简化了HRM。能详细说说吗？

Francois：TRM——Tiny Recursive Models——做了几个关键的简化：

第一，将LNet和HNet合并为一个Net。它们权重共享，本质上是同一个网络在不同抽象层次上运行。

第二，只用1层Transformer。HRM用的是4层。

第三，反向传播时不是通过两个独立的模块，而是通过一个完整的递归循环。这使得梯度流动更顺畅。

简化到极致了。

是的。有时候最简单的解决方案反而最强大。

十、TRM结果

主持人：TRM的结果如何？

Francois：参数规模降到7M——比HRM小3到4倍。

ARC Prize 1准确率：87%。

对比一下：HRM是70%，o3的零样本表现大约也是70%左右。

这是一个巨大的提升。

确实。还有一个有趣的发现：在Sudoku上，MLP（多层感知机）甚至优于transformer attention。但在迷宫上，MLP得零分——完全失败。

这说明什么？不同的任务需要不同的递归机制。没有银弹。

十一、外部精炼循环的关键作用

主持人：Constantine做了一些消融实验，发现了什么？

Francois：他的实验表明，外部精炼循环（outer refinement loop）是性能提升的主要原因。

这意味着什么？

训练时，递归非常重要——模型需要学会如何递归。

但测试时，递归的重要性反而降低了。这可能是因为：一旦学会了递归策略，模型可以在推理早期就应用这些策略，而不是需要多次迭代。

这是一个重要的洞察。

十二、未来展望

主持人：最后，你们对递归在AI领域的未来有什么看法？

Francois：首先，递归不会消失。Google已经展示了递归语言模型的强大能力。

其次，截断BPTT（t=1）是一个强大但尚未充分探索的想法。

最后，也是最令人兴奋的方向：将7M参数小模型的递归推理能力与大模型的嵌入表示能力结合。

具体来说？

LLM擅长找到好的嵌入空间——将信息组织成有意义的形式。但在那个空间中，推理仍然是通过token空间进行的。这很低效。

如果在嵌入空间中用小递归模型进行推理，而不是用transformer的token操作——那将释放巨大的潜力。

这是我认为最令人兴奋的方向。

递归可能是AI的下一个扩展定律。不是更大的模型，而是更聪明的架构。

视频链接：https://www.youtube.com/watch?v=DGtUUMNYLcc

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

YC合伙人：递归推理是AI下一个扩展定律