扫码打开虎嗅APP
本文来自微信公众号: 每日天使 ,作者:每日天使
2024年的AI竞赛,主旋律是"更大":更大的模型、更长的上下文、更海量的数据。但有一群研究者正在从另一个方向突围——不是把模型做大,而是让模型学会"思考"。
Y Combinator合伙人Ankit Gupta与访问合伙人Francois Chaubard,最近在一期播客中深入探讨了这个被他们称为"递归"(Recursion)的新趋势。核心逻辑很简单:人类解决复杂问题的方式,不是看一遍题目就给出答案,而是反复推敲、逐步深化。传统的大语言模型(LLM)恰恰缺少这种能力——它们是"一次性前馈"的架构,看一眼输入就给输出,中间没有任何"思考"的空间。
Francois分享了两篇正在引发关注的论文:HRM(Hierarchical Reasoning Models)和TRM(Tiny Recursive Models)。前者只有27M参数,却在ARC Prize上超越了o3的零样本表现;后者更激进,仅用7M参数和单层Transformer,将准确率从70%推到了87%。
这意味着什么?
QA正文
主持人:今天想聊聊AI研究中最令人兴奋的趋势——递归(recursion)。你们最近在这个方向上投入了大量精力,能先给观众介绍一下背景吗?
Francois:当然。让我从基础开始说起。我会讲一些技术细节,但我认为理解这个问题的全貌需要这些背景知识。
递归的核心思想是:你不是让模型一次性解决所有问题,而是让模型多次调用自身,每次都在前一次的基础上深化理解。这听起来可能有点抽象,但在具体问题上有非常实际的意义。
主持人:先给我们讲讲RNN——循环神经网络,因为递归在某种程度上是RNN思想的复兴?
Francois:RNN的基本原理其实很简单:模型反复调用自身。你可以想象一个循环,数据进去,出来,然后又被送回去,再出来,再送回去,如此往复。
RNN的巅峰大约在2016年,Alex Graves的工作达到了一个高峰。但RNN有一个根本性的限制,那就是BPTT——backprop through time,中文叫"随时间反向传播"。
具体来说,你需要"展开"模型来计算梯度。假设你有100万步的上下文,你就需要100万份大脑激活的副本。更糟糕的是,随着步数增加,梯度噪声会累积,导致梯度消失或爆炸——这就是为什么RNN很难处理长序列。
这确实是一个根本性的问题。
主持人:那LLM——大语言模型,特别是Transformer架构——是如何解决这个问题的?
Francois:Transformer的关键创新是并行处理。在训练时,所有时间步可以同时处理,因为它们之间是独立的。这解决了梯度消失问题。
但代价是什么?你失去了隐式推理的能力。我所说的"隐式",是指在时间方向上的压缩。
想象一下:你有一串数据,Transformer需要记住所有内容,因为没有压缩机制。每次解码时,你必须保留完整的上下文。这在效率上是一个巨大的差异。
让我用一个具体的例子来说明这个问题有多严重。
主持人:什么例子?
Francois:排序问题。比较排序有一个理论下界:O(n log n)。对于31个元素的列表,你至少需要31次比较。如果Transformer只有30层,就没有足够的计算步骤来完成这个任务。
这是一个非常有力的论点。LLM的前馈架构在推理能力上存在根本性的限制。
没错。这不仅仅是排序问题。Sudoku、迷宫——这些都是"不可压缩问题"(incompressible problems)。你无法通过一次性前馈来解决它们。你必须递归地处理信息。
这就是为什么当前LLM需要依赖一些"作弊"方法:
第一种是Chain of Thought(思维链)。让模型在token空间中递归——思考,再思考,再思考。但这种方法受限于训练数据中的人类知识。
第二种是Tool use(工具调用)。让模型调用外部函数,比如排序函数。但这也受限于已知函数库的范围。
两种方法本质上都是在用人类知识来弥补模型的推理缺陷。这不是真正的智能。
主持人:那HRM论文是如何解决这个问题的?
Francois:HRM——Hierarchical Reasoning Models——的设计灵感来自大脑。人类大脑有不同的频率区域协同工作,HRM模仿了这种结构。
它有三级递归:
第一级:低层网络(LNet),循环TL步。第二级:高层网络(HNet),循环TH步。第三级:外部精炼步骤,重复N次。
关键创新在于DEQ(Deep Equilibrium Learning)训练方法。传统的Alex Graves方法需要通过所有递归步骤反向传播梯度。但DEQ做了一个聪明的事情:只反传一步(截断的BPTT,t=1),然后不重置隐状态。
这意味着什么?每个训练样本在隐状态空间中构造了一个mini-batch。模型学会了利用历史信息,而不是每次都从零开始。
这是一个非常优雅的设计。
主持人:这些结果令人印象深刻。能具体说说性能数据吗?
Francois:HRM模型只有27M参数——相比GPT-3的175B,这是一个零头都不到。
关键的是,它没有使用任何预训练。训练数据只有1000个ARC Prize任务。
结果呢?在ARC Prize 1上达到约70%的准确率。这超越了当时o3的零样本表现——而o3是一个价值数百亿美元的闭源系统。
这个对比太悬殊了。
确实。但我想强调的是:这不是说HRM比o3更好。o3有更大的嵌入空间和更多的知识。问题在于:在特定类型的推理任务上,递归架构可以更高效地利用计算资源。
这是一个范式上的转变。
主持人:论文中提到这个设计有生物可行性(bioplausibility)——你是怎么看待这个问题的?
Francois:我对bioplausibility持怀疑态度。让我用AlexNet的例子来说明。
AlexNet最初的设计模仿了生物的局部感受野机制。但后来VGG简化了这些设计,效果反而更好。
我同意。生物系统是灵感来源,但不应该成为约束条件。
完全同意。Francois在论文中也有类似的观点。生物可行性是一个有趣的视角,但真正的答案是:什么在工程上有效,我们就用什么。
主持人:那有没有一个更本质的理论框架来解释为什么递归有效?
Francois:我认为更好的解释来自自动机理论(automata theory)和数据结构/算法。
想象一个图灵机。它有一个无限长的纸带作为内存。当你运行复杂算法时,能够访问这个内存缓存是非常有用的。
HRM的隐状态——ZL和ZH——就类似于这样的内存缓存。它们允许模型在推理过程中存储和检索信息。
这是一个更清晰的解释。
主持人:后来Alexia的TRM论文进一步简化了HRM。能详细说说吗?
Francois:TRM——Tiny Recursive Models——做了几个关键的简化:
第一,将LNet和HNet合并为一个Net。它们权重共享,本质上是同一个网络在不同抽象层次上运行。
第二,只用1层Transformer。HRM用的是4层。
第三,反向传播时不是通过两个独立的模块,而是通过一个完整的递归循环。这使得梯度流动更顺畅。
简化到极致了。
是的。有时候最简单的解决方案反而最强大。
主持人:TRM的结果如何?
Francois:参数规模降到7M——比HRM小3到4倍。
ARC Prize 1准确率:87%。
对比一下:HRM是70%,o3的零样本表现大约也是70%左右。
这是一个巨大的提升。
确实。还有一个有趣的发现:在Sudoku上,MLP(多层感知机)甚至优于transformer attention。但在迷宫上,MLP得零分——完全失败。
这说明什么?不同的任务需要不同的递归机制。没有银弹。
主持人:Constantine做了一些消融实验,发现了什么?
Francois:他的实验表明,外部精炼循环(outer refinement loop)是性能提升的主要原因。
这意味着什么?
训练时,递归非常重要——模型需要学会如何递归。
但测试时,递归的重要性反而降低了。这可能是因为:一旦学会了递归策略,模型可以在推理早期就应用这些策略,而不是需要多次迭代。
这是一个重要的洞察。
主持人:最后,你们对递归在AI领域的未来有什么看法?
Francois:首先,递归不会消失。Google已经展示了递归语言模型的强大能力。
其次,截断BPTT(t=1)是一个强大但尚未充分探索的想法。
最后,也是最令人兴奋的方向:将7M参数小模型的递归推理能力与大模型的嵌入表示能力结合。
具体来说?
LLM擅长找到好的嵌入空间——将信息组织成有意义的形式。但在那个空间中,推理仍然是通过token空间进行的。这很低效。
如果在嵌入空间中用小递归模型进行推理,而不是用transformer的token操作——那将释放巨大的潜力。
这是我认为最令人兴奋的方向。
递归可能是AI的下一个扩展定律。不是更大的模型,而是更聪明的架构。
视频链接:https://www.youtube.com/watch?v=DGtUUMNYLcc