扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
递归推理正成为AI发展的新方向,通过让模型多次调用自身深化理解,小参数模型在特定任务上已超越大模型表现,预示架构创新可能比规模扩张更重要。 ## 1. 递归推理的突破性价值 - **核心逻辑**:人类通过反复推敲解决问题,而传统LLM是"一次性前馈"架构,缺乏思考空间。 - **实证案例**:27M参数的HRM模型在ARC Prize超越GPT-3零样本表现,7M参数的TRM将准确率从70%提升至87%。 ## 2. 传统架构的局限性 - **RNN缺陷**:梯度消失/爆炸问题限制长序列处理,需展开计算导致效率低下。 - **Transformer代价**:并行处理牺牲隐式推理能力,如排序问题受限于层数(31元素排序需至少31层)。 - **当前解决方案缺陷**:思维链依赖人类知识,工具调用受限于函数库,均非真正智能。 ## 3. 递归模型的技术创新 - **HRM设计**:三级递归结构(LNet/HNet/外部精炼)+ DEQ训练法(单步反向传播),27M参数实现70%准确率。 - **TRM简化**:单层Transformer+权重共享,7M参数达87%准确率,梯度流动更顺畅。 - **关键发现**:外部精炼循环是性能主因,训练时递归比测试时更重要。 ## 4. 理论解释与未来方向 - **自动机理论支撑**:隐状态类似图灵机内存缓存,支持信息存储检索。 - **生物可行性争议**:灵感可取但不应成为约束,工程有效性优先。 - **融合潜力**:将小模型递归能力与大模型嵌入空间结合,或成下一代AI扩展定律。
2026-05-09 18:28

YC合伙人:递归推理是AI下一个扩展定律

本文来自微信公众号: 每日天使 ,作者:每日天使


    2024年的AI竞赛,主旋律是"更大":更大的模型、更长的上下文、更海量的数据。但有一群研究者正在从另一个方向突围——不是把模型做大,而是让模型学会"思考"。


    Y Combinator合伙人Ankit Gupta与访问合伙人Francois Chaubard,最近在一期播客中深入探讨了这个被他们称为"递归"(Recursion)的新趋势。核心逻辑很简单:人类解决复杂问题的方式,不是看一遍题目就给出答案,而是反复推敲、逐步深化。传统的大语言模型(LLM)恰恰缺少这种能力——它们是"一次性前馈"的架构,看一眼输入就给输出,中间没有任何"思考"的空间。


    Francois分享了两篇正在引发关注的论文:HRM(Hierarchical Reasoning Models)和TRM(Tiny Recursive Models)。前者只有27M参数,却在ARC Prize上超越了o3的零样本表现;后者更激进,仅用7M参数和单层Transformer,将准确率从70%推到了87%。


    这意味着什么?


    QA正文


    一、开场与背景


    主持人:今天想聊聊AI研究中最令人兴奋的趋势——递归(recursion)。你们最近在这个方向上投入了大量精力,能先给观众介绍一下背景吗?


    Francois:当然。让我从基础开始说起。我会讲一些技术细节,但我认为理解这个问题的全貌需要这些背景知识。


    递归的核心思想是:你不是让模型一次性解决所有问题,而是让模型多次调用自身,每次都在前一次的基础上深化理解。这听起来可能有点抽象,但在具体问题上有非常实际的意义。


    二、RNN基础与局限


    主持人:先给我们讲讲RNN——循环神经网络,因为递归在某种程度上是RNN思想的复兴?


    Francois:RNN的基本原理其实很简单:模型反复调用自身。你可以想象一个循环,数据进去,出来,然后又被送回去,再出来,再送回去,如此往复。


    RNN的巅峰大约在2016年,Alex Graves的工作达到了一个高峰。但RNN有一个根本性的限制,那就是BPTT——backprop through time,中文叫"随时间反向传播"。


    具体来说,你需要"展开"模型来计算梯度。假设你有100万步的上下文,你就需要100万份大脑激活的副本。更糟糕的是,随着步数增加,梯度噪声会累积,导致梯度消失或爆炸——这就是为什么RNN很难处理长序列。


    这确实是一个根本性的问题。


    三、LLM的优势与代价


    主持人:那LLM——大语言模型,特别是Transformer架构——是如何解决这个问题的?


    Francois:Transformer的关键创新是并行处理。在训练时,所有时间步可以同时处理,因为它们之间是独立的。这解决了梯度消失问题。


    但代价是什么?你失去了隐式推理的能力。我所说的"隐式",是指在时间方向上的压缩。


    想象一下:你有一串数据,Transformer需要记住所有内容,因为没有压缩机制。每次解码时,你必须保留完整的上下文。这在效率上是一个巨大的差异。


    让我用一个具体的例子来说明这个问题有多严重。


    四、LLM的推理天花板


    主持人:什么例子?


    Francois:排序问题。比较排序有一个理论下界:O(n log n)。对于31个元素的列表,你至少需要31次比较。如果Transformer只有30层,就没有足够的计算步骤来完成这个任务。


    这是一个非常有力的论点。LLM的前馈架构在推理能力上存在根本性的限制。


    没错。这不仅仅是排序问题。Sudoku、迷宫——这些都是"不可压缩问题"(incompressible problems)。你无法通过一次性前馈来解决它们。你必须递归地处理信息。


    这就是为什么当前LLM需要依赖一些"作弊"方法:


    第一种是Chain of Thought(思维链)。让模型在token空间中递归——思考,再思考,再思考。但这种方法受限于训练数据中的人类知识。


    第二种是Tool use(工具调用)。让模型调用外部函数,比如排序函数。但这也受限于已知函数库的范围。


    两种方法本质上都是在用人类知识来弥补模型的推理缺陷。这不是真正的智能。


    五、HRM论文详解


    主持人:那HRM论文是如何解决这个问题的?


    Francois:HRM——Hierarchical Reasoning Models——的设计灵感来自大脑。人类大脑有不同的频率区域协同工作,HRM模仿了这种结构。


    它有三级递归:


    第一级:低层网络(LNet),循环TL步。第二级:高层网络(HNet),循环TH步。第三级:外部精炼步骤,重复N次。


    关键创新在于DEQ(Deep Equilibrium Learning)训练方法。传统的Alex Graves方法需要通过所有递归步骤反向传播梯度。但DEQ做了一个聪明的事情:只反传一步(截断的BPTT,t=1),然后不重置隐状态。


    这意味着什么?每个训练样本在隐状态空间中构造了一个mini-batch。模型学会了利用历史信息,而不是每次都从零开始。


    这是一个非常优雅的设计。


    六、HRM结果


    主持人:这些结果令人印象深刻。能具体说说性能数据吗?


    Francois:HRM模型只有27M参数——相比GPT-3的175B,这是一个零头都不到。


    关键的是,它没有使用任何预训练。训练数据只有1000个ARC Prize任务。


    结果呢?在ARC Prize 1上达到约70%的准确率。这超越了当时o3的零样本表现——而o3是一个价值数百亿美元的闭源系统。


    这个对比太悬殊了。


    确实。但我想强调的是:这不是说HRM比o3更好。o3有更大的嵌入空间和更多的知识。问题在于:在特定类型的推理任务上,递归架构可以更高效地利用计算资源。


    这是一个范式上的转变。


    七、生物可行性的讨论


    主持人:论文中提到这个设计有生物可行性(bioplausibility)——你是怎么看待这个问题的?


    Francois:我对bioplausibility持怀疑态度。让我用AlexNet的例子来说明。


    AlexNet最初的设计模仿了生物的局部感受野机制。但后来VGG简化了这些设计,效果反而更好。


    我同意。生物系统是灵感来源,但不应该成为约束条件。


    完全同意。Francois在论文中也有类似的观点。生物可行性是一个有趣的视角,但真正的答案是:什么在工程上有效,我们就用什么。


    八、自动机理论的解释


    主持人:那有没有一个更本质的理论框架来解释为什么递归有效?


    Francois:我认为更好的解释来自自动机理论(automata theory)和数据结构/算法。


    想象一个图灵机。它有一个无限长的纸带作为内存。当你运行复杂算法时,能够访问这个内存缓存是非常有用的。


    HRM的隐状态——ZL和ZH——就类似于这样的内存缓存。它们允许模型在推理过程中存储和检索信息。


    这是一个更清晰的解释。


    九、TRM论文详解


    主持人:后来Alexia的TRM论文进一步简化了HRM。能详细说说吗?


    Francois:TRM——Tiny Recursive Models——做了几个关键的简化:


    第一,将LNet和HNet合并为一个Net。它们权重共享,本质上是同一个网络在不同抽象层次上运行。


    第二,只用1层Transformer。HRM用的是4层。


    第三,反向传播时不是通过两个独立的模块,而是通过一个完整的递归循环。这使得梯度流动更顺畅。


    简化到极致了。


    是的。有时候最简单的解决方案反而最强大。


    十、TRM结果


    主持人:TRM的结果如何?


    Francois:参数规模降到7M——比HRM小3到4倍。


    ARC Prize 1准确率:87%。


    对比一下:HRM是70%,o3的零样本表现大约也是70%左右。


    这是一个巨大的提升。


    确实。还有一个有趣的发现:在Sudoku上,MLP(多层感知机)甚至优于transformer attention。但在迷宫上,MLP得零分——完全失败。


    这说明什么?不同的任务需要不同的递归机制。没有银弹。


    十一、外部精炼循环的关键作用


    主持人:Constantine做了一些消融实验,发现了什么?


    Francois:他的实验表明,外部精炼循环(outer refinement loop)是性能提升的主要原因。


    这意味着什么?


    训练时,递归非常重要——模型需要学会如何递归。


    但测试时,递归的重要性反而降低了。这可能是因为:一旦学会了递归策略,模型可以在推理早期就应用这些策略,而不是需要多次迭代。


    这是一个重要的洞察。


    十二、未来展望


    主持人:最后,你们对递归在AI领域的未来有什么看法?


    Francois:首先,递归不会消失。Google已经展示了递归语言模型的强大能力。


    其次,截断BPTT(t=1)是一个强大但尚未充分探索的想法。


    最后,也是最令人兴奋的方向:将7M参数小模型的递归推理能力与大模型的嵌入表示能力结合。


    具体来说?


    LLM擅长找到好的嵌入空间——将信息组织成有意义的形式。但在那个空间中,推理仍然是通过token空间进行的。这很低效。


    如果在嵌入空间中用小递归模型进行推理,而不是用transformer的token操作——那将释放巨大的潜力。


    这是我认为最令人兴奋的方向。


    递归可能是AI的下一个扩展定律。不是更大的模型,而是更聪明的架构。


    视频链接:https://www.youtube.com/watch?v=DGtUUMNYLcc

    本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
    如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

    支持一下

    赞赏

    0人已赞赏

    大 家 都 在 搜

    好的内容,值得赞赏

    您的赞赏金额会直接进入作者的虎嗅账号

      自定义
      支付: