马斯克直言“奇点降临”：卡帕西让AI自己研究LLM，两天后训练时间暴砍11%-虎嗅网

本文来自微信公众号：夕小瑶科技说，作者：未知艺术家

3月8号，卡帕西分享了他的新开源项目——autosearch。

不到三天，github上已经有19.1k的star。X上的讨论度突破八百万。

这周，卡帕西又更新了项目进展。在autosearch运行两天之后，

AI自主尝试了276次实验
找到了29个有效改进

这些改进叠加之后，对于同一个模型，AI的训练速度提高了大约11%。

AI真的找到了自我改进的方法。

对于这个重大发现，马斯克直接在帖子下面感叹——我们身处奇点。

autosearch是啥？

先给还不熟悉的小伙伴们介绍一下这个新项目——autosearch。

卡帕西把nanochat的LLM训练核心简化成了一个单GPU版本——

630行代码，一张显卡就能跑。

人只需要改提示词，然后用AI agent对模型进行自动优化，理念和操作流程都非常简单：

启动AI，它会自动修改训练代码，运行多次模型训练，并且检查训练结果是否比之前更好。

整个环节有两个亮点：

单次训练的时间控制在5分钟左右
这个过程会无限期循环

如果效果变好了，它就保留这次修改；反之就放弃，然后继续进行下一轮实验。过程中会留下详细的实验日志，同时也有可能得到一个性能更好的模型。

这其实就是创造了一个小型的真实LLM训练环境，然后让AI自己做实验。

最终目标，是让AI代理能够在无需人类干预的情况下，以最快的速度，自主推进迭代和研究。

两天内，AI的改进效率惊人

这项目刚打包出来的时候，卡帕西就在nanochat上跑了初步的小规模测试，总共做了83次完整实验，找到了15个改进点。

当时附的配图是这样的。

图中每个点都代表了一次完整5分钟的LLM训练运行。绿点表示尝试后保留的改进点，剩下的白点都是丢弃的。

这时候模型刚开始跑，改进也比较零散，还出现了一点小乌龙。

比如有网友发现，AI在改进的时候偷偷砍种子作弊。

之后卡帕西也没再干预，让agent在depth=12的模型上自主运行了2天，

这是今天的实验进度，效果非常可观。

两天里，它一共运行了276次实验，总共尝试了大约700次代码修改，最终保留了29个改进点。

这组实验是通过让模型达到与GPT-2类似的训练损失水平所需要的时间，来衡量训练效果的。

这29个改进点，让整个过程的耗时从2.02小时缩短到了1.8小时，相当于提升了大约11%的训练效能。

在卡帕西当“甩手掌柜”的48小时，AI做出的自动修正主要有以下几点：

为无参数QKnorm添加缩放乘数，使得模型的注意力更集中
为Value Embeddings添加正则化
调整带状注意力的保守设置
优化AdamW的beta参数
调整权重衰减调度
优化网络初始化

而这些细节，正是他手动调节时被忽略掉的。

他直言：

我有点惊讶，我第一次尝试这种简单方法就能效果这么好。

要知道在此之前，卡帕西已经优化nanochat很久了。

但在这个基础上，AI又找到了29个他没发现的问题。

这足以证明在某些细节上，AI的表现已经开始超过顶级人类研究员的注意力范围了。

卡帕西手动验证了这些改进是可以叠加的，还能直接搬到更大的depth=24模型上用。

到了这一步，autoresearch就不仅仅只是一个有趣的demo了。

从它的运行，我们可以窥见未来AI自主LLM研究的缩影。

下一步计划：代理工作并行

卡帕西说，这是他第一次完整看到AI代理完全自主地完成神经网络训练的迭代优化流程。

整个“想主意→写代码→跑实验→看结果→规划下一步”的全流程，被Agent自己端到端干了。

20年以来，这都是卡帕西手动干的活。但是这次，AI做的甚至还超出了他手动调优的水平。

卡帕西的下一步计划，是启动“第二轮”实验。同时，他也正在研究多Agent协作、并行工作的可能。

通过不断试验，AI组成的代理群可以从小模型逐渐调适到大模型。

他进一步预测：以后，很有可能所有LLM前沿实验室都会采用AI自动调参。

直到有一天，任何能快速测出来的指标都能让AI自动研究。

到那时候，AI代理会从辅助工具，成为真正的自主研究者。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

马斯克直言“奇点降临”：卡帕西让AI自己研究LLM，两天后训练时间暴砍11%

autosearch是啥？

两天内，AI的改进效率惊人

下一步计划：代理工作并行

大 家 都 在 搜

大家都在搜