扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-03-12 17:55

马斯克直言“奇点降临”:卡帕西让AI自己研究LLM,两天后训练时间暴砍11%

本文来自微信公众号: 夕小瑶科技说 ,作者:未知艺术家


3月8号,卡帕西分享了他的新开源项目——autosearch。


不到三天,github上已经有19.1k的star。X上的讨论度突破八百万。


这周,卡帕西又更新了项目进展。在autosearch运行两天之后,


  • AI自主尝试了276次实验


  • 找到了29个有效改进


这些改进叠加之后,对于同一个模型,AI的训练速度提高了大约11%。


AI真的找到了自我改进的方法。


对于这个重大发现,马斯克直接在帖子下面感叹——我们身处奇点。



autosearch是啥?


先给还不熟悉的小伙伴们介绍一下这个新项目——autosearch。



卡帕西把nanochat的LLM训练核心简化成了一个单GPU版本——


630行代码,一张显卡就能跑。


人只需要改提示词,然后用AI agent对模型进行自动优化,理念和操作流程都非常简单:


启动AI,它会自动修改训练代码,运行多次模型训练,并且检查训练结果是否比之前更好。


整个环节有两个亮点:


  • 单次训练的时间控制在5分钟左右


  • 这个过程会无限期循环


如果效果变好了,它就保留这次修改;反之就放弃,然后继续进行下一轮实验。过程中会留下详细的实验日志,同时也有可能得到一个性能更好的模型。


这其实就是创造了一个小型的真实LLM训练环境,然后让AI自己做实验。


最终目标,是让AI代理能够在无需人类干预的情况下,以最快的速度,自主推进迭代和研究。


两天内,AI的改进效率惊人


这项目刚打包出来的时候,卡帕西就在nanochat上跑了初步的小规模测试,总共做了83次完整实验,找到了15个改进点。


当时附的配图是这样的。



图中每个点都代表了一次完整5分钟的LLM训练运行。绿点表示尝试后保留的改进点,剩下的白点都是丢弃的。


这时候模型刚开始跑,改进也比较零散,还出现了一点小乌龙。


比如有网友发现,AI在改进的时候偷偷砍种子作弊。



之后卡帕西也没再干预,让agent在depth=12的模型上自主运行了2天,


这是今天的实验进度,效果非常可观。



两天里,它一共运行了276次实验,总共尝试了大约700次代码修改,最终保留了29个改进点。


这组实验是通过让模型达到与GPT-2类似的训练损失水平所需要的时间,来衡量训练效果的。


这29个改进点,让整个过程的耗时从2.02小时缩短到了1.8小时,相当于提升了大约11%的训练效能。


在卡帕西当“甩手掌柜”的48小时,AI做出的自动修正主要有以下几点:


  • 为无参数QKnorm添加缩放乘数,使得模型的注意力更集中


  • 为Value Embeddings添加正则化


  • 调整带状注意力的保守设置


  • 优化AdamW的beta参数


  • 调整权重衰减调度


  • 优化网络初始化


而这些细节,正是他手动调节时被忽略掉的。


他直言:


我有点惊讶,我第一次尝试这种简单方法就能效果这么好。


要知道在此之前,卡帕西已经优化nanochat很久了。


但在这个基础上,AI又找到了29个他没发现的问题。


这足以证明在某些细节上,AI的表现已经开始超过顶级人类研究员的注意力范围了。


卡帕西手动验证了这些改进是可以叠加的,还能直接搬到更大的depth=24模型上用。


到了这一步,autoresearch就不仅仅只是一个有趣的demo了。


从它的运行,我们可以窥见未来AI自主LLM研究的缩影。


下一步计划:代理工作并行


卡帕西说,这是他第一次完整看到AI代理完全自主地完成神经网络训练的迭代优化流程。


整个“想主意→写代码→跑实验→看结果→规划下一步”的全流程,被Agent自己端到端干了。


20年以来,这都是卡帕西手动干的活。但是这次,AI做的甚至还超出了他手动调优的水平。


卡帕西的下一步计划,是启动“第二轮”实验。同时,他也正在研究多Agent协作、并行工作的可能。


通过不断试验,AI组成的代理群可以从小模型逐渐调适到大模型。


他进一步预测:以后,很有可能所有LLM前沿实验室都会采用AI自动调参。


直到有一天,任何能快速测出来的指标都能让AI自动研究。


到那时候,AI代理会从辅助工具,成为真正的自主研究者。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜