Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径-虎嗅网

本文来自微信公众号： AI前线，作者：四月

模型能力还需往上走，但训练成本却不能再无止境堆砌了——这可能是当前AI行业最强烈的共识。

从开发者到模型公司，大家关心的焦点已经不只是“谁家的模型更强”，而是一个更务实的问题：“同样多的GPU、同样的训练时间，能不能跑出更多有效实验，吃进更多有效数据，拿到更好的loss和下游指标？”

凭借Hermes Agent（140K Star）火速出圈的Nous Research团队，刚刚提出了一种Token叠加训练方法：Token Superposition Training（TST），有望把大模型的预训练成本压低一个量级。

目前，该贴的浏览量已突破41万。Hugging Face:http://huggingface.co/papers/2605.06546

在论文《Efficient Pre-Training with Token Superposition》中，最值得关注的是一组百亿参数MoE实验（Qwen3-like 10B-A1B MoE），效果非常直观：

baseline训练1.05T tokens消耗12311 B200-hours；
而TST训练2T tokens，仅消耗4768 B200-hours，约为baseline的38.7%；
与此同时，final loss从2.252降至2.236，HellaSwag、ARC-E、ARC-C、MMLU等0-shot评测同步提升。

换言之，TST只用了约四成GPU时间，就跑出了更低的loss和更好的下游指标。相当于在相同最终损失下将预训练时间压缩到原来的40%，提速约2.5倍。

如果说，超越龙虾（OpenClaw）、登顶全球OpenRouter的Hermes Agent，证明了Nous Research团队既会训模型，也能用Agent把能力调教到极致；那么最新提出的TST，则是把视线从“模型怎么用”，进一步拉回了能力的源头，直击预训练本身。

之所以将Nous Research与DeepSeek对标，不只是因为这支美国团队同样长期坚守开源阵营，更因二者的降本路线截然不同。

DS代表的是系统级重构，无论是MoE、MLA，还是稀疏化与并行优化，皆靠系统级工程压榨算力。效率提升从来不是免费的，工程总要在别处为复杂度买单。

而NR则是重写预训练早期的学习路径。它不碰架构，从模型学习token的方式本身下手，切口更轻巧，更容易落地。

TST：让模型先“粗读”，再“精读”

要理解TST，让我们先回到预训练最基础的动作：next-token prediction（下一个词元的预测）。

标准训练里，模型看到前面的token，预测下一个token。这个机制很简单，也很强。过去几年，几乎所有主流LLM都是在这个范式上堆出来的。

但TST提出了一个很朴素的问题：模型在预训练一开始，真的有必要逐token精读吗？

NR的答案是：不一定。他们把预训练拆成两个阶段。

图注：TST与标准next-token prediction、MTP、SuperBPE的对比。TST在训练早期同时改变输入粒度和输出监督目标，但不改变最终模型架构

第一阶段叫superposition phase（“词元叠加阶段”）。在训练前期，模型不再一个token一个token地读文本，而是把连续多个token打成一个bag。比如bag size为8，就把连续8个token看作一组。

输入侧，模型会把这一组token的embedding（“向量表示”）求平均，变成一个压缩后的superposed token（“叠加词元”）。输出侧，模型也不再预测下一个单独token，而是预测下一组token里会出现哪些token。

第二阶段叫recovery phase（“恢复阶段”）。训练跑到一定比例后，TST被移除，模型重新回到标准next-token prediction。也就是说，后半程还是按照普通LLM的方式训练，把前期“粗粒度学习”得到的表示，拉回到可生成、可部署的自回归模型形态。

论文把TST称为一个drop-in pretraining method（“即插即用式预训练方法”），重点就在这里：它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构，真正改变的是训练早期的输入粒度和监督目标。

这也是它和很多训练提效方案不一样的地方：TST只改变训练过程，不改变推理模型。

目前很多方法一旦触及训练端优化，就会牵动推理。比如换tokenizer，生态兼容要重来；改模型结构，部署链路要适配；改注意力或推理机制，线上服务也要跟着调整。

但TST是把复杂度留在训练阶段，最终交付的仍然是一个普通LLM。

当然，只用TST训练是不够的。论文也明确指出，如果模型全程只用TST，它会输出多个未来token的混合概率，生成结果会变得混乱。因此，TST必须在后期切回标准自回归训练。

这也解释了为什么TST更适合被理解为一种“阶段化训练策略”，而不是next-token prediction的替代品。

更直白地说，TST做的事情有点像让模型在预训练早期先“粗读”：先学习局部语义、词汇共现和粗粒度分布；等基础表示建立起来之后，再回到逐token的标准自回归训练，把生成能力和token级精度补回来。

也就是，训练时压缩token，推理时还是普通LLM。

为什么能省GPU？

每一步都吃进更多文本

TST的提速不是玄学。它的核心是一种资源取舍，用更粗的token表示，换更高的数据吞吐。

这里的数据吞吐，对应论文里的data throughput per FLOPs，可以理解为“单位计算量能处理多少原始文本”。换句话说，不是GPU忽然变快了，而是同样算一次，模型能看见更多文本。

标准训练中，模型每个位置处理一个token，序列长度为L，Transformer就要处理L个表示。

但在TST的superposition phase，连续s个token被合成一个superposed token。模型内部处理的序列长度变短了，但每个位置对应的原始文本却变多了。

因为模型是在更粗粒度的表示上计算，所以在相同FLOPs（浮点计算量），它可以处理s倍的数据token。

图注：在3B模型实验中，TST在equal-loss设置下用更少训练步数达到baseline loss，说明其主要收益来自训练早期更高的数据吞吐

传统预训练像逐字精读；而TST的早期训练则像是先快速扫一遍段落，抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后，再切回逐字精读。

这种“粗读”并非没有代价——它会丢失bag内的词序信息，所以不能全程使用。但在模型刚接触语言统计结构时，这种低分辨率输入反而够用且高效。

论文将此定义为一种coarse-to-fine（由粗到细）的策略：先让模型在简单、高吞吐的分布中学习粗粒度统计结构，再恢复全分辨率语言建模。

这与当前主流的效率路线截然不同：MoE是让每个token少激活参数；稀疏注意力是让每个token少看位置；MTP（Multi-Token Prediction，多token预测）是让每个位置多预测几个未来token；而TST，是让模型在训练早期换一种token粒度学习。

它不是让模型变小，也不是直接让推理变快，而是让预训练早期的每一步都更“值钱”。

这对开发者至关重要。预训练不是一锤子买卖，而是不断试错的过程。早期训练越快进入有效区间，数据配方、超参设置这些实验就能越早得到验证。

说白了，TST省下的不只是一次训练的GPU小时，更是整个实验周期的试错成本。

最大收益来自百亿参数模型

论文没有只做小模型实验，而是在270M、600M、3B稠密模型，以及10B-A1B MoE上进行了验证。这里的10B-A1B MoE，即总参数约100亿、每token激活约10亿参数的MoE模型。正如开篇提及的，这是收益最大的受试模型。

图注：TST在不同规模模型上的核心实验结果

图注：在10B-A1B MoE实验中，TST将B200 GPU训练时间消耗降到baseline的四成左右，并取得更低loss和更好的0-shot指标

也就是说，TST消耗了更多数据token，但用更少GPU时间达到了更好的结果。论文指出，在相同loss口径下，TST对应约2.5倍提速。

这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练，而是成功之前的所有试错。一次实验少用一半以上GPU时间，意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。

论文还做了多组小规模超参数扫描实验，也就是sweep，观察不同bag size和superposition step ratio的影响。最终作者认为，在合理范围内，TST对超参选择相对稳健：bag size在4到8，superposition训练步数比例在0.2到0.4时，通常表现较好。

图注：不同bag size和训练比例下，TST在loss与下游评测上都呈现相对稳定收益

另外，TST并非单一机制在起作用。

论文做了输入侧、输出侧和完整TST的消融实验：输入侧和输出侧单独使用时都能优于baseline，但完整TST效果最佳。作者据此指出，TST是两个机制的叠加：输入侧改变了输入粒度和单位信息的FLOPs成本；输出侧改变了预测目标与梯度信号。

这套机制的启发意义在于，输入侧作为在训练早期，给到模型一个低分辨率视野，让它以更低成本接触更多文本；输出侧则像是把监督信号从“下一个token是什么”改成“接下来这一小段大概会出现哪些token”。前者提高吞吐，后者提高监督密度。

这也是为什么TST和MTP看起来有点像，但本质不完全一样。

MTP更像是在同一个位置额外预测多个未来token；TST则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目，一个是改变学习分辨率。

训练降本开始转向学习路径优化

TST最大的看头，不是它设计了多复杂的新架构，而是它点醒了一件事：训练降本，别总盯着模型结构开刀。

过去一提降本，大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活，家里没有余粮的团队根本接不住。但这次，TST给了一个轻得多的切口：只调整预训练早期的学习路径。

这意味着什么？

同样多的GPU预算能多试几轮配方，1B到10B级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说，这比硬刚前沿最新模型务实得多。

当然，TST也不是免费午餐。

它本质上是“拿数据吞吐换GPU时间”，如果你是算力受限的团队，这招极香；但如果你连高质量数据都喂不饱，那TST不仅帮不上忙，甚至可能放大数据短板。

但这不影响它的方向价值。

TST把一个被默认太久的问题重新拎了出来：模型学习语言的顺序，本身也可能是一种效率杠杆。

当模型越来越贵，真正有价值的创新不只是把模型做大，而是让模型更会学习。更准确地说，是让每一步训练都更值钱。

参考链接：

Paper:http://arxiv.org/abs/2605.06546

HF:http://huggingface.co/papers/2605.06546

Blog:http://nousresearch.com/token-superposition

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径

TST：让模型先“粗读”，再“精读”

为什么能省GPU？

最大收益来自百亿参数模型

训练降本开始转向学习路径优化

大 家 都 在 搜

大家都在搜