扫码打开虎嗅APP
本文来自微信公众号: AI前线 ,作者:四月
模型能力还需往上走,但训练成本却不能再无止境堆砌了——这可能是当前AI行业最强烈的共识。
从开发者到模型公司,大家关心的焦点已经不只是“谁家的模型更强”,而是一个更务实的问题:“同样多的GPU、同样的训练时间,能不能跑出更多有效实验,吃进更多有效数据,拿到更好的loss和下游指标?”
凭借Hermes Agent(140K Star)火速出圈的Nous Research团队,刚刚提出了一种Token叠加训练方法:Token Superposition Training(TST),有望把大模型的预训练成本压低一个量级。

目前,该贴的浏览量已突破41万。Hugging Face:http://huggingface.co/papers/2605.06546
在论文《Efficient Pre-Training with Token Superposition》中,最值得关注的是一组百亿参数MoE实验(Qwen3-like 10B-A1B MoE),效果非常直观:

baseline训练1.05T tokens消耗12311 B200-hours;
而TST训练2T tokens,仅消耗4768 B200-hours,约为baseline的38.7%;
与此同时,final loss从2.252降至2.236,HellaSwag、ARC-E、ARC-C、MMLU等0-shot评测同步提升。
换言之,TST只用了约四成GPU时间,就跑出了更低的loss和更好的下游指标。相当于在相同最终损失下将预训练时间压缩到原来的40%,提速约2.5倍。
如果说,超越龙虾(OpenClaw)、登顶全球OpenRouter的Hermes Agent,证明了Nous Research团队既会训模型,也能用Agent把能力调教到极致;那么最新提出的TST,则是把视线从“模型怎么用”,进一步拉回了能力的源头,直击预训练本身。
之所以将Nous Research与DeepSeek对标,不只是因为这支美国团队同样长期坚守开源阵营,更因二者的降本路线截然不同。
DS代表的是系统级重构,无论是MoE、MLA,还是稀疏化与并行优化,皆靠系统级工程压榨算力。效率提升从来不是免费的,工程总要在别处为复杂度买单。
而NR则是重写预训练早期的学习路径。它不碰架构,从模型学习token的方式本身下手,切口更轻巧,更容易落地。
要理解TST,让我们先回到预训练最基础的动作:next-token prediction(下一个词元的预测)。
标准训练里,模型看到前面的token,预测下一个token。这个机制很简单,也很强。过去几年,几乎所有主流LLM都是在这个范式上堆出来的。
但TST提出了一个很朴素的问题:模型在预训练一开始,真的有必要逐token精读吗?
NR的答案是:不一定。他们把预训练拆成两个阶段。

图注:TST与标准next-token prediction、MTP、SuperBPE的对比。TST在训练早期同时改变输入粒度和输出监督目标,但不改变最终模型架构
第一阶段叫superposition phase(“词元叠加阶段”)。在训练前期,模型不再一个token一个token地读文本,而是把连续多个token打成一个bag。比如bag size为8,就把连续8个token看作一组。
输入侧,模型会把这一组token的embedding(“向量表示”)求平均,变成一个压缩后的superposed token(“叠加词元”)。输出侧,模型也不再预测下一个单独token,而是预测下一组token里会出现哪些token。
第二阶段叫recovery phase(“恢复阶段”)。训练跑到一定比例后,TST被移除,模型重新回到标准next-token prediction。也就是说,后半程还是按照普通LLM的方式训练,把前期“粗粒度学习”得到的表示,拉回到可生成、可部署的自回归模型形态。
论文把TST称为一个drop-in pretraining method(“即插即用式预训练方法”),重点就在这里:它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构,真正改变的是训练早期的输入粒度和监督目标。
这也是它和很多训练提效方案不一样的地方:TST只改变训练过程,不改变推理模型。
目前很多方法一旦触及训练端优化,就会牵动推理。比如换tokenizer,生态兼容要重来;改模型结构,部署链路要适配;改注意力或推理机制,线上服务也要跟着调整。
但TST是把复杂度留在训练阶段,最终交付的仍然是一个普通LLM。
当然,只用TST训练是不够的。论文也明确指出,如果模型全程只用TST,它会输出多个未来token的混合概率,生成结果会变得混乱。因此,TST必须在后期切回标准自回归训练。
这也解释了为什么TST更适合被理解为一种“阶段化训练策略”,而不是next-token prediction的替代品。
更直白地说,TST做的事情有点像让模型在预训练早期先“粗读”:先学习局部语义、词汇共现和粗粒度分布;等基础表示建立起来之后,再回到逐token的标准自回归训练,把生成能力和token级精度补回来。
也就是,训练时压缩token,推理时还是普通LLM。
每一步都吃进更多文本
TST的提速不是玄学。它的核心是一种资源取舍,用更粗的token表示,换更高的数据吞吐。
这里的数据吞吐,对应论文里的data throughput per FLOPs,可以理解为“单位计算量能处理多少原始文本”。换句话说,不是GPU忽然变快了,而是同样算一次,模型能看见更多文本。
标准训练中,模型每个位置处理一个token,序列长度为L,Transformer就要处理L个表示。
但在TST的superposition phase,连续s个token被合成一个superposed token。模型内部处理的序列长度变短了,但每个位置对应的原始文本却变多了。
因为模型是在更粗粒度的表示上计算,所以在相同FLOPs(浮点计算量),它可以处理s倍的数据token。

图注:在3B模型实验中,TST在equal-loss设置下用更少训练步数达到baseline loss,说明其主要收益来自训练早期更高的数据吞吐
传统预训练像逐字精读;而TST的早期训练则像是先快速扫一遍段落,抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后,再切回逐字精读。
这种“粗读”并非没有代价——它会丢失bag内的词序信息,所以不能全程使用。但在模型刚接触语言统计结构时,这种低分辨率输入反而够用且高效。
论文将此定义为一种coarse-to-fine(由粗到细)的策略:先让模型在简单、高吞吐的分布中学习粗粒度统计结构,再恢复全分辨率语言建模。
这与当前主流的效率路线截然不同:MoE是让每个token少激活参数;稀疏注意力是让每个token少看位置;MTP(Multi-Token Prediction,多token预测)是让每个位置多预测几个未来token;而TST,是让模型在训练早期换一种token粒度学习。
它不是让模型变小,也不是直接让推理变快,而是让预训练早期的每一步都更“值钱”。
这对开发者至关重要。预训练不是一锤子买卖,而是不断试错的过程。早期训练越快进入有效区间,数据配方、超参设置这些实验就能越早得到验证。
说白了,TST省下的不只是一次训练的GPU小时,更是整个实验周期的试错成本。
论文没有只做小模型实验,而是在270M、600M、3B稠密模型,以及10B-A1B MoE上进行了验证。这里的10B-A1B MoE,即总参数约100亿、每token激活约10亿参数的MoE模型。正如开篇提及的,这是收益最大的受试模型。

图注:TST在不同规模模型上的核心实验结果

图注:在10B-A1B MoE实验中,TST将B200 GPU训练时间消耗降到baseline的四成左右,并取得更低loss和更好的0-shot指标
也就是说,TST消耗了更多数据token,但用更少GPU时间达到了更好的结果。论文指出,在相同loss口径下,TST对应约2.5倍提速。
这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练,而是成功之前的所有试错。一次实验少用一半以上GPU时间,意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。
论文还做了多组小规模超参数扫描实验,也就是sweep,观察不同bag size和superposition step ratio的影响。最终作者认为,在合理范围内,TST对超参选择相对稳健:bag size在4到8,superposition训练步数比例在0.2到0.4时,通常表现较好。

图注:不同bag size和训练比例下,TST在loss与下游评测上都呈现相对稳定收益
另外,TST并非单一机制在起作用。
论文做了输入侧、输出侧和完整TST的消融实验:输入侧和输出侧单独使用时都能优于baseline,但完整TST效果最佳。作者据此指出,TST是两个机制的叠加:输入侧改变了输入粒度和单位信息的FLOPs成本;输出侧改变了预测目标与梯度信号。

这套机制的启发意义在于,输入侧作为在训练早期,给到模型一个低分辨率视野,让它以更低成本接触更多文本;输出侧则像是把监督信号从“下一个token是什么”改成“接下来这一小段大概会出现哪些token”。前者提高吞吐,后者提高监督密度。
这也是为什么TST和MTP看起来有点像,但本质不完全一样。
MTP更像是在同一个位置额外预测多个未来token;TST则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目,一个是改变学习分辨率。
TST最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:训练降本,别总盯着模型结构开刀。
过去一提降本,大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活,家里没有余粮的团队根本接不住。但这次,TST给了一个轻得多的切口:只调整预训练早期的学习路径。
这意味着什么?
同样多的GPU预算能多试几轮配方,1B到10B级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说,这比硬刚前沿最新模型务实得多。
当然,TST也不是免费午餐。
它本质上是“拿数据吞吐换GPU时间”,如果你是算力受限的团队,这招极香;但如果你连高质量数据都喂不饱,那TST不仅帮不上忙,甚至可能放大数据短板。
但这不影响它的方向价值。
TST把一个被默认太久的问题重新拎了出来:模型学习语言的顺序,本身也可能是一种效率杠杆。
当模型越来越贵,真正有价值的创新不只是把模型做大,而是让模型更会学习。更准确地说,是让每一步训练都更值钱。
参考链接:
Paper:http://arxiv.org/abs/2605.06546
HF:http://huggingface.co/papers/2605.06546
Blog:http://nousresearch.com/token-superposition