扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
艾伦AI研究所的研究揭示,大模型训练的碳排放核算方法已落后于实践。仅关注“最终训练运行”的传统方式严重低估了真实环境成本,因为耗能巨大的早期探索和后训练环节已成为碳足迹的主体,且训练与推理的边界正日益模糊。 ## 1. 被低估的碳足迹:训练范式变革下的核算危机 - 传统碳核算只聚焦于预训练阶段最后一次成功的“最终训练运行”,但这已无法反映当前复杂的训练现实。 - 模型训练如今包含了数据合成、中间训练、强化学习等多个高能耗环节,且每个环节都有其“最终运行”和更耗能的早期开发探索。 ## 2. 数据揭示的真相:最终运行仅是冰山一角 - 艾伦研究所开源的Olmo 3模型家族,其“最终运行”的碳排放仅为647吨,而早期探索开发环节的碳排放高达2757吨,占总训练碳足迹的比例不到18%。 - 研究机构EpochAI的估算与之印证,OpenAI等顶尖公司的“最终训练运行”成本仅占其总研发支出的10%左右,最低仅为9.6%。 ## 3. 能耗结构巨变:后训练的“推理化”趋势 - 以强化学习为代表的后训练阶段能耗急剧上升,论文显示,推理模型后训练的能耗约为传统指令模型的17倍。 - 后训练中的“生成轨迹”环节本身就像一次大规模推理,这使得训练与推理的边界逐渐消失,模型训练正演变为一个持续运行的工业系统。 ## 4. 完整的碳账单:不止于电力消耗 - Olmo 3模型训练的总碳排放为4251吨,这包括了训练能耗、独立的数据合成环节(675吨)以及硬件制造的隐含排放(172吨)。 - 论文还统计了水资源消耗,该组模型完整训练过程耗水15887吨,约等于一个美国人140年的用水量,涵盖了用电侧冷却和发电侧的耗水。 ## 5. 行业呼吁与中美对比:披露标准需与时俱进 - 论文呼吁行业应全面披露后训练成本和早期探索的“乘数”,而不仅是预训练和最终运行。 - 与美国相比,中国模型厂商竞争更激烈、整体能效较低,且绿电分布不均,但碳中和目标明确,因此认真核算AI碳足迹更具现实紧迫性。
2026-05-08 22:53

AI大模型的另一个“隐空间”:碳排放是如何被压缩抽象的

本文来自微信公众号: 未尽研究 ,作者:未尽研究


给大模型训练算一笔碳账,似乎已经越来越不合时宜。毕竟,随着推理模型与智能体的爆发,市场的目光早已转向推理侧的成本,认为“训练成本”已是旧时代的故事;尽管,推理的环境外部性,更是一笔糊涂账。


而且有点诡异,美国那里还有人研究和披露,但白宫已经不在乎了;中国这里政策很重视,但研究和披露大模型碳足迹的却不多。


唱反调的是美国艾伦AI研究所(Ai2)。作为当前开源模型西方阵营的领军者之一,它用一篇数据翔实的论文,给大家上了一课:模型训练的“碳足迹”不仅没有过时,而且,过去以“预训练”为核心、以“最终训练运行”为主要统计对象的碳核算方法,已经落后于模型训练范式的变化。



确实如此。Anthropic创始人阿莫迪(Dario Amodei)近期曾粗略地推算,目前,业界训练与推理的计算支出,各占一半。这不难理解。大模型的前沿竞争如此惨烈,如果推理支出过多,会阻碍未来的研发进展;如果训练支出过多,则无法产生足够的收入。


试想,谷歌几个月来连续签下几个天然气发电订单;微软考虑放弃“按小时匹配清洁能源”的目标;Anthropic接手了xAI燃气发电的Colossus 1集群。这些巨头花了一半的碳排放在模型训练上。这意味着,一旦它们公开些许模型训练细节,人们就能顺藤摸瓜地反推出其AI业务碳足迹的大致区间。


而且,“模型训练”这个概念本身,也越来越模糊。过去,大模型厂商讨论旗下模型“碳足迹”时,往往只聚焦于预训练阶段最后一次完整成功的训练,即“最终训练运行”(final training runs)。它既不包含故障中断的部分,也不包含大量早期实验性探索。还有部分模型,最终甚至被扼杀在发布之前,从未为市场知晓。


事实上,就连这种“有限度的披露”,上一次还要追溯到两年前Meta发布Llama 3。彼时,AI仍处于“指令模型”时代,训练流程依然以预训练为主,微调为辅。直到半年后,以慢思考著称的o1才正式发布,后者确立了强化学习的扩展定律新范式,也彻底改变了训练的成本结构。


当前的SOTA模型训练,除了典型的预训练,还要花费大量的算力在精选数据上的中间训练、长上下文扩展、大规模合成数据生成、有监督微调(SFT)、偏好优化(如DPO)以及强化学习(RL)上。预训练的算力占比正在降低。而且,每一个训练环节,都涉及各自的“最终运行”(论文中的final runs)及其早期探索开发(论文中的development)。这也让大部分模型训练的环境外部性隐入迷雾。


去年年底,艾伦研究所开源了Olmo 3家族。它们包括70亿和320亿参数两款,均分为指令跟随(Instruct)和推理(Think)变体。它们基于H100集群训练,总共花费了834万GPU时;合成数据部分则额外基于AMD芯片生成。



其中,仅有18%的GPU时,用在所谓“最终运行”上。而且,这个比例无论放在过去还是未来,都呈现下降趋势。


这大致可以与EpochAI今年3月的研究相印证。该机构估算,OpenAI、Minimax与智谱的“最终训练运行”的成本,占总研发支出的比例,基本上在10%-20%之间;其中,OpenAI仅为9.6%,为三家中最低。这从侧面说明,真正昂贵的,往往不是最后一次成功训练,而是此前漫长且高失败率的原创探索。


更值得注意的是,推理模型后训练的能耗,已经远高于传统指令模型。


论文显示,推理模型后训练的能耗约为指令模型的17倍,主要消耗在强化学习中的“生成轨迹”(rollouts)环节。某种程度上,这一过程本身就相当于一次大规模推理部署。也就是说,后训练正在“推理化”,而推理本身也开始越来越像训练的一部分。


艾伦研究所用于训练Olmo 3家族的数据中心,GPU自身能耗占整个IT基础设施的比例为57.5%,数据中心的能效(PUE)为1.2,当地电网的碳排放强度(CI)为0.332。经计算,这组模型的“最终运行”环节碳排放为647吨碳当量(tCO₂eq);早期探索开发环节为2757吨。此外,独立于模型“训练”之外的数据合成环节,碳排放为675吨;构建这个集群的硬件制造环节,经摊销后的隐含排放为172吨。



换言之,仅仅训练这一组百亿参数模型,总计就排放了4251吨碳当量。


作为对比,当初Llama-3-8B与Llama-3-70B,Meta自估仅分别为390吨与1900吨。此外,谷歌去年环境报告披露,2024年基于目标(Ambition-based)的碳排放总量(范围1、2、3合计)为1150万吨。不过,考虑到如今前沿模型动辄以万亿参数规模计,且迭代频率越来越高,模型训练的环境成本,依然不可小觑。


此外,论文还单独分析了数据中心的水资源消耗问题。该论文的统计口径,包括了用电侧的冷却(在该模型训练中,采用了闭路循环冷却,实际消耗约等于0;但对于使用蒸发冷却塔的数据中心,这部分占比相当高),也包括了发电侧蒸发或消耗的水。论文称,这组模型完整的训练过程,共消耗15887吨(即15887千升)水,约等于一个美国普通个人140年的用水量。


推理模型已如此,而为智能体优化训练的模型,在后训练中还会引入更多动作、观察与推理步骤生成,其消耗甚至可能高出几个数量级。若未来进一步出现大模型递归迭代训练与自动化优化框架,这种趋势还会被进一步放大。这意味着,“训练”与“推理”的边界正在逐渐消失,模型训练未来会越来越像一个持续运行的工业系统。


因此,论文呼吁行业在披露模型训练成本时,不仅报告预训练成本,也应同步披露后训练成本;不仅报告“最终运行”,也至少额外给出早期探索开发阶段的“乘数”。


也许,中国模型厂商也不妨听听这一呼吁。


毕竟,美国从政府到科技企业,似乎都已经逐渐放弃认真履行各自的碳中和承诺。中国一方面拥有比美国更多仍在进行预训练竞争的模型厂商,另一方面,其芯片与算力基础设施的整体能效又低于美国。此外,中国尽管电力充沛,但绿电资源在时空上的分布并不均衡。


中国依然坚持走向碳中和,AI碳账单就始终存在。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: