LLM推理的硬件危机，比你想的严重得多-虎嗅网

本文来自微信公众号：歪睿老哥，作者：歪睿老哥

事情是这样的。

Google DeepMind的两位工程师最近发了一篇论文，读完了我盯着屏幕发了会儿呆。

Xiaoyu Ma和David Patterson，一个在Google DeepMind做系统架构，一个在UC Berkeley教计算机体系结构，顺便也兼任Google的杰出工程师，并且David Patterson还在2017年获得计算机领域的最高奖—图灵奖。

这俩人凑一块儿写的东西，不太可能忽悠人。

论文讲的是大模型推理的硬件。不是训练，是推理。

你可能分不清这两者的区别。训练就是喂模型数据让它学习，像学生上课。推理就是让学好的模型回答问题，像考试答题。

现在所有人都在讨论大模型有多厉害，但很少有人认真想过一个问题。

推理太贵了。

贵到OpenAI一年亏五亿美元，贵到微软在AI上烧掉的钱让人倒吸凉气。这不是模型不够好的问题，是现有硬件架构根本不适合推理。

论文里有一句特别直白的话。整个计算机体系结构的学术界，2025年的一篇顶级会议论文里，产业界的贡献不到4%。1976年这个比例是40%。

学术界和工业界几乎脱节了。

而他们觉得，恰恰是推理这个领域，最需要产业界的真金白银加学术界的严谨思考。

先说推理为什么这么费劲。

大模型推理有两个阶段，预填充和解码。

预填充就是模型一次性读完你的问题，这个阶段是并行的，像做阅读理解。解码才是真正开始输出答案，一个字一个字往外蹦，像写作文。

预填充是计算密集型的，解码是内存密集型的。

关键来了。现在数据中心用的GPU和TPU，都是为训练设计的，或者说，是为预填充设计的。它们有强大的计算能力，有大量的高带宽内存。

但对解码来说，这些设计几乎全用错了地方。

解码阶段，模型每次只能输出一个token，要反复去内存里取权重和上下文。计算量其实很小，但内存访问开销巨大。这就好比你让一个跑步冠军去翻箱倒柜找东西，他的肌肉力量完全用不上。

更麻烦的是，近年的模型趋势还在不断加剧这个矛盾。

MoE架构让模型参数膨胀到成百上千倍。DeepSeek v3有256个专家，每次推理只激活一小部分，但权重总量大得吓人。长上下文让KV Cache越来越大，一个200K上下文窗口需要的内存量是普通窗口的几十倍。推理模型需要先生成大量"思考"token才能给出最终答案，这直接把输出长度拉长了数倍。

模型越来越大，上下文越来越长，推理越来越慢，而硬件架构十年没变过。

这里有一个特别有意思的数据。

从2012年到2022年，NVIDIA GPU的浮点运算能力涨了80倍。但内存带宽只涨了17倍。

算力在狂奔，内存在散步。

这两者的差距还会继续扩大，因为HBM越来越贵。

HBM是现在GPU用的那种高带宽内存，像一摞饼干一样叠在GPU旁边。

2023到2025年，每GB容量的成本和每GBps带宽的成本都涨了1.35倍。

而与此同时，普通DDR内存的成本在持续下降。同样的时间窗口里，容量成本降到了原来的0.54倍，带宽成本降到了0.45倍。

这个趋势很说明问题。HBM不是产能问题，是物理堆叠难度在上升。

每个HBM封装里的DRAM芯片数量越来越多，单颗芯片的密度越来越高，良率和封装难度指数级增长。

而传统的硅基内存技术还在按摩尔定律稳步前进。

论文里还提到一个更底层的问题。DRAM单芯片的密度增长正在减速。2014年发布的8-gigabit DRAM芯片，到2026年才实现四倍增长，这个速度比过去每3到6年翻一番慢了太多。

用SRAM全部替代DRAM的方案也走不通。

Cerebras和Groq都试过用超大芯片加满SRAM来绕过DRAM和HBM，结果呢？大模型上线之后，片上SRAM容量根本不够用，两家都不得不后来retrofit外挂DRAM。

硬件这条路，不是换条路就能绕过去的。

所以接下来这篇论文真正有价值的部分来了。

两位作者提出了四个有前景的研究方向，每个都直击推理硬件的核心痛点。

第一个是高带宽闪存。HBF，High Bandwidth Flash。

这个概念是SanDisk先提出来的，后来SK海力士也加入。做法很简单粗暴，把闪存芯片像HBM一样堆叠起来，获得接近HBM的带宽，同时容量是HBM的十倍以上。

一个HBF封装有512GB容量，读取带宽1638 GBps。对比HBM4是48GB容量但同样1638 GBps带宽。容量差距十倍以上，读取带宽打平。

功耗方面，HBF一个封装不到80瓦，HBM4是40瓦，单看HBF功耗高一些，但考虑到容量差距，每GB的功耗HBF反而更低。

论文作者算了一笔账。如果用HBF，推理系统的整体尺寸可以大幅缩小。因为模型权重全部加载进一个更紧凑的系统里，芯片数量减少，通信开销降低，可靠性提高，数据中心的空间和电力预算也能松一口气。

HBF当然不是银弹。

闪存写入寿命有限，每次读写粒度是页面级别而不是字节级别，延迟比DRAM高几个数量级。所以它只能存那些不常变化的东西，比如模型权重、知识库语料、代码仓库。对于每次推理都要更新的KV Cache，还是得靠DRAM。

但这恰恰是HBF的聪明之处。它不试图替代一切，而是找到最适合它的生态位。

一个网页搜索AI系统，背后可能存储着数十亿份网页文档。这些文档不会每天更新。

一个代码辅助AI，背后是数十亿行代码。也不会每天全量刷新。

一个科研辅导AI，背后是数百万篇论文。这些都属于"慢变上下文"。

HBF可以把这些一次性加载、反复读取、几乎不修改的数据，用极低的空间成本塞进去。

第二个方向是近存计算。PNM，Processing Near Memory。

这个词听起来很高大上，其实说人话就是，在内存旁边放一个小处理器，让数据不用跑到远的地方去计算。

这里有个概念要分清。PIM是Processing In Memory，处理器和内存做在同一颗芯片里。

PNM是Processing Near Memory，处理器和内存做在不同的芯片里，但靠得很近。

论文的作者特意强调这个区分，因为两者区别很大。PIM把计算逻辑塞进DRAM工艺节点，功耗和面积效率很差。PNM用的是独立的芯片，可以用更成熟的逻辑工艺，散热也好控制。

PNM不需要像PIM那样把LLM的结构碎片化成32到64MB的小块。因为内存和逻辑不在同一个die上，可以按更大的粒度做数据划分。对LLM推理来说，这太重要了。

目前已经有公司开始做这个方向。AMD提出了DRAM和逻辑芯片3D堆叠的方案，三星做了AXDIMM把计算逻辑集成在DIMM缓冲芯片里，Marvell的Structera用CXL接口实现了DDR和处理的连接。

第三个方向是3D内存逻辑堆叠。

这个方向更激进。它不是把处理器放在内存旁边，而是直接把处理器芯片叠在内存芯片上面，用硅通孔TSV做垂直连接，带宽和密度都远超2D平面布局。

这个方向有两个实现路径。一个是复用HBM的设计，把计算逻辑塞进HBM的基座芯片里。好处是接口不用改，带宽和HBM一样，但数据路径缩短，功耗降低2到3倍。另一个是定制化的3D方案，用更宽的接口和更先进的封装技术，带宽和能效可以超越HBM。

当然挑战也很大。3D堆叠的散热是硬骨头，计算芯片放在内存上面，表面散热面积反而更小。论文给出的解法是降低时钟频率和电压，反正LLM解码阶段的计算强度本来就不高，用低频换散热是可接受的妥协。

第四个方向是低延迟互连。

前面的三个方向都在解决单个芯片或单个节点的问题。这个方向解决的是多芯片之间的通信问题。

训练阶段的超级计算机追求的是带宽，因为要传输海量的梯度数据。但推理阶段不一样。每次推理请求的数据量很小，但频率极高，这时候延迟比带宽重要得多。

论文提到几个有意思的想法。高连通性的拓扑结构，比如树状、dragonfly和高维环形，可以减少通信跳数，从而降低延迟。虽然带宽可能因此降低，但推理对延迟的敏感度远高于带宽。

网络内计算也是个思路。LLM用的集合通信操作，比如广播、all-reduce、MoE的调度分发，这些操作在网络层做聚合，可以大幅降低延迟和带宽开销。NVIDIA的NVLink和Infiniband交换机已经支持in-switch reduction了。

甚至有一个大胆的想法。如果LLM推理不需要完美通信呢？当消息超时的时候，用近似结果或之前的缓存结果来替代，而不是干等慢速的消息到达。论文说这样可以在不牺牲太多质量的前提下，大幅降低延迟。

这个想法其实挺反直觉的。我们习惯了通信必须可靠、必须完整。但大模型推理的特性是，输出本身就有不确定性。如果消息延迟导致的精度损失，比模型自身的不确定性还要小，那为什么不呢？

读到这里你可能发现了一个规律。

这四个方向都不是要制造一个更强大的计算芯片。

它们都指向同一个思路。

别再堆算力了，去解决内存和通信。

过去十年，AI硬件的演进方向很单一。更大的芯片，更多的核心，更高的FLOPS。训练阶段确实需要这个，因为矩阵乘法是计算密集型。

但推理阶段，尤其是解码阶段，核心瓶颈从来不是算力，是内存带宽、内存容量和通信延迟。

继续用训练芯片做推理，就像用F1赛车去送外卖。

引擎确实强，但载货空间不够，油耗太高，在城市里也跑不快。

论文的作者最后提了一个建议。整个计算机体系结构的研究社区，需要一个基于roofline模型的性能模拟器，专门用于评估推理场景下的内存和通信优化。

这不是一个全新的想法，只是过去这么多年大家太关注算力了。

缓存设计、分支预测这些传统的体系结构问题，都是在有真实模拟器的情况下做出突破的。推理硬件领域缺的不是idea，缺的是系统性的评估工具。

这篇论文本身是一个重新连接的努力。用产业界的真实数据、真实痛点，去激发学术界的研究灵感。用学术界的严谨方法，去回应用户面临的工程难题。

可能这正是AI硬件未来需要的东西。不是某一个人或者某一个公司单打独斗，而是把产业和学术重新捏在一起，用更务实的方法，解决真正的问题。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

LLM推理的硬件危机，比你想的严重得多

大 家 都 在 搜

大家都在搜