HBF竞争开启，“HBM之父”怎么看-虎嗅网

本文来自微信公众号：未尽研究，作者：未尽研究，原文标题：《HBF竞争开启，“HBM之父”怎么看 | 笔记》

HBF（高带宽闪存）这一内存新范式的“急先锋”闪迪（Sandisk），正在加速中试产线建设，并试图将量产时间表整体前移。自年初以来，它的股价已经暴涨300%。

这家美国公司选择了围绕日本与韩国生态，构建其材料、零部件和设备（MPE）供应链。如果一切顺利，市场将在今年下半年见到HBF原型，中试产线也将在年底左右开始运行。HBF的正式商业量产，目标指向了2027年。

作为一家NAND厂商，闪迪事实上错过了这一轮AI驱动的HBM的机遇。HBM（高带宽内存）通过堆叠DRAM，将带宽推至极致，成为AI算力的“标配”；但它的代价同样清晰，容量受限、成本高企。而基于NAND堆叠构建的HBF，正是为了突破这一瓶颈而诞生。

但竞争才刚刚开始。韩国巨头SK海力士与三星正在跟进。尽管今年2月，闪迪与SK海力士一起推动了HBF规格标准化联盟，但这场合作更像是建立行业的“最低共识”，而非真正的协同，是“务虚”的。旨在成为“全栈AI内存创造者”的SK海力士，也在独立开发自己的HBF，与存内处理（PIM）、计算快速链接（CXL）共同构建了下一代产品组合。

让我们听听有着“HBM之父”之称的金正浩教授，怎么分析与预测这项技术的未来。正是这位来自KAIST（韩国科学技术院）的金教授，让HBM成为了韩国AI半导体的代名词。自2010年代初期起，他与他的指导的TeraLab（太字节互连与封装实验室），便参与三星电子、SK海力士的HBM商用化研究，架起了学界与产业的桥梁。

HBM之父：HBM的终点是HBF

2025/09/15完整阅读>

也许，很快，他又将被视为“HBF之父”。去年6月，他公布了一份至2038年的HBM路线图，其中就已经涉及对HBF的初步设想。在今年2月，他与他的学生在一场长达6个小时的学术讨论会直播中，进一步论述了HBF技术、工作负载以及未来发展路线图（HBF Technolgy,Workload Analysis and Roadmap）。

Transformer本质上是一种高度“内存依赖”的计算结构。一方面，每生成一个token，GPU都需要从内存中读取历史KV缓存和模型权重，并写回新的状态；另一方面，KV缓存会随着上下文长度线性增长，并在多用户场景下成倍叠加。因此，每秒token数（TPS）本质上取决于内存带宽，上下文长度与并发用户数最终受限于内存容量。

当前AI已经开启了一个内存饥渴的世纪。当下，几乎所有关键技术趋势，都指向了更高的内存需求。这包括多模态生成与推理，个人AI（Personal AI）与个性化训练（Personnel training），实时训练（Real time training）与持续训练（Continuous training），智能体式AI以及智能体间交互，等等。它们本质上都在放大系统需要同时处理、存储与调度的数据规模。

多模态AI之所以迅速逼近内存瓶颈，并不仅仅因为数据规模因模态改变而自身在变大，更因为“对齐”（Alignment）与“融合”（Fusion）打破了传统流水线的平衡：对齐要求不同模态的数据进入同一时间与语义坐标系，在时间维度上引入缓存与等待，使系统必须保留更长上下文；融合则在计算维度引入并发访问，使不同模态的高维特征必须同时加载与计算。

如果说过去的AI系统主要是对存量数据进行推理，那么，智能体式AI的出现，则进一步改变了问题的性质。

AI不再只是“消耗数据”，而开始持续“生产数据”：对话、决策、视频、环境模拟。同样的，实时训练与持续训练，意味着系统不仅要读，还要不断写入新的状态与记忆。这可能是KV缓存，也可能是滞后数据（Lagging Data，即当前推理不立即使用，但未来可能需要调用的数据）。内存因此从“存储器”变成“运行时环境”，容量与带宽的重要性被同时放大。

继续堆HBM，是一条看起来最自然的路，但也是一条越来越走不动的路。每往上增加堆叠一层DRAM，都会同时放大散热、封装与功耗问题。这是一条“边际收益递减”的路径。相比之下，堆叠NAND是更有扩展空间的选择。

HBF的本质就是NAND的“垂直堆叠能力”。在相当长一段时间内，它甚至不需要全新的技术体系，而是可以复用已有的3D NAND与封装工艺。

在早期阶段，在单颗已经具备百层结构的NAND裸片（die）之上，继续进行芯片级堆叠，将多个die叠加至十余层，从而把存储密度从“百层”放大到“数千层”；长远来看，控制与外围电路被整体迁移至基础裸片（base die），上层只保留纯粹的存储单元，使堆叠从“堆芯片”演进为“堆单元”，层数由此迈向“万级”。在这个过程中，通过引入TSV等在HBM领域已经相当成熟的垂直互连技术，补齐带宽，HBF才真正从“超大容量存储”，变成既能“装得下”，也能“读得出”的AI内存。

基于这些技术储备，HBF在2027年左右发布，在2028年实现商业化的可能性非常大。

在AI基础设施中引入HBF，可以演化出多种架构路径，它们也可以同时存在。这些路径既取决于具体应用场景与成本约束，也取决于封装、互连与存储技术的演进节奏。

第一种架构（下图的HBF1 Architecture，以下略称为HBF1等），本质上是将Transformer的编码与解码在硬件上解耦。前者由一颗轻量GPU负责，依赖GDDR即可完成计算，后者则由另一颗GPU主导，并配备大容量HBF。HBM被完全抛弃了，以较低成本实现对长上下文、多模态输出场景的支持。第二种架构（HBF2）则是在同一GPU两侧同时部署HBM与HBF，其中，HBM主要服务于模型权重与高带宽计算，而HBF则承载规模迅速膨胀的KV缓存与长上下文状态。这能兼顾模型规模与成本。

最关键、最有产业意义的一种架构（HBF3），是在GPU两侧同时堆叠HBM与HBF。在这个阶段，整个AI系统开始真正围绕内存重构。如果HBF仍然不够用，就可以再增加HBF插座（HBF socket），真正的AI智能体时代将在这个时刻（HBF4）开启。这也是为什么HBF将比HBM具有更大的可扩展性，需求会大幅增加的架构基础。金教授预测，到2038年，市场对HBF的需求，最终将超过HBM。

此外，市场上还会存在，在HBF外围再接入SSD硬盘，或英伟达ICMS（推理上下文内存存储平台）的其他不同架构。在问答环节，金教授将英伟达今年CES上推出的这个全新的AI原生存储基础设施，形容为“没有牙齿只能嚼口香糖”的无奈之举，最终接受HBF“只是时间问题”。

为什么HBM与HBF融合的架构更具产业意义？答案不只是“更大的内存”，而在于它正在把内存从计算的附属，变为计算与网络的中心节点。正如HBM已经走向定制化，HBF也将沿着同一路径演进：其基础裸片将集成D2D通信、电源与内存控制，甚至部分逻辑更新功能。一部分原本属于GPU的职责，将开始向内存侧迁移。

随着内存逐步演化为具备控制、互连乃至计算能力的“类SoC结构”，其制造难度正迅速逼近逻辑芯片。瓶颈不再只是存储单元，而是转向基础裸片与先进封装工艺本身。同时，随着HBF在物理空间上的持续扩展，传统硅中介层在尺寸、成本与良率上的约束日益显现，迫使行业开始探索包括玻璃中介层在内的新路径，尽管其大规模商业化仍充满挑战。

更深层的约束来自物理本身。每增加一层存储，就必须引入更多供电与散热通道，而这些通道同样占据面积；TSV也不再只是“连接”，而成为复杂的电磁与热系统，抖动与串扰开始反过来吞噬带宽。

与此同时，HBF从“冷存储”走向“可参与计算的数据层”，其最大的技术挑战之一，是改写NAND的写入寿命曲线。NAND的“写入次数”与“数据保留时间”此消彼长。在传统NAND的设计中，为了长期保存数据，牺牲写入耐久。而HBF必须结合推理与训练的实际需求，主动适度缩短数据保留时间，以换取写入耐久与访问频率的数量级的提升。只有从当前约10万次，提升至100万甚至1000万次，才具备现实意义。

这也意味着，从材料到架构，闪存本身都可能被重新定义。无论是闪迪率先突围，还是SK海力士与三星延续统治，抑或中国厂商实现弯道超车。真正的技术分野，也将从这些真正的挑战开始。

直播视频与演示报告：

https://tera.kaist.ac.kr/home

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

HBF竞争开启，“HBM之父”怎么看

HBM之父：HBM的终点是HBF

大 家 都 在 搜

大家都在搜