扫码打开虎嗅APP
本文来自微信公众号: 未尽研究 ,作者:未尽研究,原文标题:《HBF竞争开启,“HBM之父”怎么看 | 笔记》
HBF(高带宽闪存)这一内存新范式的“急先锋”闪迪(Sandisk),正在加速中试产线建设,并试图将量产时间表整体前移。自年初以来,它的股价已经暴涨300%。
这家美国公司选择了围绕日本与韩国生态,构建其材料、零部件和设备(MPE)供应链。如果一切顺利,市场将在今年下半年见到HBF原型,中试产线也将在年底左右开始运行。HBF的正式商业量产,目标指向了2027年。
作为一家NAND厂商,闪迪事实上错过了这一轮AI驱动的HBM的机遇。HBM(高带宽内存)通过堆叠DRAM,将带宽推至极致,成为AI算力的“标配”;但它的代价同样清晰,容量受限、成本高企。而基于NAND堆叠构建的HBF,正是为了突破这一瓶颈而诞生。
但竞争才刚刚开始。韩国巨头SK海力士与三星正在跟进。尽管今年2月,闪迪与SK海力士一起推动了HBF规格标准化联盟,但这场合作更像是建立行业的“最低共识”,而非真正的协同,是“务虚”的。旨在成为“全栈AI内存创造者”的SK海力士,也在独立开发自己的HBF,与存内处理(PIM)、计算快速链接(CXL)共同构建了下一代产品组合。
让我们听听有着“HBM之父”之称的金正浩教授,怎么分析与预测这项技术的未来。正是这位来自KAIST(韩国科学技术院)的金教授,让HBM成为了韩国AI半导体的代名词。自2010年代初期起,他与他的指导的TeraLab(太字节互连与封装实验室),便参与三星电子、SK海力士的HBM商用化研究,架起了学界与产业的桥梁。
HBM之父:HBM的终点是HBF
2025/09/15完整阅读>
也许,很快,他又将被视为“HBF之父”。去年6月,他公布了一份至2038年的HBM路线图,其中就已经涉及对HBF的初步设想。在今年2月,他与他的学生在一场长达6个小时的学术讨论会直播中,进一步论述了HBF技术、工作负载以及未来发展路线图(HBF Technolgy,Workload Analysis and Roadmap)。
Transformer本质上是一种高度“内存依赖”的计算结构。一方面,每生成一个token,GPU都需要从内存中读取历史KV缓存和模型权重,并写回新的状态;另一方面,KV缓存会随着上下文长度线性增长,并在多用户场景下成倍叠加。因此,每秒token数(TPS)本质上取决于内存带宽,上下文长度与并发用户数最终受限于内存容量。
当前AI已经开启了一个内存饥渴的世纪。当下,几乎所有关键技术趋势,都指向了更高的内存需求。这包括多模态生成与推理,个人AI(Personal AI)与个性化训练(Personnel training),实时训练(Real time training)与持续训练(Continuous training),智能体式AI以及智能体间交互,等等。它们本质上都在放大系统需要同时处理、存储与调度的数据规模。
多模态AI之所以迅速逼近内存瓶颈,并不仅仅因为数据规模因模态改变而自身在变大,更因为“对齐”(Alignment)与“融合”(Fusion)打破了传统流水线的平衡:对齐要求不同模态的数据进入同一时间与语义坐标系,在时间维度上引入缓存与等待,使系统必须保留更长上下文;融合则在计算维度引入并发访问,使不同模态的高维特征必须同时加载与计算。
如果说过去的AI系统主要是对存量数据进行推理,那么,智能体式AI的出现,则进一步改变了问题的性质。
AI不再只是“消耗数据”,而开始持续“生产数据”:对话、决策、视频、环境模拟。同样的,实时训练与持续训练,意味着系统不仅要读,还要不断写入新的状态与记忆。这可能是KV缓存,也可能是滞后数据(Lagging Data,即当前推理不立即使用,但未来可能需要调用的数据)。内存因此从“存储器”变成“运行时环境”,容量与带宽的重要性被同时放大。
继续堆HBM,是一条看起来最自然的路,但也是一条越来越走不动的路。每往上增加堆叠一层DRAM,都会同时放大散热、封装与功耗问题。这是一条“边际收益递减”的路径。相比之下,堆叠NAND是更有扩展空间的选择。
HBF的本质就是NAND的“垂直堆叠能力”。在相当长一段时间内,它甚至不需要全新的技术体系,而是可以复用已有的3D NAND与封装工艺。
在早期阶段,在单颗已经具备百层结构的NAND裸片(die)之上,继续进行芯片级堆叠,将多个die叠加至十余层,从而把存储密度从“百层”放大到“数千层”;长远来看,控制与外围电路被整体迁移至基础裸片(base die),上层只保留纯粹的存储单元,使堆叠从“堆芯片”演进为“堆单元”,层数由此迈向“万级”。在这个过程中,通过引入TSV等在HBM领域已经相当成熟的垂直互连技术,补齐带宽,HBF才真正从“超大容量存储”,变成既能“装得下”,也能“读得出”的AI内存。

基于这些技术储备,HBF在2027年左右发布,在2028年实现商业化的可能性非常大。
在AI基础设施中引入HBF,可以演化出多种架构路径,它们也可以同时存在。这些路径既取决于具体应用场景与成本约束,也取决于封装、互连与存储技术的演进节奏。
第一种架构(下图的HBF1 Architecture,以下略称为HBF1等),本质上是将Transformer的编码与解码在硬件上解耦。前者由一颗轻量GPU负责,依赖GDDR即可完成计算,后者则由另一颗GPU主导,并配备大容量HBF。HBM被完全抛弃了,以较低成本实现对长上下文、多模态输出场景的支持。第二种架构(HBF2)则是在同一GPU两侧同时部署HBM与HBF,其中,HBM主要服务于模型权重与高带宽计算,而HBF则承载规模迅速膨胀的KV缓存与长上下文状态。这能兼顾模型规模与成本。

最关键、最有产业意义的一种架构(HBF3),是在GPU两侧同时堆叠HBM与HBF。在这个阶段,整个AI系统开始真正围绕内存重构。如果HBF仍然不够用,就可以再增加HBF插座(HBF socket),真正的AI智能体时代将在这个时刻(HBF4)开启。这也是为什么HBF将比HBM具有更大的可扩展性,需求会大幅增加的架构基础。金教授预测,到2038年,市场对HBF的需求,最终将超过HBM。

此外,市场上还会存在,在HBF外围再接入SSD硬盘,或英伟达ICMS(推理上下文内存存储平台)的其他不同架构。在问答环节,金教授将英伟达今年CES上推出的这个全新的AI原生存储基础设施,形容为“没有牙齿只能嚼口香糖”的无奈之举,最终接受HBF“只是时间问题”。
为什么HBM与HBF融合的架构更具产业意义?答案不只是“更大的内存”,而在于它正在把内存从计算的附属,变为计算与网络的中心节点。正如HBM已经走向定制化,HBF也将沿着同一路径演进:其基础裸片将集成D2D通信、电源与内存控制,甚至部分逻辑更新功能。一部分原本属于GPU的职责,将开始向内存侧迁移。

随着内存逐步演化为具备控制、互连乃至计算能力的“类SoC结构”,其制造难度正迅速逼近逻辑芯片。瓶颈不再只是存储单元,而是转向基础裸片与先进封装工艺本身。同时,随着HBF在物理空间上的持续扩展,传统硅中介层在尺寸、成本与良率上的约束日益显现,迫使行业开始探索包括玻璃中介层在内的新路径,尽管其大规模商业化仍充满挑战。
更深层的约束来自物理本身。每增加一层存储,就必须引入更多供电与散热通道,而这些通道同样占据面积;TSV也不再只是“连接”,而成为复杂的电磁与热系统,抖动与串扰开始反过来吞噬带宽。
与此同时,HBF从“冷存储”走向“可参与计算的数据层”,其最大的技术挑战之一,是改写NAND的写入寿命曲线。NAND的“写入次数”与“数据保留时间”此消彼长。在传统NAND的设计中,为了长期保存数据,牺牲写入耐久。而HBF必须结合推理与训练的实际需求,主动适度缩短数据保留时间,以换取写入耐久与访问频率的数量级的提升。只有从当前约10万次,提升至100万甚至1000万次,才具备现实意义。

这也意味着,从材料到架构,闪存本身都可能被重新定义。无论是闪迪率先突围,还是SK海力士与三星延续统治,抑或中国厂商实现弯道超车。真正的技术分野,也将从这些真正的挑战开始。
--
直播视频与演示报告:
https://tera.kaist.ac.kr/home