扫码打开虎嗅APP
本文来自微信公众号: 机器之心 ,编辑:Panda,作者:关注内存的
昨天,美国内存股迎来一波集体暴跌。据统计,闪迪一度跌6.5%,希捷科技跌超5%,西部数据跌超4%,美光科技跌4%。

而这一轮内存股暴跌的诱因,却只是谷歌发布的一篇新博客。这篇博客介绍了谷歌一年前就已经在arXiv上公布的一项技术:TurboQuant。

论文标题:TurboQuant:Online Vector Quantization with Near-optimal Distortion Rate
论文地址:https://arxiv.org/abs/2504.19874
简单来说,TurboQuant是一种压缩算法,可将LLM KV缓存内存占用减少至少6倍,速度提升高达8倍,且精度零损失!

技术博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
这一事件也让不少投资者和网友吐槽金融市场的非理性表现:



那么,TurboQuant究竟有何等玄妙?为何发布一年之后还能引发如此巨大的轰动和市场震荡?
这还得从KV缓存说起。
什么是KV缓存?简单来说,当大语言模型(LLM)生成文本时,它需要记住之前生成过的每一个词语的上下文信息。为了做到这一点,模型会将这些历史信息的键(Key)和值(Value)保存在内存中,这就是所谓的KV缓存。
这就像是模型在脑子里打的「小抄」。随着用户输入的提示词越来越长,或者模型的层数与注意力头数越来越多,这张小抄的体积会呈线性膨胀。
为了让模型不卡顿,硬件厂商和AI公司只能不断往服务器里塞昂贵的高带宽内存(HBM)。

Gemini生成的示意图
也因此,在此之前,金融市场对内存芯片的需求预期极度乐观。
大模型要变聪明,向量维度就得往上飙。但传统的向量压缩技术(也就是量化)有一个致命弱点:它们往往需要为每一个小数据块计算并存储全精度的量化常数。
这就像是为了把一件大衣服塞进行李箱,你非得在旁边塞进一本厚厚的「折叠说明书」,一来二去,每个数字反而会多出1到2个bit的额外内存开销,部分抵消了向量量化的初衷。
为了甩掉这个历史包袱,TurboQuant搞出了一套极其精妙的两阶段压缩架构。
第一阶段的核心是搞定均方误差(MSE)的优化。
TurboQuant会先给高维输入向量来一个「随机旋转」。这一招极其巧妙,它直接简化了数据的几何形状。
在底层的PolarQuant机制视角下,这就像是把传统直角坐标系下「向东走3个街区,再向北走4个街区」的繁琐路径,一句话转换成了「以37度角,总共走5个街区」的极坐标表达。

PolarQuant充当了高效的压缩桥梁,将笛卡尔坐标输入转换为紧凑的极坐标「速记符」,以便进行存储和处理。其机制首先将d维向量的坐标成对分组,并将其映射到极坐标系中。随后,系统会将成对的半径收集起来进行递归式的极坐标变换,该过程会持续重复,直到整个数据被提炼为单一的最终半径以及一组描述性的角度。
这样一来,信息被清晰地拆分成了代表核心数据强度的「半径」,以及代表数据方向或含义的「角度」。经过这种旋转,所有坐标在数学上会呈现出一种集中的Beta分布。
在高维空间里,不同坐标之间变得几乎完全独立。因为角度的分布规律已经非常明确且高度集中,模型可以直接把数据映射到一个固定的「圆形」网格上,彻底省去了极其耗费算力的数据归一化步骤。
在这个阶段,TurboQuant投入了绝大部分的压缩算力,对向量的每个部分单独应用标准的高质量量化器,死死锁住原始向量的核心特征,同时把那些累赘的内存开销削减为零。
完成了粗线条的极限压缩,新的问题又来了:只追求MSE最优的量化器,在估算大模型最依赖的「内积」时,会不可避免地产生严重偏差。
这时候,TurboQuant亮出了第二件武器:Quantized Johnson-Lindenstrauss变换(也就是QJL)。
TurboQuant拿出仅有的1 bit压缩空间,专门用来处理第一阶段剩下的微小残差。
QJL就像一个高精密的数学误差检查器。它能够缩小复杂的高维数据,同时完美保留数据点之间的基本距离和关系。它把最终生成的向量数字全部简化成了单个符号位(即+1或-1)。
这就相当于给模型提供了一套速度极快且零内存开销的「速记法」。通过将高精度的查询请求与这种低精度、简化版的数据进行巧妙平衡,模型最终得以极其精准地计算出注意力得分。
正是这关键的1 bit,成功构建出了一个无偏的内积量化器,彻底抹平了此前积累的计算偏差。
为什么说这项技术足以震动硬件市场?看看它在极限测试中的成绩单就一目了然了。
在处理超长上下文的「大海捞针」任务中,TurboQuant在将KV缓存压缩超过5倍的情况下,依然维持了完美的完美召回率。在普通的生成任务中,即使用3.5 bit的极致压缩比,它也能做到绝对的质量无损。

基于Llama-3.1-8B-Instruct模型,相对于其它压缩方法,TurboQuant在LongBench基准测试中展现出了强大的KV缓存压缩性能(括号内标注了具体位宽)。
也已经有工程师成功了为vLLM实现了TurboQuant并验证了其效果。他惊喜地分享说:「我那USB充电器大小的HP ZGX现在可以在GB10上容纳4,083,072个KV缓存token。这可能是2026年迄今为止最大的开放式推理突破。」

在另一个实现案例中,研究者在苹果MLX中实现了TurboQuant,同样效果卓绝!

除了不掉智,它还跑得飞快。
由于底层采用了高度适配当今AI加速器的设计,在H100 GPU上,使用4 bit版本的TurboQuant计算注意力逻辑的速度,比传统的32 bit无量化版本快了整整8倍。

相较于高度优化的JAX基准,TurboQuant展示了在不同位宽级别下,在KV缓存内计算注意力logits时的大幅性能提升。

使用4位量化时,不同方法在各个维度上的量化时间(以秒为单位)
在向量数据库和搜索引擎非常看重的最近邻(NN)搜索领域,它不仅在召回率上轻松击败了现有的乘积量化(PQ)技术,还将庞大的索引构建时间压缩到了几乎为零。

TurboQuant展现出强劲的检索性能,在GloVe数据集(d=200)上相对于多种最先进的量化基线,实现了最优的1@k召回率。
这意味着,原本必须要买8张高端显卡才能跑起来的超大模型,现在可能只需要两三张卡就能流畅运行。
看起来,如果这项技术能够得到普及应用,AI公司在推理端的硬件成本或将面临下降。这种纯靠底层算法榨干硬件潜力的技术突破,有望打乱市场对内存芯片爆发式增长的预期。
可以说,谷歌仅凭一小撮数学公式,就硬生生给高涨的硬件算力焦虑降了温。
然而,话又说回来,内存、GPU、CPU等等的价格似乎也依然还在继续涨,参阅《继GPU、存储暴涨之后,AI最终攻陷CPU市场》。
参考链接
https://x.com/IntuitMachine/status/2036899927465308617
https://x.com/jukan05/status/2036800675158573294
https://x.com/Prince_Canuma/status/2036611007523512397
https://x.com/vllm_project/status/2036989821156270501