扫码打开虎嗅APP
本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥
朋友们,今天聊个狠货。
一家韩国公司搞出了一颗AI推理芯片。
功耗284毫瓦。
对,你没看错,不是284瓦,是284毫瓦。
就这么点功耗,居然能在LLM推理上干翻NVIDIA H100。
吹牛能效比H100还高33%。
这事儿要是真的,那可就太刺激了。
咱们今天好好扒一扒这颗叫做LPU的芯片,到底是真神还是吹牛。
先说参数,让你开开眼。
先说LPU这个名字,
这个就不太一样。
韩国人称这个是Latency Processing Unit的缩写,而不是LLMProcessing Unit(大语言模型专用处理器。
但是,这个的确是用来出来LLM大语言模型推理的。
只能说脑回路不太一样。
这玩意的架构是这样的。

作者说,通过三星4nm工艺,芯片面积0.824平方毫米。
什么概念?
你指甲盖大约100平方毫米,这颗芯片只有你指甲盖的不到1%。
功耗284.31毫瓦。
也就是你手机充电器的零头。
但就是这么一颗"袖珍"芯片,跑起活儿来一点不含糊。
处理13亿(1.3B)参数的大模型,速度1.25毫秒一个token。
两颗LPU跑660亿参数的大模型,速度20.9毫秒一个token。
比GPU快1.37到2.09倍。
重点来了:能效比H100高1.33倍,比L4高1.32倍。
朋友们,这事儿要是搁三年前,你跟人这么说,人家得说你疯了。
284毫瓦打1100瓦?
这就好比一只蚂蚁说自己能举起大象。
但HyperAccel还真就对比了
要说这颗芯片为啥这么猛,得从它的架构说起。

第一招:Streamlined Memory Access(SMA)
这是个啥?
简单说,就是专门优化了内存访问。
大模型推理最怕什么?
不是算力不够,是内存带宽成了瓶颈。
GPU为啥效率低?
因为它设计的时候是为了并行计算,一大堆核心同时干活。
但LLM推理的特点是,每次只处理一个向量,搞完再搞下一个。
GPU那么多核心,大部分时候都在干瞪眼。
LPU不一样,它专门为大模型推理设计了"流线型"内存访问。
数据从HBM进来,直接送到计算单元,中间不绕弯子。
带宽利用率能到90%。
H100呢?小模型才28.5%,大模型也就70%左右。
这就是差距。
第二招:Operand Issue Unit(OIU)
这玩意儿负责调度数据。
像个智能管家,提前把要用的数据准备好,计算单元一需要,立马送上。
不让你等着。
第三招:Streamlined Execution Engine(SXE)
这是LPU的计算核心。
里面塞了一堆定制的MAC树(乘加运算单元)。
专门干向量乘矩阵的活。
这是大模型推理里最耗时的操作。
LPU把这些MAC树排得整整齐齐,数据流进来,一路算到底,中间不停顿。
就像一条高效的生产线。
第四招:ESL(Expandable Synchronization Link)
这是LPU的大招。
跑大模型,一颗芯片内存不够,得用多颗。
多颗芯片之间怎么通信?
GPU用NVLink,900GB/s,看着挺快。
但问题是,通信的时候计算得停下来等着。
这一等,效率就下来了。
双GPU加速比平均只有1.38倍,四GPU更低。
LPU的ESL不一样,它能把通信延迟藏起来。
通信和计算能重叠进行。
结果是,双LPU加速比能到1.75倍,接近理论极限的2倍。

这scalability,GPU看了都得跪。
硬件再牛,软件不好用也是白搭。
HyperAccel搞了个叫HyperDex的软件框架。
功能挺全:
自动编译,根据模型参数生成内存映射和指令。
支持HuggingFace API,现在主流的LLM模型都能跑。
这对开发者来说是好事,不用从头学一套新东西。
不过话说回来,一个新架构的生态建设是个长期工程。
NVIDIA护城河那么深,CUDA生态都建了十几年了。
LPU想撼动这个地位,光有性能优势还不够。
得看后续能不能吸引更多开发者和厂商上车。
说到这里,你可能会问:
老哥,LPU这么猛?
我得说,这是原型芯片。
第一,这是原型的专用芯片,不是通用芯片。
LPU只能跑大模型推理,别的活儿干不了。
GPU能训练、能推理、能打游戏、能挖矿,啥都能干。
应用场景完全不一样。

第二,论文和量产是两回事。
论文里的数据是在理想条件下测的。
真实场景里,模型千奇百怪,请求五花八门,能不能保持这个效率还不好说。
第三,生态差距太大。
NVIDIA有CUDA,有TensorRT,有一大堆优化好的库。
这个LPU现在还只是个newcomers。
但话说回来,专用芯片在特定领域干翻通用芯片,这事儿以前也发生过。
比特币挖矿不就是吗?
一开始都用GPU挖,后来专用ASIC一出,GPU直接出局。
大模型推理会不会走这条路?
还真有可能。
毕竟推理这活儿相对固定,不像训练那么复杂。
如果专用芯片能把成本和功耗打下来,云厂商没理由不用。
作为普通用户,你可能觉得这事跟自己没啥关系。
但还真不一定。
端侧推理AI芯片可能会爆发。
284毫瓦的功耗,放手机上也不是不能用。
以后你的手机说不定能本地跑大模型,不用联网。
隐私、延迟、费用,全都解决了。
但是,目前看,存储是瓶颈。
这个284毫瓦的芯片,用了FPGA原型上的HBM来存储数据。
这就好像一个摩托(AI推理芯片)拉着一个大油罐(HBM)。
不过,从这也能看出来,
目前大模型推理芯片的瓶颈更多在存,而不是算。
LPU这颗芯片,让我看到了专用AI芯片的潜力。
在特定场景下,专用架构确实能比通用架构高效得多。
但要说它能颠覆NVIDIA,现在还为时尚早。
毕竟生态不是一天能建起来的。
不过有一点是确定的:
AI推理芯片这场仗,早晚百花齐放。
前有Gorq,SambaNova,Tenstorrent,Taalas等等。
未来也会有更多的架构参与其中。
你觉得专用A推理芯片能撼动NVIDIA的地位吗?