功耗只有284mW的LPU，能跑大模型的吗？-虎嗅网

本文来自微信公众号：歪睿老哥，作者：歪睿老哥

朋友们，今天聊个狠货。

一家韩国公司搞出了一颗AI推理芯片。

功耗284毫瓦。

对，你没看错，不是284瓦，是284毫瓦。

就这么点功耗，居然能在LLM推理上干翻NVIDIA H100。

吹牛能效比H100还高33%。

这事儿要是真的，那可就太刺激了。

咱们今天好好扒一扒这颗叫做LPU的芯片，到底是真神还是吹牛。

1.一颗只有指甲盖千分之一的芯片，凭什么这么猛？

先说参数，让你开开眼。

先说LPU这个名字，

这个就不太一样。

韩国人称这个是Latency Processing Unit的缩写，而不是LLMProcessing Unit（大语言模型专用处理器。

但是，这个的确是用来出来LLM大语言模型推理的。

只能说脑回路不太一样。

这玩意的架构是这样的。

作者说，通过三星4nm工艺，芯片面积0.824平方毫米。

什么概念？

你指甲盖大约100平方毫米，这颗芯片只有你指甲盖的不到1%。

功耗284.31毫瓦。

也就是你手机充电器的零头。

但就是这么一颗"袖珍"芯片，跑起活儿来一点不含糊。

处理13亿（1.3B）参数的大模型，速度1.25毫秒一个token。

两颗LPU跑660亿参数的大模型，速度20.9毫秒一个token。

比GPU快1.37到2.09倍。

重点来了：能效比H100高1.33倍，比L4高1.32倍。

朋友们，这事儿要是搁三年前，你跟人这么说，人家得说你疯了。

284毫瓦打1100瓦？

这就好比一只蚂蚁说自己能举起大象。

但HyperAccel还真就对比了

2.LPU的独门秘籍：快、准、狠

要说这颗芯片为啥这么猛，得从它的架构说起。

第一招：Streamlined Memory Access（SMA）

这是个啥？

简单说，就是专门优化了内存访问。

大模型推理最怕什么？

不是算力不够，是内存带宽成了瓶颈。

GPU为啥效率低？

因为它设计的时候是为了并行计算，一大堆核心同时干活。

但LLM推理的特点是，每次只处理一个向量，搞完再搞下一个。

GPU那么多核心，大部分时候都在干瞪眼。

LPU不一样，它专门为大模型推理设计了"流线型"内存访问。

数据从HBM进来，直接送到计算单元，中间不绕弯子。

带宽利用率能到90%。

H100呢？小模型才28.5%，大模型也就70%左右。

这就是差距。

第二招：Operand Issue Unit（OIU）

这玩意儿负责调度数据。

像个智能管家，提前把要用的数据准备好，计算单元一需要，立马送上。

不让你等着。

第三招：Streamlined Execution Engine（SXE）

这是LPU的计算核心。

里面塞了一堆定制的MAC树（乘加运算单元）。

专门干向量乘矩阵的活。

这是大模型推理里最耗时的操作。

LPU把这些MAC树排得整整齐齐，数据流进来，一路算到底，中间不停顿。

就像一条高效的生产线。

第四招：ESL（Expandable Synchronization Link）

这是LPU的大招。

跑大模型，一颗芯片内存不够，得用多颗。

多颗芯片之间怎么通信？

GPU用NVLink，900GB/s，看着挺快。

但问题是，通信的时候计算得停下来等着。

这一等，效率就下来了。

双GPU加速比平均只有1.38倍，四GPU更低。

LPU的ESL不一样，它能把通信延迟藏起来。

通信和计算能重叠进行。

结果是，双LPU加速比能到1.75倍，接近理论极限的2倍。

这scalability，GPU看了都得跪。

3.软件生态：HyperDex，让用起来不那么痛苦

硬件再牛，软件不好用也是白搭。

HyperAccel搞了个叫HyperDex的软件框架。

功能挺全：

自动编译，根据模型参数生成内存映射和指令。

支持HuggingFace API，现在主流的LLM模型都能跑。

这对开发者来说是好事，不用从头学一套新东西。

不过话说回来，一个新架构的生态建设是个长期工程。

NVIDIA护城河那么深，CUDA生态都建了十几年了。

LPU想撼动这个地位，光有性能优势还不够。

得看后续能不能吸引更多开发者和厂商上车。

4.LPU能干翻NVIDIA吗？先别急着下结论

说到这里，你可能会问：

老哥，LPU这么猛？

我得说，这是原型芯片。

第一，这是原型的专用芯片，不是通用芯片。

LPU只能跑大模型推理，别的活儿干不了。

GPU能训练、能推理、能打游戏、能挖矿，啥都能干。

应用场景完全不一样。

第二，论文和量产是两回事。

论文里的数据是在理想条件下测的。

真实场景里，模型千奇百怪，请求五花八门，能不能保持这个效率还不好说。

第三，生态差距太大。

NVIDIA有CUDA，有TensorRT，有一大堆优化好的库。

这个LPU现在还只是个newcomers。

但话说回来，专用芯片在特定领域干翻通用芯片，这事儿以前也发生过。

比特币挖矿不就是吗？

一开始都用GPU挖，后来专用ASIC一出，GPU直接出局。

大模型推理会不会走这条路？

还真有可能。

毕竟推理这活儿相对固定，不像训练那么复杂。

如果专用芯片能把成本和功耗打下来，云厂商没理由不用。

5.这事儿对我们意味着什么？

作为普通用户，你可能觉得这事跟自己没啥关系。

但还真不一定。

端侧推理AI芯片可能会爆发。

284毫瓦的功耗，放手机上也不是不能用。

以后你的手机说不定能本地跑大模型，不用联网。

隐私、延迟、费用，全都解决了。

但是，目前看，存储是瓶颈。

这个284毫瓦的芯片，用了FPGA原型上的HBM来存储数据。

这就好像一个摩托（AI推理芯片）拉着一个大油罐（HBM）。

不过，从这也能看出来，

目前大模型推理芯片的瓶颈更多在存，而不是算。

6.最后说几句

LPU这颗芯片，让我看到了专用AI芯片的潜力。

在特定场景下，专用架构确实能比通用架构高效得多。

但要说它能颠覆NVIDIA，现在还为时尚早。

毕竟生态不是一天能建起来的。

不过有一点是确定的：

AI推理芯片这场仗，早晚百花齐放。

前有Gorq，SambaNova，Tenstorrent，Taalas等等。

未来也会有更多的架构参与其中。

你觉得专用A推理芯片能撼动NVIDIA的地位吗？

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

功耗只有284mW的LPU，能跑大模型的吗？