扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
大模型推理需求催生了多样化的AI芯片架构,五大流派各有千秋。没有绝对王者,只有场景最优解。选错架构成本可能翻倍,内存带宽和容量比峰值算力更关键。未来趋势指向异构内存、硬件加速MoE和内存-计算解耦。 ## 1. 训练与推理的根本差异 训练追求高效量产,需要高精度和大批次;推理则像餐厅出餐,更看重低延迟、高吞吐和成本效率,通常INT8/INT4精度即可满足。这种差异是催生专用推理芯片的根本原因。 ## 2. 五大门派芯片架构华山论剑 - **GPU派(NVIDIA/AMD)**:如同瑞士军刀,灵活性高、生态成熟,但价格昂贵且小批次延迟偏高。Blackwell的HBM3e带宽达8TB/s,但单卡售价数万美元。 - **脉动阵列派(Google TPU)**:专业矩阵计算引擎,对MoE模型有专门优化的Sparse Core,效率高但灵活性差,如同专业炒锅。 - **多核SRAM派(Graphcore/Meta)**:片上SRAM带宽极高(如IPU达45TB/s),小批次延迟极低,但如同赛车油箱小,不适合超大规模模型。 - **晶圆级派(Cerebras)**:逆天而行,整片晶圆作一芯片,并行度炸裂,吞吐量无敌,但制造复杂、成本骇人,散热挑战巨大。 - **确定性流水线派(Groq)**:追求完全可预测的性能,延迟极低且稳定,能效比是其他架构的2-4倍,但灵活性为零,模型一变就得重来。 ## 3. 性能表现:没有全能冠军 实测表明,不同架构在不同场景下性能差距高达3.7倍,能效差距更是达到18.5倍。专用架构(Groq、Graphcore)在小批次延迟上优势明显,而Cerebras在大批次吞吐上无敌。软件优化至关重要,不同版本可导致40%的性能差异。 ## 4. 万亿模型的四大扩展策略 当模型过大时,需采用分布式推理策略。张量并行适合单层太大的模型,需要高带宽互联;流水线并行适合深层模型,但存在流水线气泡问题;专家并行(MoE)可节省8.4倍计算,但会带来2.1倍的延迟方差;内存卸载技术则通过动态交换数据扩展有效内存容量。实践中常混合使用这些策略。 ## 5. 未来架构的核心趋势 未来芯片将聚焦异构内存系统(通过CXL扩展,支持5-10倍大模型)、硬件加速MoE支持(性能提升2.8-3.5倍)、专用KV Cache引擎(支持8-10倍上下文长度)以及内存-计算解耦架构(可提升41%计算利用率并降低22% TCO)。然而,这些创新也面临编程复杂性、成本和供应商锁定等挑战。
2026-04-02 08:39

大模型推理芯片架构全揭秘:五大门派华山论剑,谁才是真正的王者?

本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥


人工智能这几年进化太快了。


大语言模型(LLM)从2018年不到10亿参数,干到了2025年的5万亿+参数。


你没看错,单位是万亿。


这种指数级增长带来了前所未有的计算挑战,尤其是推理部署场景——


延迟、吞吐量、成本效率,这三座大山压得人喘不过气来。


训练可以在专门的超算中心集中搞,但推理部署得考虑各种场景:


从边缘设备到数据中心,从实时对话到离线批处理,需求千差万别。


推理芯片的需求这催生了一个多样化的硬件生态系统,各家都在往不同的方向使劲。


也就造就了争奇斗艳的各种芯片架构。


2.背景:模型越来越大,芯片怎么跟?


2.1模型尺寸与计算需求的进化


先看看这组让人头皮发麻的数据:



一个700亿参数的模型,FP16精度下需要约140GB内存。


1万亿参数的模型,直接干到约2TB内存。


这远远超过了单个加速器的内存容量,所以分布式推理技术成了必选项。


2.2训练和推理,根本不是一回事


很多兄弟以为训练和推理差不多,其实差别大了去了:


这还没完——训练和推理完全是两码事:


特性维度训练(Training)推理(Inference)
精度Precision通常要求FP16/BF16INT8/INT4通常足够
批量大小Batch Size大批次(上千规模)小批次(1-128)
内存访问Memory Access权重更新主导权重读取主导
计算模式Computation Pattern规则、可预测多变(MoE架构尤为突出)
优化目标Optimization Target收敛耗时(Time-to-convergence)延迟、吞吐量、成本
部署规模Deployment Scale集中式(超级计算机)分布式(从边缘到数据中心)


人话翻译:


训练像工厂量产,追求效率最大化;


推理像餐厅出餐,追求单桌体验——latency(延迟)和throughput(吞吐量)得分开看。


这种多样性催生了各种专门的推理AI加速家芯片。


3.五大架构PK:谁能问鼎华山之巅?


五大门派,各有各的绝活。


3.1 GPU派:NVIDIA Blackwell&AMD MI300X


江湖地位:中神通,现在的老大


这派用SIMD(单指令多数据)或SIMT(单指令多线程)执行模型,特点是可编程核心多,还有专门的Tensor Core干矩阵运算。



NVIDIA Blackwell GB200 specs:


双GPU芯片设计,每片66个流式多处理器


第5代Tensor Core,FP16精度下4,500 TFLOPS


192GB HBM3e显存,带宽8 TB/s


NVLink 5.0互联,芯片间1.8 TB/s双向通信


AMD MI300X specs:


8个GPU计算chiplet(XCD),台积电5nm工艺


256MB共享L3 Infinity Cache


192GB HBM3显存,带宽5.3 TB/s


多chiplet设计,通过Infinity Fabric互联


优势:


软件生态成熟,CUDA垄断了AI开发


灵活性高,啥活都能干


矩阵运算密度高


多GPU扩展能力强


劣势:


单卡内存有限


小批次推理延迟偏高


太贵了!一张卡好几万美元


人话:


就像瑞士军刀,啥活都能干,但单项都不是最顶。


3.2脉动阵列派:Google TPU v7(Ironwood)


江湖地位:南帝,大厂造芯的佼佼者


TPU是Google家亲儿子,走脉动阵列(Systolic Array)路线。



啥是脉动阵列?


简单说就是数据像心跳一样,在计算单元网格里同步流动。适合密集矩阵乘法——正好是大模型的核心操作。


TPU v7 specs:


192GB HBM3显存,带宽7.37 TB/s


专门的Sparse Core单元,针对MoE(混合专家模型)优化


芯片互联:1.2 TB/s,最多4096芯片组网(3D torus拓扑)


台积电5nm工艺


优势:


矩阵运算效率极高


性能可预测


MoE模型友好(Sparse Core专门干这个)


劣势:


灵活性差,非矩阵任务干不了


编程模型复杂


人话:


就像专业厨房设备,炒菜一绝,但你要做烘焙就抓瞎。


3.3多核SRAM派:Graphcore IPU&Meta MTIA v2


江湖地位:北丐,应用为王。


这派不走寻常路,prioritizes片上内存和海量并行。



Graphcore IPU(GC200):


1,472个独立tile


900MB片上SRAM,内部带宽45 TB/s


每tile自带608KB内存


超低延迟的小批次处理


Meta MTIA v2:


64个处理单元,8×8网格


RISC-V控制核心


256MB片上SRAM(L2)共享


128GB LPDDR5 DRAM,带宽205 GB/s


优势:


小批次延迟极低


细粒度并行,适合不规则workload


内部内存带宽爆炸(45 TB/s)


劣势:


单卡内存小


超大模型得切得很碎


人话:


就像赛车,起步加速无敌,但油箱太小跑不了长途。


3.4晶圆级派:Cerebras WSE-3


江湖地位:西毒,大巧不工,逆练摩尔定律


这个最离谱,直接把一整块晶圆当芯片用。



普通芯片是把晶圆切成几百片,每片单独封装。


Cerebras:不切了,整片就是一个芯片。


Cerebras WSE-3 specs:


90万个AI核心,2D mesh网络排列


44GB分布式SRAM,带宽220+TB/s


整片晶圆面积:46,225 mm²


SwarmX互联fabric,支持多晶圆扩展


优势:


片上并行度炸裂


没有片间通信瓶颈


单一编程模型,扩展简单


劣势:


制造复杂度极高


散热地狱难度


良品率挑战


成本吓人


人话:


就像把整个工厂塞进一个车间,效率拉满,但建造成本吓人。


3.5确定性流水线派:Groq LPU


江湖地位:东邪,自成一脉。


这派走完全不同的路线——追求完全可预测的性能。



不搞通用可编程,而是在编译时静态调度,实现固定流水线。


Groq LPU v1 specs:


单一大核心设计


确定性流水线架构


230MB片上SRAM,带宽80 TB/s


亚毫秒级延迟


188 TFLOPS FP16,750 TOPS INT8


优势:


延迟完全确定(每次一样)


对固定workload执行效率极高


超低延迟


劣势:


灵活性归零


模型架构一变就得重新搞


超大模型扩展挑战


人话:


就像F1赛车,只能在赛道上飞,上街连减速带都过不了。


3.6内存层次结构对比


内存系统对LLM推理至关重要,因为模型经常超过片上内存容量。



AI芯片不同的三种内存策略:


1.HBM-focused(高带宽内存为主):


NVIDIA Blackwell、Google TPU v7、AMD MI300X


大容量HBM(192GB)


高带宽(5-8 TB/s)


多层次缓存


2.片上内存为主:


Cerebras WSE-3、Graphcore IPU


大容量分布式SRAM(44GB/900MB)


极高内部带宽(220+TB/s/45 TB/s)


3.混合方案:


Meta MTIA v2、AWS Inferentia2


片上SRAM+外部内存(LPDDR5/HBM2e)


平衡成本和性能


这种多样性反映了不同的优化目标和扩展哲学。


4.Workload-specific性能分析


光比参数没意义,得看实际workload表现。


4.1评估方法


根据论文《AI Accelerators for Large Language Model Inference:Architecture Analysis and Scaling Strategies》中定义了六种运行场景:


1.低延迟单流:单查询,最小化首token时间(TTFT)


2.中等批次服务:多请求并发,平衡响应和效率


3.高吞吐批次:并行处理大量请求,最大化TPS


4.长上下文处理:高效处理32K+token的上下文


5.多模型服务:同一硬件上并发hosting多个模型


6.MoE模型:高效执行稀疏MoE架构


4.2核心发现


实测结果揭示了几个关键洞察:



1.没有必杀的杀招:每种架构在特定场景excels,但在其他场景拉胯,性能差距高达3.7倍。


2.架构-workload对齐:性能差异跟架构设计理念高度吻合。


3.软件栈影响巨大:同样硬件,不同软件版本性能差距可达40%。


4.能效差异惊人:最高和最低能效的架构差距18.5倍。


4.3交互式Workload性能


对于用户实时对话场景(比如ChatGPT),关键指标是首token时间(TTFT)和生成速度。



关键点总结:


专用架构(Groq LPU、Graphcore IPU)在小批次延迟上优势明显


Cerebras WSE-3吞吐量最高,但功耗也高


Groq LPU能效比是其他架构的2-4倍


4.4批次处理Workload性能


对于离线批处理(比如文档分析),关键指标是吞吐量和延迟稳定性。



关键点总结:


Cerebras WSE-3在大批次吞吐上无敌


Groq LPU延迟稳定性最好(CoV=0.02),但吞吐量受限


GPU和TPU平衡了吞吐和扩展性


4.5跨架构总结


1.小批次性能跟内存带宽强相关(r=0.88),大批次更看重算力。


2.延迟-吞吐量tradeoff依然存在:没有架构能同时optimize两者。


3.软件优化跟硬件同样重要:差距可达40%。


4.能效差异巨大:不同workload下,最优架构可能完全不同。tion IV-E


5.万亿参数模型的四种扩展策略


模型大到单机装不下,就得分布式推理。对比了四种主流策略。


5.1张量并行(Tensor Parallelism)


把单个网络操作(比如矩阵乘法)切分到多个设备上。


特点:


每层内的张量操作被分区


需要高带宽、低延迟互联


通过AllReduce操作合并结果


适合单层太大的模型


通信模式:AllReduce


NVIDIA Blackwell、Google TPU v7、AMD MI300X都通过高速互联(NVLink 5.0、ICI、Infinity Fabric)提供excellent支持。


5.2流水线并行(Pipeline Parallelism)


把模型层分组,每个设备处理一部分,激活值像流水线一样传递。


特点:


每层分配到不同设备


激活值在相邻阶段间传递


需要微批次处理


适合深层模型


通信模式:点对点激活传输


NVIDIA Blackwell、Google TPU v7、Intel Gaudi 3、Groq LPU优化较好。AMD MI300X和Cerebras WSE-3支持有限。


问题:流水线气泡


小批次时硬件利用率会降低,需要交错调度和异步流水线来缓解。


5.3专家并行(Expert Parallelism/MoE)


专门用于混合专家模型(Mixture-of-Experts)。把不同的专家网络分布到不同设备上,每个token只激活部分专家。


特点:


专家模块分布到不同设备


token根据学习的路由函数分配到专家


需要硬件支持稀疏计算


参数规模可达5-10倍,但计算和延迟增加有限


通信模式:All-to-all(token路由)


核心发现:


专家并行提供了8.4倍的参数-计算比,但引入了2.1倍的延迟方差。


人话翻译:


像医院分科室,各看各的病,但转诊需要时间。


要省钱?


选专家并行,但得接受偶尔卡顿。


要体验?


选张量并行,贵点就贵点。


5.4内存卸载技术(Memory Offloading)


用CPU内存或存储来扩展有效内存容量,动态地在加速器和主机内存之间交换权重和激活值。


特点:


动态分页管理


预测性预取算法


双向传输between加速器和主机内存


适合研究环境、成本敏感部署


NVIDIA Blackwell、Cerebras WSE-3、AMD MI300X通过vLLM、MemoryX、Infinity Cache扩展提供良好支持。


问题:会引入额外延迟,但通过预取和缓存策略可以缓解。


5.5混合扩展策略


实践中,这些策略经常组合使用:


1.3D并行:


结合张量、流水线和数据并行,大规模集群扩展。


2.MoE+张量并行:


专家分布到不同设备,单个专家内部再用张量并行。


3.流水线+内存卸载:


活跃层用流水线并行,不活跃层保持在主机内存。


最优组合取决于模型架构、硬件特性和部署约束。


工具如NVIDIA NeMo Megatron、Google MaxText、Cerebras Weight Streaming可以自动确定高效的并行策略。


6.未来架构趋势


未来AI加速器的关键趋势。


6.1异构内存系统


未来加速器将采用异构内存,结合高带宽但容量有限的内存(如HBM)和更大、稍慢的内存层。



CXL(Compute Express Link)标准正在成为关键技术,支持加速器HBM之外的相干内存扩展。


核心思路:


昂贵HBM只存关键数据


CXL-attached DRAM存访问频率较低的参数


NVMe存储存最低优先级参数


预期效果:


支持比当前HBM-only方案大5-10倍的模型


典型推理workload性能下降仅15-30%


6.2硬件加速MoE支持


随着MoE模型越来越普遍,未来加速器将整合专门的硬件支持:


专门的专家路由硬件

动态负载均衡

稀疏计算优化


专门的MoE优化计算块可能比通用Tensor Core提升2.8-3.5倍性能。


6.3专用KV Cache引擎


Transformer中的KV Cache是日益增长的内存挑战,尤其对于长上下文(32K、128K甚至百万token)。


未来加速器可能包括:


专门的缓存压缩引擎


硬件支持各种注意力机制(滑动窗口、局部、多尺度)


动态精度适应


预测性注意力模式预取


专门的KV Cache管理可能在同样内存预算下支持8-10倍的上下文长度。


6.4能效与环境考量


AI计算的环境影响日益受关注,当前加速器每设备耗电数百到数千瓦。


三种有前景的方法:


1.Workload自适应电源管理:


基于workload特性动态调整电压和频率。


2.异构计算单元:


高性能核心干重活,能效核心干轻活。


3.先进冷却技术:


直接液冷和浸没式冷却,支持更高功率密度。


这些方法可能比当前设计提升3-5倍能效。


6.5内存-计算解耦


传统加速器架构假设计算和内存固定比例,但不同推理场景需求差异很大。


未来系统将越来越多地支持解耦架构,内存资源可以独立于计算资源扩展。


CXL内存池化结合复杂的编排软件,可以实现更灵活的内存扩展。



预期收益:


计算利用率提升15-41%


内存利用率提升28-49%


混合workload场景收益最大(41%)


TCO降低22%


6.6局限性与挑战


这些架构趋势虽有前景,但也面临挑战:


1.编程模型复杂性:


新架构常需专门编程模型,可能限制采用和软件生态发展。


2.部署约束:


专门冷却、电源供应和机架级集成需求可能限制部署灵活性。


3.成本-性能权衡:


更复杂的内存层次和专门硬件单元提高了设计和制造成本。


4.软硬件协同优化:


最优性能需要硬件和软件栈紧密集合,可能产生供应商锁定。


7.总结


第一,AI芯片的战争才刚开始。


NVIDIA现在领先,但不是不可撼动。TPU、IPU、Cerebras在特定场景下都有自己的优势。


第二,没有最好的芯片,只有最合适的芯片。


你的应用场景决定了你该选什么:


小batch低延迟?多核SRAM(Graphcore IPU、Groq LPU)


大批次高吞吐?晶圆级(Cerebras WSE-3)或GPU集群


MoE模型?TPU v7有Sparse Core专门优化


万亿参数怪兽?分布式GPU集群+张量/专家并行


第三,记住那个数字:3.7倍。


选错架构,成本直接翻几倍。


选对了,同样的预算能多跑几倍的活。


第四,未来看这几个方向:


异构内存系统(CXL内存扩展)


硬件加速MoE支持


专门KV Cache引擎


内存-计算解耦架构


给你的行动指引:


如果你是开发者:


多关注量化技术(INT8/INT4),能把模型压到原来的1/4


研究vLLM、TensorRT-LLM这些推理框架


摸清楚你的模型适合什么并行策略


如果你是决策者:


选硬件先看内存带宽和容量,再看算力


别只看峰值TFLOPS,那就像汽车的最高时速——日常根本开不到


内存和互联才是你日常能开多快的决定因素


如果你是投资人:


专用推理ASIC赛道还有机会


推理芯片需求增速会超过训练芯片


边缘推理(手机、车端)是下一个蓝海


最后送兄弟们一句话:


算力即权力,带宽即生命线,内存即护城河。


在这场AI军备竞赛里,算法是灵魂,但芯片是肉身。


没有肉身,灵魂无处安放。


选对硬件,才能让你的大模型真正跑起来。


觉得有用点个赞,下期接着聊硬核科技。


本文来源:Sharma,A."AI Accelerators for Large Language Model Inference:Architecture Analysis and Scaling Strategies." IEEE,2025.

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜