扫码打开虎嗅APP
本文来自微信公众号: 歪睿老哥 ,作者:歪睿老哥
人工智能这几年进化太快了。
大语言模型(LLM)从2018年不到10亿参数,干到了2025年的5万亿+参数。
你没看错,单位是万亿。
这种指数级增长带来了前所未有的计算挑战,尤其是推理部署场景——
延迟、吞吐量、成本效率,这三座大山压得人喘不过气来。
训练可以在专门的超算中心集中搞,但推理部署得考虑各种场景:
从边缘设备到数据中心,从实时对话到离线批处理,需求千差万别。
推理芯片的需求这催生了一个多样化的硬件生态系统,各家都在往不同的方向使劲。
也就造就了争奇斗艳的各种芯片架构。
2.1模型尺寸与计算需求的进化
先看看这组让人头皮发麻的数据:

一个700亿参数的模型,FP16精度下需要约140GB内存。
1万亿参数的模型,直接干到约2TB内存。
这远远超过了单个加速器的内存容量,所以分布式推理技术成了必选项。
2.2训练和推理,根本不是一回事
很多兄弟以为训练和推理差不多,其实差别大了去了:
这还没完——训练和推理完全是两码事:
| 特性维度 | 训练(Training) | 推理(Inference) |
|---|---|---|
| 精度Precision | 通常要求FP16/BF16 | INT8/INT4通常足够 |
| 批量大小Batch Size | 大批次(上千规模) | 小批次(1-128) |
| 内存访问Memory Access | 权重更新主导 | 权重读取主导 |
| 计算模式Computation Pattern | 规则、可预测 | 多变(MoE架构尤为突出) |
| 优化目标Optimization Target | 收敛耗时(Time-to-convergence) | 延迟、吞吐量、成本 |
| 部署规模Deployment Scale | 集中式(超级计算机) | 分布式(从边缘到数据中心) |
人话翻译:
训练像工厂量产,追求效率最大化;
推理像餐厅出餐,追求单桌体验——latency(延迟)和throughput(吞吐量)得分开看。
这种多样性催生了各种专门的推理AI加速家芯片。
五大门派,各有各的绝活。
3.1 GPU派:NVIDIA Blackwell&AMD MI300X
江湖地位:中神通,现在的老大
这派用SIMD(单指令多数据)或SIMT(单指令多线程)执行模型,特点是可编程核心多,还有专门的Tensor Core干矩阵运算。

NVIDIA Blackwell GB200 specs:
双GPU芯片设计,每片66个流式多处理器
第5代Tensor Core,FP16精度下4,500 TFLOPS
192GB HBM3e显存,带宽8 TB/s
NVLink 5.0互联,芯片间1.8 TB/s双向通信
AMD MI300X specs:
8个GPU计算chiplet(XCD),台积电5nm工艺
256MB共享L3 Infinity Cache
192GB HBM3显存,带宽5.3 TB/s
多chiplet设计,通过Infinity Fabric互联
优势:
软件生态成熟,CUDA垄断了AI开发
灵活性高,啥活都能干
矩阵运算密度高
多GPU扩展能力强
劣势:
单卡内存有限
小批次推理延迟偏高
太贵了!一张卡好几万美元
人话:
就像瑞士军刀,啥活都能干,但单项都不是最顶。
3.2脉动阵列派:Google TPU v7(Ironwood)
江湖地位:南帝,大厂造芯的佼佼者
TPU是Google家亲儿子,走脉动阵列(Systolic Array)路线。

啥是脉动阵列?
简单说就是数据像心跳一样,在计算单元网格里同步流动。适合密集矩阵乘法——正好是大模型的核心操作。
TPU v7 specs:
192GB HBM3显存,带宽7.37 TB/s
专门的Sparse Core单元,针对MoE(混合专家模型)优化
芯片互联:1.2 TB/s,最多4096芯片组网(3D torus拓扑)
台积电5nm工艺
优势:
矩阵运算效率极高
性能可预测
MoE模型友好(Sparse Core专门干这个)
劣势:
灵活性差,非矩阵任务干不了
编程模型复杂
人话:
就像专业厨房设备,炒菜一绝,但你要做烘焙就抓瞎。
3.3多核SRAM派:Graphcore IPU&Meta MTIA v2
江湖地位:北丐,应用为王。
这派不走寻常路,prioritizes片上内存和海量并行。

Graphcore IPU(GC200):
1,472个独立tile
900MB片上SRAM,内部带宽45 TB/s
每tile自带608KB内存
超低延迟的小批次处理
Meta MTIA v2:
64个处理单元,8×8网格
RISC-V控制核心
256MB片上SRAM(L2)共享
128GB LPDDR5 DRAM,带宽205 GB/s
优势:
小批次延迟极低
细粒度并行,适合不规则workload
内部内存带宽爆炸(45 TB/s)
劣势:
单卡内存小
超大模型得切得很碎
人话:
就像赛车,起步加速无敌,但油箱太小跑不了长途。
江湖地位:西毒,大巧不工,逆练摩尔定律
这个最离谱,直接把一整块晶圆当芯片用。

普通芯片是把晶圆切成几百片,每片单独封装。
Cerebras:不切了,整片就是一个芯片。
Cerebras WSE-3 specs:
90万个AI核心,2D mesh网络排列
44GB分布式SRAM,带宽220+TB/s
整片晶圆面积:46,225 mm²
SwarmX互联fabric,支持多晶圆扩展
优势:
片上并行度炸裂
没有片间通信瓶颈
单一编程模型,扩展简单
劣势:
制造复杂度极高
散热地狱难度
良品率挑战
成本吓人
人话:
就像把整个工厂塞进一个车间,效率拉满,但建造成本吓人。
江湖地位:东邪,自成一脉。
这派走完全不同的路线——追求完全可预测的性能。

不搞通用可编程,而是在编译时静态调度,实现固定流水线。
Groq LPU v1 specs:
单一大核心设计
确定性流水线架构
230MB片上SRAM,带宽80 TB/s
亚毫秒级延迟
188 TFLOPS FP16,750 TOPS INT8
优势:
延迟完全确定(每次一样)
对固定workload执行效率极高
超低延迟
劣势:
灵活性归零
模型架构一变就得重新搞
超大模型扩展挑战
人话:
就像F1赛车,只能在赛道上飞,上街连减速带都过不了。
内存系统对LLM推理至关重要,因为模型经常超过片上内存容量。

AI芯片不同的三种内存策略:
1.HBM-focused(高带宽内存为主):
NVIDIA Blackwell、Google TPU v7、AMD MI300X
大容量HBM(192GB)
高带宽(5-8 TB/s)
多层次缓存
2.片上内存为主:
Cerebras WSE-3、Graphcore IPU
大容量分布式SRAM(44GB/900MB)
极高内部带宽(220+TB/s/45 TB/s)
3.混合方案:
Meta MTIA v2、AWS Inferentia2
片上SRAM+外部内存(LPDDR5/HBM2e)
平衡成本和性能
这种多样性反映了不同的优化目标和扩展哲学。
光比参数没意义,得看实际workload表现。
根据论文《AI Accelerators for Large Language Model Inference:Architecture Analysis and Scaling Strategies》中定义了六种运行场景:
1.低延迟单流:单查询,最小化首token时间(TTFT)
2.中等批次服务:多请求并发,平衡响应和效率
3.高吞吐批次:并行处理大量请求,最大化TPS
4.长上下文处理:高效处理32K+token的上下文
5.多模型服务:同一硬件上并发hosting多个模型
6.MoE模型:高效执行稀疏MoE架构
实测结果揭示了几个关键洞察:

1.没有必杀的杀招:每种架构在特定场景excels,但在其他场景拉胯,性能差距高达3.7倍。
2.架构-workload对齐:性能差异跟架构设计理念高度吻合。
3.软件栈影响巨大:同样硬件,不同软件版本性能差距可达40%。
4.能效差异惊人:最高和最低能效的架构差距18.5倍。
对于用户实时对话场景(比如ChatGPT),关键指标是首token时间(TTFT)和生成速度。

关键点总结:
专用架构(Groq LPU、Graphcore IPU)在小批次延迟上优势明显
Cerebras WSE-3吞吐量最高,但功耗也高
Groq LPU能效比是其他架构的2-4倍
对于离线批处理(比如文档分析),关键指标是吞吐量和延迟稳定性。

关键点总结:
Cerebras WSE-3在大批次吞吐上无敌
Groq LPU延迟稳定性最好(CoV=0.02),但吞吐量受限
GPU和TPU平衡了吞吐和扩展性
1.小批次性能跟内存带宽强相关(r=0.88),大批次更看重算力。
2.延迟-吞吐量tradeoff依然存在:没有架构能同时optimize两者。
3.软件优化跟硬件同样重要:差距可达40%。
4.能效差异巨大:不同workload下,最优架构可能完全不同。tion IV-E
模型大到单机装不下,就得分布式推理。对比了四种主流策略。
把单个网络操作(比如矩阵乘法)切分到多个设备上。
特点:
每层内的张量操作被分区
需要高带宽、低延迟互联
通过AllReduce操作合并结果
适合单层太大的模型
通信模式:AllReduce
NVIDIA Blackwell、Google TPU v7、AMD MI300X都通过高速互联(NVLink 5.0、ICI、Infinity Fabric)提供excellent支持。
5.2流水线并行(Pipeline Parallelism)
把模型层分组,每个设备处理一部分,激活值像流水线一样传递。
特点:
每层分配到不同设备
激活值在相邻阶段间传递
需要微批次处理
适合深层模型
通信模式:点对点激活传输
NVIDIA Blackwell、Google TPU v7、Intel Gaudi 3、Groq LPU优化较好。AMD MI300X和Cerebras WSE-3支持有限。
问题:流水线气泡
小批次时硬件利用率会降低,需要交错调度和异步流水线来缓解。
5.3专家并行(Expert Parallelism/MoE)
专门用于混合专家模型(Mixture-of-Experts)。把不同的专家网络分布到不同设备上,每个token只激活部分专家。
特点:
专家模块分布到不同设备
token根据学习的路由函数分配到专家
需要硬件支持稀疏计算
参数规模可达5-10倍,但计算和延迟增加有限
通信模式:All-to-all(token路由)
核心发现:
专家并行提供了8.4倍的参数-计算比,但引入了2.1倍的延迟方差。
人话翻译:
像医院分科室,各看各的病,但转诊需要时间。
要省钱?
选专家并行,但得接受偶尔卡顿。
要体验?
选张量并行,贵点就贵点。
用CPU内存或存储来扩展有效内存容量,动态地在加速器和主机内存之间交换权重和激活值。
特点:
动态分页管理
预测性预取算法
双向传输between加速器和主机内存
适合研究环境、成本敏感部署
NVIDIA Blackwell、Cerebras WSE-3、AMD MI300X通过vLLM、MemoryX、Infinity Cache扩展提供良好支持。
问题:会引入额外延迟,但通过预取和缓存策略可以缓解。
实践中,这些策略经常组合使用:
1.3D并行:
结合张量、流水线和数据并行,大规模集群扩展。
2.MoE+张量并行:
专家分布到不同设备,单个专家内部再用张量并行。
3.流水线+内存卸载:
活跃层用流水线并行,不活跃层保持在主机内存。
最优组合取决于模型架构、硬件特性和部署约束。
工具如NVIDIA NeMo Megatron、Google MaxText、Cerebras Weight Streaming可以自动确定高效的并行策略。
未来AI加速器的关键趋势。
未来加速器将采用异构内存,结合高带宽但容量有限的内存(如HBM)和更大、稍慢的内存层。

CXL(Compute Express Link)标准正在成为关键技术,支持加速器HBM之外的相干内存扩展。
核心思路:
昂贵HBM只存关键数据
CXL-attached DRAM存访问频率较低的参数
NVMe存储存最低优先级参数
预期效果:
支持比当前HBM-only方案大5-10倍的模型
典型推理workload性能下降仅15-30%
随着MoE模型越来越普遍,未来加速器将整合专门的硬件支持:

专门的专家路由硬件
动态负载均衡
稀疏计算优化
专门的MoE优化计算块可能比通用Tensor Core提升2.8-3.5倍性能。
Transformer中的KV Cache是日益增长的内存挑战,尤其对于长上下文(32K、128K甚至百万token)。
未来加速器可能包括:
专门的缓存压缩引擎
硬件支持各种注意力机制(滑动窗口、局部、多尺度)
动态精度适应
预测性注意力模式预取
专门的KV Cache管理可能在同样内存预算下支持8-10倍的上下文长度。
AI计算的环境影响日益受关注,当前加速器每设备耗电数百到数千瓦。
三种有前景的方法:
1.Workload自适应电源管理:
基于workload特性动态调整电压和频率。
2.异构计算单元:
高性能核心干重活,能效核心干轻活。
3.先进冷却技术:
直接液冷和浸没式冷却,支持更高功率密度。
这些方法可能比当前设计提升3-5倍能效。
传统加速器架构假设计算和内存固定比例,但不同推理场景需求差异很大。
未来系统将越来越多地支持解耦架构,内存资源可以独立于计算资源扩展。
CXL内存池化结合复杂的编排软件,可以实现更灵活的内存扩展。

预期收益:
计算利用率提升15-41%
内存利用率提升28-49%
混合workload场景收益最大(41%)
TCO降低22%
这些架构趋势虽有前景,但也面临挑战:
1.编程模型复杂性:
新架构常需专门编程模型,可能限制采用和软件生态发展。
2.部署约束:
专门冷却、电源供应和机架级集成需求可能限制部署灵活性。
3.成本-性能权衡:
更复杂的内存层次和专门硬件单元提高了设计和制造成本。
4.软硬件协同优化:
最优性能需要硬件和软件栈紧密集合,可能产生供应商锁定。
第一,AI芯片的战争才刚开始。
NVIDIA现在领先,但不是不可撼动。TPU、IPU、Cerebras在特定场景下都有自己的优势。
第二,没有最好的芯片,只有最合适的芯片。
你的应用场景决定了你该选什么:
小batch低延迟?多核SRAM(Graphcore IPU、Groq LPU)
大批次高吞吐?晶圆级(Cerebras WSE-3)或GPU集群
MoE模型?TPU v7有Sparse Core专门优化
万亿参数怪兽?分布式GPU集群+张量/专家并行
第三,记住那个数字:3.7倍。
选错架构,成本直接翻几倍。
选对了,同样的预算能多跑几倍的活。
第四,未来看这几个方向:
异构内存系统(CXL内存扩展)
硬件加速MoE支持
专门KV Cache引擎
内存-计算解耦架构
给你的行动指引:
如果你是开发者:
多关注量化技术(INT8/INT4),能把模型压到原来的1/4
研究vLLM、TensorRT-LLM这些推理框架
摸清楚你的模型适合什么并行策略
如果你是决策者:
选硬件先看内存带宽和容量,再看算力
别只看峰值TFLOPS,那就像汽车的最高时速——日常根本开不到
内存和互联才是你日常能开多快的决定因素
如果你是投资人:
专用推理ASIC赛道还有机会
推理芯片需求增速会超过训练芯片
边缘推理(手机、车端)是下一个蓝海
最后送兄弟们一句话:
算力即权力,带宽即生命线,内存即护城河。
在这场AI军备竞赛里,算法是灵魂,但芯片是肉身。
没有肉身,灵魂无处安放。
选对硬件,才能让你的大模型真正跑起来。
觉得有用点个赞,下期接着聊硬核科技。
本文来源:Sharma,A."AI Accelerators for Large Language Model Inference:Architecture Analysis and Scaling Strategies." IEEE,2025.