2026-05-24 12:17

世界模型来了，旧的自动驾驶芯片开始失效

汽车之心

本文来自微信公众号：汽车之心，编辑：汽车之心，作者：周彦武

过去几年，汽车行业有一个越来越明显的变化：车企开始亲自下场造芯片。

特斯拉有FSD已迭代至第五代；蔚来推出神玑NX9031；小鹏自研AI图灵芯片；理想造了马赫M100；比亚迪、吉利、Momenta也被频繁点名。

表面上看，这是一场「去英伟达化」的运动。

但如果只看到这一层，就太浅了。

真正的问题是：自动驾驶模型本身，已经开始变了。

从CNN，到Transformer，再到DiT与世界模型，模型范式在切换，而旧时代的芯片逻辑，未必还能接住下一代自动驾驶。

这才是车企重新造芯片的真正原因。

01 不是省钱，是抢控制权

自研还是外采，表面是商业决策，骨子里是对技术路线的判断。

自研或外采取决于车厂对自动驾驶路线的判断，芯片研发周期比较长。

从完整定义设计目标到芯片上量产车型，中间需要2-4年。海外厂家更长，可能是3-5年。

这意味着芯片厂家在今天落笔，押注的其实是5-8年后的技术走向。

预测错了，要么芯片生命周期大幅缩短，要么干脆没人用。

做汽车数字类芯片，赌性确实很大。

车企自研芯片，某种意义上是在说：我比供应商更清楚自己五年后要跑什么模型。

5纳米甚至3纳米，一次性工程费用加对外采购IP高达数亿人民币。一次性工程费用加IP授权，动辄数亿人民币。

出货量不够，账面上一定是亏的。但这笔钱可以进整体研发成本，还能拉高市值、强化科技品牌。

账算到最后，商业逻辑是通的。

技术门槛方面，随着IP生态成熟、EDA工具链完善，以及索喜这类专门服务车厂定制芯片的中间商涌现，工程难度正在快速下降。

真正难的部分，已经转移到软件栈、编译器和长期模型适配上，这恰恰是芯片供应商最难替你定制的部分。

02 模型变了，

芯片的逻辑也得变

先搞清楚现在的自动驾驶，在跑什么模型。

目前自动驾驶路线有三条。

一是分段端到端，大多数厂家的选择，典型代表是Uni-AD，总参数一般不超过5亿。

二是VLA路线，视觉-语言-行动模型，加扩散动作专家或MLP，融合世界模型提高推理效率，VLA通常是MoE架构，参数一般在20—70亿。

三是世界模型加扩散动作专家，目前还没有量产上车的案例，要等的时间可能比想象中更长。

这三条路线对芯片的需求截然不同。

而且没有哪家厂家只押一条路。

三条线都在做，都在看，没人敢掉队。

这里有一个流传很广的误区：只要TOPS数值够大，就能应对所有模型。

CNN时代确实如此，算力堆上去，性能就上去。但今天是CNN+Transformer的混合时代，明天可能是Transformer+DiT的时代。

5000TOPS的芯片，跑DiT架构，很可能打不过300TOPS的对手。

决定胜负的，是存储带宽、编排能力、紧耦合分级内存、SFU、可编程向量算力。哪一个，都比TOPS数字重要。

TOPS崇拜，正在失效。

世界模型的核心是DiT架构

03 世界模型带来的新麻烦

第三条路线是去年才真正成形的。它的核心架构，叫DiT。

世界模型的典型架构，上图来自论文Fast-WAM:Do World Action Models Need Test-time Future Imagination?

世界模型为什么特殊？

因为DiT对时序信息有天然的亲和力。它不只是个「更好的图像生成器」，而是为视频、动画乃至自动驾驶和具身智能量身打造的架构。

无论联合建模、先想象后执行，还是「训练时建模、推理时直出动作」，无论哪一种世界模型范式，DiT都是核心。

问题在于：市面上根本没有为DiT推理专门设计的芯片。

扩散模型推理流程

扩散模型的推理流程异常复杂。

传统高算力芯片只能应对稠密张量矩阵乘法，也就是去噪循环内部的计算。

其余的不规则计算、向量编码、内存敏感的激活，要么依赖标量CPU，要么靠向量算法，对芯片设计构成严峻考验。

如果一家车企决心沿世界模型路线走，又不想等市场上出现合适的芯片，大概率只有一条路：自研。

04 存储带宽，才是真正的命门

有一个细节值得单独拿出来说。

无论哪条技术路线，存储带宽都是越宽越好。

VLM（视觉语言模型）最为典型——解码阶段是VLM的主要耗时，而解码速度完全由存储带宽决定。

换句话说，VLM的整体性能，本质上是存储带宽的性能。

这也是为什么特斯拉AI4/AI5不惜血本拓宽存储带宽。他们很清楚，真正的瓶颈在哪里。

自回归（AR）架构的解码阶段是内存绑定的。算力再高，也无法加速。系统性能完全取决于存储带宽和调度延迟，这个阶段甚至有些小模型在CPU上跑比GPU还快。

扩散模型则是另一种困境：它高度依赖Batch size（并发批处理数量）。Batch越大，矩阵乘法单元利用率越高。但Batch一大，去噪循环外的不规则运算和调度消耗就会暴涨，整体延迟大幅增加。

对延迟敏感的自动驾驶场景，Batch通常只能设1-4，很少超过8。结果是：GPU账面算力惊人，实际大量空转。

05 大核、中核、小核：

三种计算哲学

自动驾驶芯片的核心是AI加速器。而AI加速器的路线之争，本质上是三种计算哲学的对撞。

按照单个矩阵乘ALU的M×N×K维度，目前分三个流派：大核心、中核心、小核心。

（1）大核心：极致效率主义

大核心的典型是脉动阵列架构。

谷歌TPU v5/v6，256×256，每个核心有65536个MAC阵列。数据只流入一次，沿脉冲向前传，SRAM读取压力远低于小核方案。跑LLM/VLM这种形状高度规整、batch极大的模型，能效比和性价比遥遥领先。

典型代表：谷歌TPU、AWS Trainium、Groq LPU、英特尔Gaudi、特斯拉HW3.0、蔚来神玑、小鹏图灵、芯擎、高通AI100。

TPU v5每阵列频率1.5GHz，单核算力约197TOPS；v6升级为Tile脉动，同频率下单核算力达918TOPS。每条指令驱动65536次MAC，稠密矩阵乘法上的效率压倒性领先。

代价也很明显。大核心更像一条超大型流水线——数据形状足够规整时效率极高，一旦模型结构变得稀疏、动态或非规则，流水线就开始空转。

大核心的缺点也很明显，首先是对数据流形状或者说矩阵形状高度敏感，256*256的阵列要求M\N\K都必须是256的整数倍，如果不是整数倍，就需要tile切分、padding、layout变换、双缓冲、collective。

256×256的阵列要求M/N/K都必须是256的整数倍，稍有偏差就需要大量预处理工序。

编译器做得差，计算利用率低到10%甚至1%不罕见；做得好，也很难超过40%。跑一个百亿参数的模型和一个千万参数的模型，用时可能一样。软

件团队规模是硬件的十倍以上——这条路，养人成本极高，亏损几乎不可避免。

另一个硬伤：

非结构化稀疏完全无效。自动驾驶视觉模型是典型的稀疏模型，而大核心是典型的稠密引擎。

谷歌TPU v6e为此单独增加了稀疏张量核心，但这必然增加软件复杂度和调度时间。

（2）小核心：极致灵活主义

小核心实际就是多核CPU。

小核心的极端代表是特斯拉Dojo——实质上是384核心CPU的集合体，每核有独立分支、循环、PC和本地SRAM。

它的天然优势：对任何形状的数据都能轻松处理。

batch=1也能保持很高的利用率；天然适配decode、MoE expert路由、可变长KV cache；原生支持非结构化细粒度稀疏。

Cerebras的报告显示，75%稀疏度下相对稠密基线可达约2.5倍实际加速——这在大核心架构上根本做不到。

代价同样明显。每个小核都要付出独立取指/译码/寄存器堆/控制逻辑的开销。同样工艺同样算力下，纯小核设计比脉动阵列多付2—5倍面积，也就是同样算力，成本要贵2—5倍。

这个数字，足以让大多数厂家望而却步。所以真正走小核路线的，凤毛麟角。

（3）中核心：平衡主义

英伟达选择了第三条路——既不极致，但也从不死路。

GPU把矩阵单元做在16×16，数量比大核多、远少于CUDA core，一颗H100上中核Tensor Core负责稠密算力、CUDA小核负责控制流和稀疏两套并存。warp调度隐藏shape敏感性，不对齐的部分交给CUDA core补齐。

这正是英伟达真正强的地方，从来不是算力本身，而是在效率、灵活性与生态之间找到了某种平衡。

这也是为什么，即使所有车企都在喊「去英伟达化」，真正完全脱离英伟达的公司依旧极少。

典型代表：英伟达、AMD、华为（910/810/610从一开始就是16×16×16）、理想、Momenta。特斯拉AI5大概率也走中核路线。

高通的NPU是这套逻辑的另一个注脚。

从SA8155的8TOPS到SA8397P/SA8797的80TOPS，矩阵单元数量一直没有变化，标量和矢量线程数量却在持续增加——应对越来越复杂的推理场景，高通选择的是往小核方向加筹码。

06 没有完美的芯片，只有押注

三条路线，各有死穴。

对于VLM这种大模型，GEMM密度很高，矩阵尺寸大，大核心几乎完美，模型越大越完美。

但对于DiT和扩散模型，串行属性明显，某些部分GEMM密度很高，其余都是低密度，更适合小核心。而小核心的性价比，很难让商业决策者满意。

英伟达的中核心，在GEMM和非规则计算之间走钢丝，但应对DiT和扩散模型时，依然有力不从心的地方。

车载场景的特殊性还在于：不大可能跑百亿参数以上的大模型，存储成本撑不住。中核心加小核心的组合，或许是比较务实的应对方式。

小米的玄戒做汽车座舱芯片，技术上没有障碍；吉利、比亚迪、Momenta的自研芯片项目，大概率也在推进中。

唯有传统车厂，依然秉持能外采绝不自研的逻辑。

这无可厚非，只是在模型范式加速切换的当下，这个原则面临越来越大的压力。

自动驾驶芯片真正难的，从来不是把芯片造出来。

而是今天就要押中，五年后AI会长成什么样子。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

频道：车与出行