扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
当前自动驾驶模型范式正从CNN向Transformer、DiT、世界模型迭代,旧芯片逻辑不再适配,文章拆解了车企自研芯片的底层逻辑与不同路线的优劣。 ## 1. 车企自研芯片的核心动因不是去供应商化,而是押注未来技术路线 表面看车企自研芯片是「去英伟达化」,本质是对自动驾驶技术路线的判断,要适配2-4年后(芯片量产周期)甚至5-8年后的模型走向。 虽然自研5nm/3nm芯片一次性投入达数亿,出货量不够账面会亏损,但可计入整体研发成本,还能拉高市值、强化科技品牌,商业逻辑成立。 随着IP生态成熟、EDA工具完善、定制芯片中间商出现,工程门槛已降低,最难的软件栈、编译器、模型适配,供应商无法代劳,必须自研。 ## 2. 自动驾驶模型迭代,TOPS崇拜已经失效 目前自动驾驶有三条路线,且多数车企同时布局三条路线:分段端到端(参数≤5亿)、VLA(MoE架构参数20-70亿,融合世界模型)、世界模型+扩散动作专家(尚未量产)。 不同路线对芯片需求差异极大,单纯堆TOPS算力的逻辑已经失效,5000TOPS芯片跑DiT架构,性能可能不如300TOPS适配性好的芯片。 决定芯片性能的核心是存储带宽、编排能力、紧耦合分级内存、SFU、可编程向量算力,这些都比TOPS数字更重要。 ## 3. 世界模型的DiT架构,没有现成适配的商用芯片 去年成形的世界模型路线核心是DiT架构,它天然适配时序信息,是自动驾驶、具身智能场景的核心架构。 扩散模型推理流程异常复杂,传统高算力芯片只能处理去噪循环内部的稠密张量矩阵乘法,其余不规则计算、向量编码等环节缺乏支持,对现有芯片设计构成严峻考验。 决心走世界模型路线的车企,若不想等合适的外采芯片,只能选择自研。 ## 4. 存储带宽才是自动驾驶芯片的核心瓶颈 无论哪条技术路线,存储带宽都是越宽越好,VLM的解码阶段耗时占比最高,整体性能完全由存储带宽决定,这也是特斯拉AI4/AI5不惜拓宽存储带宽的原因。 自回归架构解码是内存绑定的,算力再高也无法加速,甚至部分小模型在CPU上跑得比GPU更快。 扩散模型依赖大Batch提高矩阵单元利用率,但Batch增大会推高不规则运算和调度消耗,延迟暴涨;自动驾驶对延迟敏感,Batch通常仅设1-4,导致GPU账面算力很高,实际大量空转。 ## 5. AI加速器分三大流派,路线本质是计算哲学的对撞 ### 大核心:极致效率主义 典型是脉动阵列架构,代表包括谷歌TPU、特斯拉HW3.0、蔚来神玑、小鹏图灵等,谷歌TPU v6单核算力达918TOPS,稠密矩阵乘法能效比压倒性领先。 缺点是对数据形状敏感度极高,非整数倍尺寸需要大量预处理,编译器优化不足时计算利用率可低至1%-10%,优化后也难超过40%,而且不支持非结构化稀疏,软件养人成本极高。 ### 小核心:极致灵活主义 本质是多核CPU,极端代表是特斯拉Dojo(384核心CPU集合体),天然适配任意形状数据,Batch=1也能保持高利用率,原生支持非结构化细粒度稀疏,75%稀疏度下可实现约2.5倍实际加速。 缺点是每个小核都有独立控制逻辑开销,同工艺同算力下,面积成本比脉动阵列高2-5倍,走这条路线的玩家极少。 ### 中核心:平衡主义 以英伟达为代表,矩阵单元做16×16规格,中核Tensor Core负责稠密算力,CUDA小核负责控制流与稀疏计算,在效率、灵活性和生态之间找到平衡,这也是多数车企难以完全脱离英伟达的核心原因。 代表包括英伟达、AMD、华为、理想、Momenta,特斯拉AI5大概率也走这条路线,高通NPU也往这个方向调整。 ## 6. 芯片选型本质是押注未来,没有完美方案 大核心适配高GEMM密度的VLM大模型,但无法适配DiT、扩散模型的低密度非规则计算;小核心适配DiT但性价比太差,商业上难以接受;英伟达中核心虽做到平衡,应对DiT和扩散模型仍力不从心。 车载场景受存储成本限制,很难跑百亿参数以上大模型,中核心加小核心的组合是相对务实的选择。 当前模型范式加速切换,坚持能外采绝不自研的传统车企,正面临越来越大的压力,自动驾驶芯片最难的从来不是造出来,而是今天押中五年后的AI形态。
2026-05-24 12:17

世界模型来了,旧的自动驾驶芯片开始失效

本文来自微信公众号: 汽车之心 ,编辑:汽车之心,作者:周彦武


过去几年,汽车行业有一个越来越明显的变化:车企开始亲自下场造芯片。


特斯拉有FSD已迭代至第五代;蔚来推出神玑NX9031;小鹏自研AI图灵芯片;理想造了马赫M100;比亚迪、吉利、Momenta也被频繁点名。


表面上看,这是一场「去英伟达化」的运动。


但如果只看到这一层,就太浅了。


真正的问题是:自动驾驶模型本身,已经开始变了。


从CNN,到Transformer,再到DiT与世界模型,模型范式在切换,而旧时代的芯片逻辑,未必还能接住下一代自动驾驶。


这才是车企重新造芯片的真正原因。


01


不是省钱,是抢控制权


自研还是外采,表面是商业决策,骨子里是对技术路线的判断。


自研或外采取决于车厂对自动驾驶路线的判断,芯片研发周期比较长。


从完整定义设计目标到芯片上量产车型,中间需要2-4年。海外厂家更长,可能是3-5年。


这意味着芯片厂家在今天落笔,押注的其实是5-8年后的技术走向。


预测错了,要么芯片生命周期大幅缩短,要么干脆没人用。


做汽车数字类芯片,赌性确实很大。


车企自研芯片,某种意义上是在说:我比供应商更清楚自己五年后要跑什么模型。


5纳米甚至3纳米,一次性工程费用加对外采购IP高达数亿人民币。一次性工程费用加IP授权,动辄数亿人民币。


出货量不够,账面上一定是亏的。但这笔钱可以进整体研发成本,还能拉高市值、强化科技品牌。


账算到最后,商业逻辑是通的。


技术门槛方面,随着IP生态成熟、EDA工具链完善,以及索喜这类专门服务车厂定制芯片的中间商涌现,工程难度正在快速下降。


真正难的部分,已经转移到软件栈、编译器和长期模型适配上,这恰恰是芯片供应商最难替你定制的部分。


02


模型变了,


芯片的逻辑也得变


先搞清楚现在的自动驾驶,在跑什么模型。


目前自动驾驶路线有三条。


一是分段端到端,大多数厂家的选择,典型代表是Uni-AD,总参数一般不超过5亿。


二是VLA路线,视觉-语言-行动模型,加扩散动作专家或MLP,融合世界模型提高推理效率,VLA通常是MoE架构,参数一般在20—70亿。


三是世界模型加扩散动作专家,目前还没有量产上车的案例,要等的时间可能比想象中更长。


这三条路线对芯片的需求截然不同。


而且没有哪家厂家只押一条路。


三条线都在做,都在看,没人敢掉队。


这里有一个流传很广的误区:只要TOPS数值够大,就能应对所有模型。


CNN时代确实如此,算力堆上去,性能就上去。但今天是CNN+Transformer的混合时代,明天可能是Transformer+DiT的时代。


5000TOPS的芯片,跑DiT架构,很可能打不过300TOPS的对手。


决定胜负的,是存储带宽、编排能力、紧耦合分级内存、SFU、可编程向量算力。哪一个,都比TOPS数字重要。


TOPS崇拜,正在失效。


世界模型的核心是DiT架构


03


世界模型带来的新麻烦


第三条路线是去年才真正成形的。它的核心架构,叫DiT。


世界模型的典型架构,上图来自论文Fast-WAM:Do World Action Models Need Test-time Future Imagination?


世界模型为什么特殊?


因为DiT对时序信息有天然的亲和力。它不只是个「更好的图像生成器」,而是为视频、动画乃至自动驾驶和具身智能量身打造的架构。


无论联合建模、先想象后执行,还是「训练时建模、推理时直出动作」,无论哪一种世界模型范式,DiT都是核心。


问题在于:市面上根本没有为DiT推理专门设计的芯片。


扩散模型推理流程


扩散模型的推理流程异常复杂。


传统高算力芯片只能应对稠密张量矩阵乘法,也就是去噪循环内部的计算。


其余的不规则计算、向量编码、内存敏感的激活,要么依赖标量CPU,要么靠向量算法,对芯片设计构成严峻考验。


如果一家车企决心沿世界模型路线走,又不想等市场上出现合适的芯片,大概率只有一条路:自研。


04


存储带宽,才是真正的命门


有一个细节值得单独拿出来说。


无论哪条技术路线,存储带宽都是越宽越好。


VLM(视觉语言模型)最为典型——解码阶段是VLM的主要耗时,而解码速度完全由存储带宽决定。


换句话说,VLM的整体性能,本质上是存储带宽的性能。


这也是为什么特斯拉AI4/AI5不惜血本拓宽存储带宽。他们很清楚,真正的瓶颈在哪里。



自回归(AR)架构的解码阶段是内存绑定的。算力再高,也无法加速。系统性能完全取决于存储带宽和调度延迟,这个阶段甚至有些小模型在CPU上跑比GPU还快。


扩散模型则是另一种困境:它高度依赖Batch size(并发批处理数量)。Batch越大,矩阵乘法单元利用率越高。但Batch一大,去噪循环外的不规则运算和调度消耗就会暴涨,整体延迟大幅增加。


对延迟敏感的自动驾驶场景,Batch通常只能设1-4,很少超过8。结果是:GPU账面算力惊人,实际大量空转。


05


大核、中核、小核:


三种计算哲学


自动驾驶芯片的核心是AI加速器。而AI加速器的路线之争,本质上是三种计算哲学的对撞。


按照单个矩阵乘ALU的M×N×K维度,目前分三个流派:大核心、中核心、小核心。


(1)大核心:极致效率主义



大核心的典型是脉动阵列架构。


谷歌TPU v5/v6,256×256,每个核心有65536个MAC阵列。数据只流入一次,沿脉冲向前传,SRAM读取压力远低于小核方案。跑LLM/VLM这种形状高度规整、batch极大的模型,能效比和性价比遥遥领先。



典型代表:谷歌TPU、AWS Trainium、Groq LPU、英特尔Gaudi、特斯拉HW3.0、蔚来神玑、小鹏图灵、芯擎、高通AI100。


TPU v5每阵列频率1.5GHz,单核算力约197TOPS;v6升级为Tile脉动,同频率下单核算力达918TOPS。每条指令驱动65536次MAC,稠密矩阵乘法上的效率压倒性领先。


代价也很明显。大核心更像一条超大型流水线——数据形状足够规整时效率极高,一旦模型结构变得稀疏、动态或非规则,流水线就开始空转。


大核心的缺点也很明显,首先是对数据流形状或者说矩阵形状高度敏感,256*256的阵列要求M\N\K都必须是256的整数倍,如果不是整数倍,就需要tile切分、padding、layout变换、双缓冲、collective。


256×256的阵列要求M/N/K都必须是256的整数倍,稍有偏差就需要大量预处理工序。


编译器做得差,计算利用率低到10%甚至1%不罕见;做得好,也很难超过40%。跑一个百亿参数的模型和一个千万参数的模型,用时可能一样。软


件团队规模是硬件的十倍以上——这条路,养人成本极高,亏损几乎不可避免。


另一个硬伤:


非结构化稀疏完全无效。自动驾驶视觉模型是典型的稀疏模型,而大核心是典型的稠密引擎。


谷歌TPU v6e为此单独增加了稀疏张量核心,但这必然增加软件复杂度和调度时间。


(2)小核心:极致灵活主义


小核心实际就是多核CPU。


小核心的极端代表是特斯拉Dojo——实质上是384核心CPU的集合体,每核有独立分支、循环、PC和本地SRAM。


它的天然优势:对任何形状的数据都能轻松处理。


batch=1也能保持很高的利用率;天然适配decode、MoE expert路由、可变长KV cache;原生支持非结构化细粒度稀疏。


Cerebras的报告显示,75%稀疏度下相对稠密基线可达约2.5倍实际加速——这在大核心架构上根本做不到。


代价同样明显。每个小核都要付出独立取指/译码/寄存器堆/控制逻辑的开销。同样工艺同样算力下,纯小核设计比脉动阵列多付2—5倍面积,也就是同样算力,成本要贵2—5倍。


这个数字,足以让大多数厂家望而却步。所以真正走小核路线的,凤毛麟角。


(3)中核心:平衡主义


英伟达选择了第三条路——既不极致,但也从不死路。


GPU把矩阵单元做在16×16,数量比大核多、远少于CUDA core,一颗H100上中核Tensor Core负责稠密算力、CUDA小核负责控制流和稀疏两套并存。warp调度隐藏shape敏感性,不对齐的部分交给CUDA core补齐。


这正是英伟达真正强的地方,从来不是算力本身,而是在效率、灵活性与生态之间找到了某种平衡。


这也是为什么,即使所有车企都在喊「去英伟达化」,真正完全脱离英伟达的公司依旧极少。


典型代表:英伟达、AMD、华为(910/810/610从一开始就是16×16×16)、理想、Momenta。特斯拉AI5大概率也走中核路线。



高通的NPU是这套逻辑的另一个注脚。


从SA8155的8TOPS到SA8397P/SA8797的80TOPS,矩阵单元数量一直没有变化,标量和矢量线程数量却在持续增加——应对越来越复杂的推理场景,高通选择的是往小核方向加筹码。


06


没有完美的芯片,只有押注


三条路线,各有死穴。


对于VLM这种大模型,GEMM密度很高,矩阵尺寸大,大核心几乎完美,模型越大越完美。


但对于DiT和扩散模型,串行属性明显,某些部分GEMM密度很高,其余都是低密度,更适合小核心。而小核心的性价比,很难让商业决策者满意。


英伟达的中核心,在GEMM和非规则计算之间走钢丝,但应对DiT和扩散模型时,依然有力不从心的地方。


车载场景的特殊性还在于:不大可能跑百亿参数以上的大模型,存储成本撑不住。中核心加小核心的组合,或许是比较务实的应对方式。


小米的玄戒做汽车座舱芯片,技术上没有障碍;吉利、比亚迪、Momenta的自研芯片项目,大概率也在推进中。


唯有传统车厂,依然秉持能外采绝不自研的逻辑。


这无可厚非,只是在模型范式加速切换的当下,这个原则面临越来越大的压力。


自动驾驶芯片真正难的,从来不是把芯片造出来。


而是今天就要押中,五年后AI会长成什么样子。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
频道: 车与出行

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: