中国AI，或许正在重演丰田逆袭底特律的剧本-虎嗅网

本文来自微信公众号：未尽研究，作者：Azhar&Petrovic

一群美国AI业者，他们在中国实地走访了一周，穿梭于北京、杭州和上海，拜访了14家AI与机器人实验室，亲眼目睹了那里的运作方式。期间，他们参与了数十小时的讨论，与来自基础设施、硬件、模型和应用各个层面的研究员、创始人、产品负责人等深入交流。

他们参访的企业，包括深度求索(DeepSeek)、月之暗面(MoonshotAI)、稀宇科技(MiniMax)、智谱(Z.ai)、字节跳动、零一万物(01.AI)、阿里巴巴、蚂蚁集团、小米、创新奇智(AInnovation)、银河通用(Galbot)、宇树科技(Unitree)、魔搭社区(ModelScope)和RWKV。

他们迫切地想搞清楚，到底出口管制给中国与全球AI竞争带来了什么。中国的AI算力储备，要比美国落后两到三年，目前可部署规模仅为美国的1/8，但是模型能力却仅落后6到8个月。什么细节被遗漏了？毕竟Anthropic又开始渲染出口管制的重要性，可能让美国的智能水平保持对中国12-24个月的领先，而且可能不断扩大。

他们看到，受限于算力规模，中国实验室不得不追求更极致的效率。期间，中国整个开源生态建立起了“反馈循环”，将其他实验室验证有效的技术融入自己的模型。这使得中国实验室从每单位算力中榨取的智能，是原始的扩展定律的预期值的4至7倍。

来自美国的参访者在魔搭社区的合影。其中，本文作者Azeem Azhar，为博客ExponentialView创办者，世界经济论坛（WEF）复杂风险全球未来理事会联席主席；共同作者Hannah Petrovic，为博客ExponentialView研究员。与作者同行的还包括Interconnected资本创始人Kevin Xu，他曾于奥巴马政府时期在商务部任职；艾伦AI研究所研究员Nathan Lamber与PrimeIntellect研究工程师Florian Brand，他们都是博客Interconnects创作者；以及博客Concurrent作者Afra Wang、博客JasmiNews作者Jasmine Sun、博客UnderstandingAI记者Kai Williams、播客ChinaTalk研究员与编辑Lily Ottinger，他们也为主流媒体撰稿；以及此次活动的组织者也是同名博客作者Caithrin。

作者们在中国想起了AI领域的“丰田生产方式”（TPS）。当年，钢材极其昂贵，资本也极度稀缺丰田在别无选择，做到了底特律无法匹敌的成本结构，同时一步步提升产品质量，最终赚得盆满钵满。

他们真的想写一部类似当年调查日本汽车工业的名著《改变世界的机器》吗？似乎不是，他们想借此说明美国对中国的出口管制政策是无效的，这类似于黄仁勋的观点。

《未尽研究》应邀翻译并发布此文。以下是正文全文，原标题为《走进中国AI实验室：美国对华AI管制如何造就其最强对手》，略有删节。

算力差距：美国领先

在与每个中国实验室的每次会面中，我们都听到一个共同的声音：我们没有足够的算力。更少的算力，意味着更少的实验和更小的模型。这是对AI研究、开发和部署的真实制约。

这并不奇怪。美国的研究人员也在抱怨。企业界也是如此。比如微软和Anthropic就已明确表示，算力不足，让它们损失了可观的收入。

但中国的算力限制是不同的。这不仅仅是资金的问题——2025年中国AI初创公司筹集了124亿美元，而美国则高达2850亿美元。真正的问题在于，由前美国总统拜登于2022年10月发起、随后被特朗普在不同时期放松和收紧的芯片出口管制，几乎切断了先进芯片对中国市场的供应。令我们感兴趣的是，中国的本土实验室如何应对。

我们先退一步，看看算力差距的大背景。

美国实验室大肆宣扬获得了海量算力。最近几周乃至几个月，仅Anthropic一家就签署了总计超过10GW（吉瓦）的容量协议，合作方包括亚马逊、谷歌、微软、英伟达和SpaceX；OpenAI去年9月承诺部署10GW基于英伟达芯片的算力，后者曾计划出资1000亿美元。

这些算力订单，指向了最新、最强大的芯片。目前正在出货的英伟达Blackwell系列（B200、B300、BG200），以及今年晚些时候推出的下一代Vera Rubin平台；另外，谷歌TPU及其他芯片的出货量也在增长。这些订单根本不在中国超大规模云厂商（hyperscalers）和实验室的选择范围之内。

起决定性作用的正是这些顶级的美国芯片，尤其是最新几代产品。单个GB300 NVL72机架（由72颗英伟达最新GPU作为一个系统运行）提供比三年前同等H100集群快30倍的实时推理速度，每颗芯片的内存多出3.6倍，每次推理的能耗降低25倍。美国实验室如今正以GW为单位订购这类系统。中国的实验室却无法做到。

中国科技公司，特别是华为，在制造适用于AI的芯片方面取得了长足进步。但即便是华为最新款，于今年3月推出的昇腾（Ascend）950PR也大致与2022年发布的H100相当，并且出货量要小得多。据估计，仅截至2025年10月，英伟达就已出货700万颗Hopper和Blackwell架构的GPU，且出货速度还在加快。华为计划今年出货75万颗昇腾950PR芯片，这仍约是英伟达去年出货量的十分之一。

结果，美国在已部署的AI算力容量方面，拥有惊人的领先优势。而且，这种领先优势正在扩大，而非缩小。2023年，美国AI行业的可部署算力是中国三倍，几乎全都集中于训练AI模型。到今年年初，这一差距已接近八倍。换句话说，到2025年底，中国实验室可获取的算力规模，大致相当于美国两年前的水平。

要注意算力使用方式的区别。2023年，美国大部分算力都用于训练，而非服务客户。相比之下，到2025年，中国的算力体系借助马来西亚和新加坡的数据中心得到增强，承担着双重任务，既支持模型训练，也通过微信、豆包等应用，为数亿消费者以及快速增长的企业群体提供服务。

将用于训练AI模型的算力，与用于服务客户的算力区分开来，相当重要。中国拥有庞大的AI市场。仅豆包一款应用就拥有1亿日活跃用户，token消耗量巨大。我们估计，到2026年2月，中国的月度token用量已达到约9000万亿（编者按，即日均300万亿，这高于国家数据局公布的今年3月突破140万亿的口径），相比之下，欧美主要供应商的月度token用量约为4000万亿。

算上在马来西亚和新加坡的数据中心，中国算力基础设施的很大一部分，正在主要以推理的形式服务客户。如果一半的算力用于推理，就会减少可用于训练模型的算力。我们可以粗略推测，到2025年底，中国实验室可用于模型训练的算力，与美国实验室2023年中期的水平相当。

按照这个逻辑，如果两国的实验室采用相同的方法，即用更多算力和更多数据来构建更好的模型（原文注，即Chinchilla扩展定律，指在给定算力预算下，通过平衡模型参数量和训练数据量来达到最优性能），那么中国实验室的模型性能，应该至少落后美国两年。该框架将模型能力视为算力的函数，并假定训练效率大致恒定不变。

但我们并没有看到两到三年的差距。根据DeepSeek的说法，中国模型在基准性能上落后美国三到六个月；而根据美国政府机构CAISI（美国AI标准与创新中心）的数据，落后八个月。

事实上，中国的实验室似乎正在跟上，甚至在某些方面可能正在缩小与美国实验室的差距。我们随之产生的问题是，到底是关于能力差距的说法错了，还是有某种未能捕捉到的因素在缩小差距？

还要额外注意，中美之间存在着不同的市场结构。在美国，OpenAI、Anthropic、Google DeepMind、Meta和xAI等五家主要的前沿实验室主导着训练算力；而在中国，则是百花齐放。

甚至更多大型企业也加入进来，有的是因为拥有特定数据和专业知识，比如蚂蚁集团（Ant Financial）推出了Ling系列模型，以外卖配送闻名的公司美团（Meituan）也在自研大模型。如此多的公司训练自有模型的结果是算力池被进一步瓜分。

效率护城河的反击

这些实验室显然在训练高性能模型方面找到了效率路径。这一效率也传递到了模型的推理环节。也就是说，当它们被用于服务客户时，它们比大致相当的美国模型要便宜得多。

不应过分看重AI基准测试。它们可以被刻意刷分，也可能无法轻易反映模型的实际“手感”或工作表现。但它们是一个不完美的参考点。DeepSeek的旗舰模型V4-Pro在某些方面可与Claude的Opus--4.6相媲美。虽然，Opus-4.6于2026年2月发布，并非Anthropic的最新模型，但成本方面，差距显而易见。DeepSeek每百万输入token费用为0.43美元，每百万输出token费用为0.87美元，相比之下，Opus-4.6的输入成本高出11倍，输出成本高出28倍。

这些并非一次性的促销活动。纵观中国前沿模型，月之暗面的Kimi-K2.6输入价格为0.95美元，是在GPQA Diamond基准测试成绩全球前十中，最便宜的模型之一；阿里巴巴的通义千问（Qwen）系列模型，定价也在类似区间。推理服务的成本，取决于三个因素：服务模型的实际开销、其计算复杂度和能源成本，以及服务商愿意让渡的利润率。

而且，这些企业的利润率，看起来相当健康。智谱的GLM-5模型的服务价格是1.00美元/每百万token输入，比Claude-Sonnet-4.6便宜3倍；输出便宜5倍。即便如此，它仍号称拥有50%的毛利率；MiniMax的企业利润率在70%，不过，我们不知道这是否全面适用。DeepSeek则多年来仅靠内部资金运营，本月才开始寻求外部资本。

最后，这种效率体现在端侧上，笔记本电脑和手机等消费硬件可以便捷地运行它们。全球领先的本地模型几乎都是中国开源模型，它们被积极地蒸馏（distillation）成更小、更轻量的变体。一个5GB的Qwen3-8B模型可以在我的Mac上运行；DeepSeek-R1的7B蒸馏变体也是如此，它在Ollama上的下载量已达8500万次，是全球下载量第二的本地模型。Cursor甚至基于Kimi-K2.5，构建了其Composer-2模型。我们本地运行的唯一美国开源模型是谷歌的Gemma-4。

它们是如何做到的？

我们与各实验室的深入对话，揭示了实现这种持续效率的三个关键特征。

首先是生态本身。在实验室内部，人们用“卷”（juǎn）来形容这个生态。“卷”字面意思是“向内卷曲”，它指代一种激烈到让人拼命奔跑才能留在原地的军备竞赛。这是一种收益递减的自我强化式竞争。实验室之间竞争异常激烈。在产业政策主动鼓励城市间竞争的体制下，超越上海或杭州，甚至比追赶旧金山或国王十字区（DeepMind伦敦总部所在地——译者注）更重要。

这种竞争催生了一种文化，要求长时间、努力付出才能获得成果。许多情况下，关键研究由正在攻读学位的博士生主导。在上海，有工程师带我们去泡吧，凌晨1点离开后又回去工作。在另一个实验室，这次与我们同行的Lily Ottinger，偶然发现了为不回家的研究人员准备的露营床。这可不是写在员工手册里的东西。

中国的生态仍然相当开放。他们中的多数，仍然定期发表论文，开源模型，并且随着研究人员在实验室之间流动，技术诀窍得以水平扩散。

这一开源反馈循环的最清晰例证，就是多头潜在注意力（MLA）。DeepSeek于2024年5月在V2模型中引入了该技术，以压缩注意力缓存，将内存使用量降低了93%以上，同时提升了模型质量。大约一年内，这项技术就进入了月之暗面的Kimi-K2、智谱的GLM-5、蚂蚁集团的Ling-2.5，以及此后DeepSeek的每一款模型中。小米的MiMo-V2-Pro模型则是另一个绝佳例证。它直接采用了DeepSeek在2024年首创并开源共享、随后被行业广泛采纳的两项效率技术。

在这种开放的文化氛围中，体量庞大的字节跳动是最大的例外。因为它拥有无与伦比的资金、算力和分发规模。事实上，在与我们交流时，字节跳动显然就是那头“800磅的大猩猩”。大家提起它时的语气非常微妙，那是一种夹杂着窃窃私语、羡慕与担忧的复杂情绪。

我们的接待方带我们逐一梳理了几乎每一项正在重塑前沿AI的重大架构创新：DAPO（解耦裁剪和动态采样策略优化）、MLA、GRPO（组相对策略优化）、混合专家（MoE）优化等。每一项都是为了从更紧张的算力预算中，榨取更多能力的技术。有一家实验室甚至立下规矩，只有能带来20%或以上效率提升的架构改动才会被采纳，而那些只能带来10%或更低提升的实验，一律直接放弃。

在架构层面，MLA将注意力缓存压缩93%，意味着每次对话占用的GPU内存，大约仅为原先的十分之一。这种极致节俭，意味着单颗芯片可以并行处理多得多的对话。类似地，DeepSeek-V4-Flash使用了一种混合FP4和FP8的量化技术（原文注，FP4指的是每个模型权重仅以4bit存储，而非通常的16或32bit，这实现了4到8倍的内存缩减，但问题在于它会压缩数据，导致模型精度下降。DeepSeek通过在不同层混合使用FP4和FP8来解决这个问题，这就是为什么推理所需的计算量下降却没有明显的质量损失）。与上一代相比，V4-Flash不仅在基准测试中的得分更高，还将上下文窗口扩展到原长度的8倍，而推理时仅消耗10%的内存和27%的浮点运算次数（FLOPs）。

这一切真的产生实际影响了吗？今天，我们可以给出肯定的答案。为了量化这种影响，我们引入了一个“效率乘数（efficiency multiplier）”。这是我们专门设计的一项计算指标，用来对比模型的实际能力与在同等算力限制下“本该达到”的水平，从而衡量它们到底强出了多少。

我们发现，中国实验室每单位算力提取出的智能，是原始扩展定律预期下的4至7倍。换算成节省的时间？这相当于2到3年的效率收益。

AI经济的未来形态

AI算力工作负载的形态正在发生变化。训练在减少，而推理在大幅增加。我们正从开发阶段迈向部署阶段。当然，开发并不会就此终结，各大实验室依然会继续训练出能力越来越强的模型。但在未来，训练能力和推理能力将变得同等重要，尤其是推理能力，其地位会愈发凸显。

我们在交流中得出的一个结论是：随着行业过渡到这个新阶段，我们在中国实验室里观察到的那些文化、技术和管理上的独特优势，很可能会让他们在这一波浪潮中受益匪浅。

用得起的智能体

这种转变的规模已经清晰可见。在今年三月的GTC大会上，黄仁勋表示，短短两年内算力需求已经暴涨了一百万倍，而Agentic AI即将引发新一轮的指数级飞跃。到了这种量级，成本和效率将变得至关重要。

随着我们迈向智能体，我们看到每用户的token使用量，出现了几个数量级的巨大增长。智能体会变得更可靠，这种增长将会持续。未来几年，推理需求的增长可能以十亿倍来衡量。

这是我们的估算模型(编者按，原文含超链接https://ev-token-model.netlify.app/)。

在个人层面，我已将我最新的智能体切换到MiMo-V2.5-Pro，正是因为其token成本只是Claude的一小部分。由于我的智能体每日token用量已膨胀至超过1亿，这带来了显著的成本差异。在智能体运行的规模上，即使很小的成本差异，也会累积成不可忽视的预算差距。

走向边缘

未来几年，越来越多的AI将在边缘端被消费。也就是说，AI会直接运行在那些最需要智能的地方。想想看，无论是机器人、自动驾驶汽车，还是你家里的智能设备，甚至是你手中的手机，都将搭载AI。小米目前已经坐拥一个由7.5亿台设备组成的庞大生态帝国，从智能温控器到智能汽车，这些设备正开始将AI深度融入我们的日常生活。

显然，你不可能把那种体量庞大的前沿大模型直接塞进边缘设备里跑。如今，顶尖大模型的性能，想要实现在开源、开放权重模型上，通常需要6到8个月的时间。而在此之后，还需要大约6到12个月，通过模型蒸馏等技术把它们“瘦身”到足够小，才能最终运行在笔记本电脑、手机等消费级设备上。

目前，大部分能实现这一点的都是中国的开源模型，比如Qwen、DeepSeek和MiMo。这些为稀缺算力环境而生的模型，天生就契合这种新兴的应用场景。而且，这些边缘设备未来很可能就是各种机器人。中国的企业其实已经率先行动起来了。比如银河通用的人形机器人，正在仓库和专门用途的药房中自主运行。

价格合宜

就连Uber这样财大气粗的美国公司，也开始对AI的运行成本变得敏感起来。Uber的首席技术官Praveen Neppalli Naga透露，由于公司内部的5000名工程师对Claude上瘾，他们竟然在4月就把2026年全年的AI预算给花光了。如今，首席财务官们（CFO）对按token计费的账单越来越敏感，毕竟,“无限透支”绝不是一个可行的选项。

放眼国际，这带来了一个巨大的机遇。比如智谱的第三大市场就是印度尼西亚，而这是一个对价格极其敏感的市场。MiniMax也有超过70%的收入来自中国境外。在美国和西欧之外，还有数百万家企业和数亿消费者，在这些广阔的市场里，价格最终可能会成为决定胜负的关键因素。

从护城河到体系

我带着倾听和学习的心态前往中国。早在五年前，我就曾提出过一个观点：

……美国极不可能阻止中国发展半导体产业……而这可能会导致两个截然不同的技术生态系统应运而生。

当然，那是在ChatGPT出现之前。如今的情况既有相似之处，又有所不同。虽然中国的半导体自主性正在不断提高，但在技术栈的更上层，一场相关的“分叉”也正在通过三种方式逐渐显现。

第一，效率护城河

中国的AI实验室可能正在构建一条极具竞争力的护城河。这是一条围绕效率原则设计的护城河。坚固的护城河能经得起时间考验。我们推测，这样一条效率的护城河，可以使他们以远低于竞争对手的成本，持续训练出有竞争力的模型，然后以低得多的单位token成本对外提供服务。

正是这种极致的简约原则，打造出了既精简又具备强大竞争力的模型。

这能带来长期的优势吗？很有可能：只要市场朝着在异构基础设施上进行更多推理的方向发展，并且客户群体也变得更加多样化。

第二，一种新的管理理论正在浮现

我们或许正在见证一种全新的AI实验室管理理论的诞生。我能想到的最佳类比，就是由大野耐一（Taiichi Ohno）设计的“丰田生产方式”（TPS）。和如今的中国AI实验室一样，当年的丰田也别无选择，只能用一种与众不同的方式来打造产品。那时的钢材极其昂贵，资本也极度稀缺，丰田可以说是在囊中羞涩的困境中起步的。但凭借TPS，日本车企实现了底特律无法匹敌的成本结构，同时还一步步提升了产品质量。即便后来日本车企赚得盆满钵满，它们仍然牢牢地握紧了这种效率和成本优势。

类似的过程，可能正在中国的AI实验室中浮现。一家实验室根本无法让所有的三条工作线同时满负荷运转。相反，它必须把宝贵的算力分配给在当下那个时刻、最能将其转化为实际产出的团队。而这种对资源分配的严格纪律，最终沉淀为真正的核心能力。反观美国的前沿AI实验室，由于它们拥有近乎无限量供应的英伟达芯片，这种“倒逼”它们进行极致效率优化的“强制函数”，在它们那里还远未到来。

我不想过度引申这个类比。中国正在发生的事情，在很多方面并不完全等同于丰田生产方式（TPS），也没那么成熟。但我们绝不能忽视其背后的结构性影响。如果“推理”是下一个价值爆发点，而如果某种路径恰好能带来高效得多的推理能力，那么（美国的）出口管制政策，实际上就起到了与初衷完全相反的效果。

第三，这是不同的生态系统

在动身前往中国之前，我一直迫切地想找到那种泾渭分明的硬件分界线。也就是美国绑定英伟达，中国则越来越锁定华为。但现实情况远比这要复杂，也更有意思。整个生态系统，无论是硬件、构建模型的文化、内部能力、招聘的重点，还是决策的方式，都让人感觉截然不同。

目前，英伟达依然是中国算力市场的首选。但这种局面正在发生改变，而且随着工作重心从“模型训练”逐渐向“推理”倾斜，再加上中国本土芯片的不断成熟，这种转变还会进一步加速。但比起硬件问题，更值得关注的其实是这里的文化和人才关系正在如何演变。毕竟，正是文化塑造了过去五十年的硅谷。而中国的AI生态系统也正在走出属于自己的路，它绝不仅仅是硅谷的一个“慢速版”或“受限版”的复制品。

来自中国顶层的关注

在我们此行期间，《求是》杂志联合中国工信部下属的产业政策智库赛迪研究院（CCID），共同发布了一份报告（编者按，即《抢占智能时代制高点：我国人工智能产业发展调查》）。这为我们提供了一个极佳的参照，让我们得以一窥北京方面希望其各级官员、科研人员以及行业领军企业，在人工智能（AI）领域究竟该秉持怎样的信念。

报告指出，中国已经不再处于“追赶”阶段。如今，中国已迈入“第一梯队”，在某些领域处于领先地位，而在另一些领域则仍有差距。报告明确认可，通过开源、国产算力、高质量数据以及快速的产业落地，来构建一套新型国家生产体系的发展路径。

报告承认出口管制所带来的损害，称“算力饥饿”正迫使国内团队不得不放慢开发速度。为了缓解这一问题，报告建议“算力商、模型商、行业用户深度耦合”。我们在实地走访中，也看到了一些证据，许多实验室正在协助华为设计下一代昇腾（Ascend）芯片。

弹性效应

出口管制的初衷，是想通过切断高端算力的供应，把中国阻挡在前沿AI的大门之外。不可否认，这些管制确实造成了严重的冲击。但恰恰是这些限制，反而催生出了围绕“极致效率”而构建的全新能力。

我们走访的这些实验室，培养出了一种“复利式研究”的文化。它们心态开放，只挑选真正有效的技术路线，并且为了契合未来的发展方向，正在进行着毫不松懈的极致优化。

很难说，如果有一天GPU的供应像拧开水龙头一样突然变得源源不断，它们是否会放弃这些做法。当然，它们很可能会充分利用这种新增的算力，但我敢打赌，它们绝不会丢掉那些让自己保持至今竞争力的独特特质。

参考链接：

https://www.exponentialview.co/p/inside-chinese-ai-labs-efficiency-moat?utm_campaign=email-post&r=3mcb3&utm_source=substack&utm_medium=email

https://www.anthropic.com/research/2028-ai-leadership

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

中国AI，或许正在重演丰田逆袭底特律的剧本