2026-06-25 13:45

OpenAI首颗自研芯片“辣椒”问世：9个月光速成功背后，英伟达最怕的事正在发生

速览

本文来自微信公众号：第一新声，作者：第一新声

就在刚刚，OpenAI史上第一颗芯片诞生了。

名字相当火辣，叫Jalapeño——“墨西哥辣椒”。它不是GPU，不是TPU，而是OpenAI定义的第一颗“Intelligence Processor”（智能处理器），专为大模型推理设计。从一张白纸到流片，整个过程只花了九个月。OpenAI管这叫“史上最快的高性能先进半导体ASIC开发周期”。

更有趣的是，帮他们加速设计的，正是OpenAI自己家的模型。自己造的AI，造出了自己要跑的芯片。

这颗“辣椒”，由博通总裁兼CEO陈福阳亲手交到奥特曼手上。OpenAI在官宣中表示，这标志着其“为自家模型和产品构建全栈”战略的重要一步。合作不止博通一家：OpenAI出脑子——从零设计芯片架构；博通出手艺——负责芯片实现、网络和大规模量产；Celestica管板卡、机架和系统组装。整体来看，OpenAI这次是真的打算把整条产业链都捏在自己手里了。

以前它只干两件事：训练最强的模型，再用模型做产品。现在它往基础设施底部又挖了一层——芯片架构、内核、内存系统、网络、调度、部署系统，全自己来。用OpenAI的话讲，这叫“全栈”。而这个飞轮一旦转起来，智能就越来越强、越来越稳、越来越便宜。

01 九个月流片，凭什么是“史上最快”？

造芯片这件事，传统上动辄耗时数年。

Google TPU早期迭代周期通常18个月起步；亚马逊Trainium从第一代到第二代用了差不多两年；Apple M系列从立项到流片，24到36个月是常态。而OpenAI把这一周期压缩到了九个月。怎么做到的？

第一，靠软硬件深度协同开发。OpenAI的工程师团队和博通的造芯团队“贴在一起干”，实现了前所未有的紧密协作。这不是传统的“设计完再交给代工厂”的线性流程，而是两边从第一天起就同步推进。

第二，OpenAI自家的AI模型直接参与了芯片的设计和优化过程。芯片设计中最磨人的环节是什么？不是“想方案”，而是无数次的设计—验证—改—再验证循环。一颗先进芯片的验证要跑成千上万次，占掉整个周期的大半时间。AI恰恰擅长干这种事——读历史设计数据、生成RTL代码、辅助验证和debug、优化布局布线。OpenAI能用九个月流片，靠的是AI替人扛掉了那“18到24个月”里最磨人的一大块。

第三，Jalapeño不是拿旧芯片改造出来的。它是围绕OpenAI最了解的内核、内存传输、网络和服务模式进行定向优化的“空白画布”设计。负责OpenAI硬件项目的Richard Ho，正是从谷歌TPU团队走出来的——他曾任谷歌TPU高级工程总监近九年，参与发明了机器学习设计芯片架构的方法。OpenAI挖来他，正是为了将“AI辅助芯片设计”嫁接到自家模型上。

当然，九个月这个数字需要审慎看待。行业没有公开的“最快”标准，但九个月确实远超常规节奏。这要么说明OpenAI在芯片设计上早已有暗中布局，要么说明“AI辅助设计”带来的效率提升比外界想象的更激进。无论如何，这个速度本身已经是一个信号：AI正在重新定义芯片行业的时间表。

02 OpenAI的减法策略：

专攻推理，不碰训练

Jalapeño最值得注意的特点，不是它有多强，而是它不做什么。

首先，官网新闻里完全没有提“训练”两个字，半个字都没有。也就是说，OpenAI短期内的训练负载仍要依赖英伟达或其他厂商的硬件。Jalapeño解决的是“如何部署训练好的模型”这个问题，不解决“如何训练出模型”的问题。而后者才是更烧钱、技术壁垒也更高的核心环节。

因此，这是一套减法策略：不是直接替代英伟达，而是先夺走英伟达在推理领域的市场份额。

为什么要这么做？逻辑并不复杂。训练和推理，是AI算力消耗的两个阶段。训练是造模型——把海量数据喂下去，让它学会某种能力。推理是用模型——每次用户发出一个问题，ChatGPT给出一个回答，背后就是一次推理请求。训练是一次性成本，推理是持续性成本。GPT-4训了一次，但每天要回答亿级用户的问题，每一次对话都是一次推理请求。规模化部署之后，推理的累积消耗远超训练。

而推理的瓶颈不是计算，是内存带宽。当用户发出问题，芯片需要把整个模型的权重从内存里“搬”到计算单元里，然后才能生成回答。这个“搬”的过程，才是推理延迟的真正来源。英伟达的GPU用的是外接高带宽内存，搬运这一步不可避免地引入延迟。Jalapeño的架构设计就是围绕这个痛点展开的：减少数据移动，平衡计算、内存和网络资源，让实际利用率无限逼近理论峰值。

博通CEO陈福阳甚至放了一组数字：Jalapeño相比典型的AI GPU，能带来约50%的成本节省。这意味着什么？意味着同样一次ChatGPT回答，OpenAI的算力成本直接砍半。对于每年算力支出百亿美元级别的OpenAI来说，这不是小数目。

目前，Jalapeño仅用于推理，训练仍需依赖英伟达。这条路落地可行性更高，但天花板也更低——毕竟训练芯片才是利润最丰厚的部分。但反过来看，如果推理成本真的降下来，受益的不只是Pro用户。学生、小企业、独立开发者，都可能用上今天只有大客户才跑得起的AI能力。

03 全栈闭环：

英伟达最怕的事，正在发生

Jalapeño真正的故事，不在芯片本身，而在芯片背后的战略意图。

英伟达眼睁睁地看着大客户们一个接一个地自研芯片。2016年，谷歌发布了TPU。2018年，亚马逊发布了Inferentia。2023年，微软亮相了Azure Maia加速器。2026年6月，OpenAI发布了Jalapeño。同月，Anthropic也在考虑自研芯片。英伟达的超级客户清单，正在变成一份竞争对手名单。

为什么所有人都要自研？原因很简单：当算力成为核心生产资料，没有人愿意把命脉完全交给英伟达。

对OpenAI来说，自研芯片是实现“全栈控制”的最后一环。OpenAI总裁Greg Brockman说得很直白：“世界正在向算力驱动的经济转型。通过自主设计更多技术栈，我们可以更高效地提供更强大的智能服务。”

这意味着什么？意味着OpenAI正在重新定义自己和微软的关系。过去，OpenAI极度依赖微软Azure的算力供给。现在，Jalapeño部署之后，推理可以用自己的芯片，训练用英伟达，微软在算力供给端的重要性会明显下降。OpenAI在说：“我们能自己提供推理算力了。”

而这还不是终点。OpenAI已经制定了多代芯片路线图，下一代预计2028年推出，之后每年迭代一次。目标是到2029年，定制芯片能提供10GW的算力——相当于十座核反应堆的输出量。博通CEO陈福阳也表示，这只是“多代路线图的开端”，从2026年开始与微软和其他合作伙伴一起部署吉瓦级数据中心。

自研芯片这条路并不好走。苹果花了10年、烧了几十亿美元，才让M系列在性能上摸到Intel的位置，再花5年甩开。OpenAI想用更短的时间做更激进的事情。他们最大的优势是：AI工作负载是他们自己的领域，他们比博通更了解内核架构，比英伟达更熟悉服务模式。这条“以软件定义硬件”的路径，正是苹果用iPhone团队定义芯片、进而重塑MacBook发展路线的镜像。

九个月，自称最快。性能功耗比，“远超”但没数据。推理专用，训练继续依赖英伟达。这颗“辣椒”到底够不够辣，要等年底部署之后才知道。但有一点已经确定：AI推理基础设施的控制权，正在被争夺。而这个飞轮一旦转起来，就有点停不下来的意思了。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技