2026-06-25 13:45

OpenAI首颗自研芯片“辣椒”问世:9个月光速成功背后,英伟达最怕的事正在发生

author_path 第一新声 icon_path
头图

本文来自微信公众号: 第一新声 ,作者:第一新声


就在刚刚,OpenAI史上第一颗芯片诞生了。


名字相当火辣,叫Jalapeño——“墨西哥辣椒”。它不是GPU,不是TPU,而是OpenAI定义的第一颗“Intelligence Processor”(智能处理器),专为大模型推理设计。从一张白纸到流片,整个过程只花了九个月。OpenAI管这叫“史上最快的高性能先进半导体ASIC开发周期”。


更有趣的是,帮他们加速设计的,正是OpenAI自己家的模型。自己造的AI,造出了自己要跑的芯片。


这颗“辣椒”,由博通总裁兼CEO陈福阳亲手交到奥特曼手上。OpenAI在官宣中表示,这标志着其“为自家模型和产品构建全栈”战略的重要一步。合作不止博通一家:OpenAI出脑子——从零设计芯片架构;博通出手艺——负责芯片实现、网络和大规模量产;Celestica管板卡、机架和系统组装。整体来看,OpenAI这次是真的打算把整条产业链都捏在自己手里了。


以前它只干两件事:训练最强的模型,再用模型做产品。现在它往基础设施底部又挖了一层——芯片架构、内核、内存系统、网络、调度、部署系统,全自己来。用OpenAI的话讲,这叫“全栈”。而这个飞轮一旦转起来,智能就越来越强、越来越稳、越来越便宜。


01


九个月流片,凭什么是“史上最快”?


造芯片这件事,传统上动辄耗时数年。


Google TPU早期迭代周期通常18个月起步;亚马逊Trainium从第一代到第二代用了差不多两年;Apple M系列从立项到流片,24到36个月是常态。而OpenAI把这一周期压缩到了九个月。怎么做到的?


第一,靠软硬件深度协同开发。OpenAI的工程师团队和博通的造芯团队“贴在一起干”,实现了前所未有的紧密协作。这不是传统的“设计完再交给代工厂”的线性流程,而是两边从第一天起就同步推进。


第二,OpenAI自家的AI模型直接参与了芯片的设计和优化过程。芯片设计中最磨人的环节是什么?不是“想方案”,而是无数次的设计—验证—改—再验证循环。一颗先进芯片的验证要跑成千上万次,占掉整个周期的大半时间。AI恰恰擅长干这种事——读历史设计数据、生成RTL代码、辅助验证和debug、优化布局布线。OpenAI能用九个月流片,靠的是AI替人扛掉了那“18到24个月”里最磨人的一大块。


第三,Jalapeño不是拿旧芯片改造出来的。它是围绕OpenAI最了解的内核、内存传输、网络和服务模式进行定向优化的“空白画布”设计。负责OpenAI硬件项目的Richard Ho,正是从谷歌TPU团队走出来的——他曾任谷歌TPU高级工程总监近九年,参与发明了机器学习设计芯片架构的方法。OpenAI挖来他,正是为了将“AI辅助芯片设计”嫁接到自家模型上。



当然,九个月这个数字需要审慎看待。行业没有公开的“最快”标准,但九个月确实远超常规节奏。这要么说明OpenAI在芯片设计上早已有暗中布局,要么说明“AI辅助设计”带来的效率提升比外界想象的更激进。无论如何,这个速度本身已经是一个信号:AI正在重新定义芯片行业的时间表。


02


OpenAI的减法策略:


专攻推理,不碰训练


Jalapeño最值得注意的特点,不是它有多强,而是它不做什么。


首先,官网新闻里完全没有提“训练”两个字,半个字都没有。也就是说,OpenAI短期内的训练负载仍要依赖英伟达或其他厂商的硬件。Jalapeño解决的是“如何部署训练好的模型”这个问题,不解决“如何训练出模型”的问题。而后者才是更烧钱、技术壁垒也更高的核心环节。


因此,这是一套减法策略:不是直接替代英伟达,而是先夺走英伟达在推理领域的市场份额。


为什么要这么做?逻辑并不复杂。训练和推理,是AI算力消耗的两个阶段。训练是造模型——把海量数据喂下去,让它学会某种能力。推理是用模型——每次用户发出一个问题,ChatGPT给出一个回答,背后就是一次推理请求。训练是一次性成本,推理是持续性成本。GPT-4训了一次,但每天要回答亿级用户的问题,每一次对话都是一次推理请求。规模化部署之后,推理的累积消耗远超训练。


而推理的瓶颈不是计算,是内存带宽。当用户发出问题,芯片需要把整个模型的权重从内存里“搬”到计算单元里,然后才能生成回答。这个“搬”的过程,才是推理延迟的真正来源。英伟达的GPU用的是外接高带宽内存,搬运这一步不可避免地引入延迟。Jalapeño的架构设计就是围绕这个痛点展开的:减少数据移动,平衡计算、内存和网络资源,让实际利用率无限逼近理论峰值。


博通CEO陈福阳甚至放了一组数字:Jalapeño相比典型的AI GPU,能带来约50%的成本节省。这意味着什么?意味着同样一次ChatGPT回答,OpenAI的算力成本直接砍半。对于每年算力支出百亿美元级别的OpenAI来说,这不是小数目。


目前,Jalapeño仅用于推理,训练仍需依赖英伟达。这条路落地可行性更高,但天花板也更低——毕竟训练芯片才是利润最丰厚的部分。但反过来看,如果推理成本真的降下来,受益的不只是Pro用户。学生、小企业、独立开发者,都可能用上今天只有大客户才跑得起的AI能力。


03


全栈闭环:


英伟达最怕的事,正在发生


Jalapeño真正的故事,不在芯片本身,而在芯片背后的战略意图。


英伟达眼睁睁地看着大客户们一个接一个地自研芯片。2016年,谷歌发布了TPU。2018年,亚马逊发布了Inferentia。2023年,微软亮相了Azure Maia加速器。2026年6月,OpenAI发布了Jalapeño。同月,Anthropic也在考虑自研芯片。英伟达的超级客户清单,正在变成一份竞争对手名单。


为什么所有人都要自研?原因很简单:当算力成为核心生产资料,没有人愿意把命脉完全交给英伟达。


对OpenAI来说,自研芯片是实现“全栈控制”的最后一环。OpenAI总裁Greg Brockman说得很直白:“世界正在向算力驱动的经济转型。通过自主设计更多技术栈,我们可以更高效地提供更强大的智能服务。”


这意味着什么?意味着OpenAI正在重新定义自己和微软的关系。过去,OpenAI极度依赖微软Azure的算力供给。现在,Jalapeño部署之后,推理可以用自己的芯片,训练用英伟达,微软在算力供给端的重要性会明显下降。OpenAI在说:“我们能自己提供推理算力了。”


而这还不是终点。OpenAI已经制定了多代芯片路线图,下一代预计2028年推出,之后每年迭代一次。目标是到2029年,定制芯片能提供10GW的算力——相当于十座核反应堆的输出量。博通CEO陈福阳也表示,这只是“多代路线图的开端”,从2026年开始与微软和其他合作伙伴一起部署吉瓦级数据中心。


自研芯片这条路并不好走。苹果花了10年、烧了几十亿美元,才让M系列在性能上摸到Intel的位置,再花5年甩开。OpenAI想用更短的时间做更激进的事情。他们最大的优势是:AI工作负载是他们自己的领域,他们比博通更了解内核架构,比英伟达更熟悉服务模式。这条“以软件定义硬件”的路径,正是苹果用iPhone团队定义芯片、进而重塑MacBook发展路线的镜像。


九个月,自称最快。性能功耗比,“远超”但没数据。推理专用,训练继续依赖英伟达。这颗“辣椒”到底够不够辣,要等年底部署之后才知道。但有一点已经确定:AI推理基础设施的控制权,正在被争夺。而这个飞轮一旦转起来,就有点停不下来的意思了。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。