扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),作者:范津瑞,题图来自:AI生成
据路透社报道,OpenAI正在与博通(Broadcom)合作开发其首款定制AI推理芯片,旨在处理其大规模的AI工作负载,特别是推理任务。
为此,OpenAI已经组建了一支约20人的研发团队,包括曾参与谷歌Tensor处理器项目的首席工程师在内。
消息称博通将会帮助OpenAI进行芯片设计,并确保由台积电(TSMC)进行制造,预计2026年开始生产。
为了实现芯片供应的多元化,OpenAI此前计划建立芯片制作代工厂。但由于成本高昂,并且构建代工厂网络需要大量时间,OpenAI已经搁置了这一计划,转而专注于内部芯片设计。
OpenAI这一通过“定制芯片设计来管理成本和访问AI服务器硬件”的战略意味着其走上了Meta和Google等科技公司的老路,而后者作为OpenAI的竞争对手,已经经历了几代人的努力。
并且,市面上不乏成熟且广泛部署应用的AI芯片,如Google推出的“TPU”、微软的“Maia 100”等等。
也就是说,OpenAI需要更多的资金才能弥补这些差距,登上牌桌。
微软推出的AI芯片“Maia 100”(图源:techmonitor)
除了满足不断增长的基础设施需求,减少训练和运行成本以外,“减少对英伟达(NVIDIA)的依赖”也是OpenAI的“小算盘”之一。
OpenAI的CEO奥特曼(Altman)指出,之所以要“获得更多芯片”,是因为两个问题:为OpenAI软件提供动力的先进处理器的短缺,以及为其工作和产品提供动力的硬件运行所需的“令人眼花缭乱”的成本。
他还曾公开抱怨市场资源匮乏,而NVIDIA主导并控制着最适合运行AI应用的芯片全球80%以上的市场。
作为英伟达图形处理单元(GPU)的最大买家之一,OpenAI此前几乎完全依赖NVIDIA GPU进行训练。2020年以来,OpenAI在微软建造的大型超级计算机上开发了其生成式人工智能技术,这台计算机使用了10000个NVIDIA GPU。
NVIDIA H100 GPU(图源:NVIDIA)
但由于芯片短缺和供应延迟,以及训练成本高昂的问题,OpenAI不得不开始探索替代方案。他们计划通过微软的Azure云平台使用AMD芯片进行模型训练。
值得一提的是,AMD在去年推出了MI300 AI芯片,致使其数据中心业务在一年内翻了一番。种种迹象表明,AMD正在追赶市场领导者NVIDIA。
AMD MI300芯片(图源:AMD)
此外,消息人士称OpenAI仍在决定是否为其芯片设计开发或收购其他元件,并可能会聘请更多合作伙伴。
尽管“不惜一切代价构建AGI(通用人工智能)”的OpenAI和号称“下一个英伟达”的博通之间的合作很可能引起英伟达的不满,但OpenAI表示“希望与仍致力于合作的芯片制造商保持良好的关系,特别是在使用其新一代Blackwell芯片方面”。
对此,英伟达暂时不予置评。
唯一的回应是市场。合作消息一出,博通的股价应声大涨,AMD也延续了早盘涨幅。