正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-12-04 21:52

苹果采用亚马逊芯片,一个去英伟达化的信号?

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,原文标题:《亚马逊将推出40万卡集群,苹果采用Trainium2,一个去英伟达GPU信号》,题图来自:AI生成

文章摘要
苹果与亚马逊合作探索AI芯片,挑战英伟达。

• 🚀 亚马逊推出Trainium2芯片,目标替代英伟达GPU。

• 🍏 苹果与AWS合作,用Trainium2优化AI模型。

• 🤝 AWS与Anthropic合作,打造40万卡集群挑战英伟达。

亚马逊宣布推出了未来可能替代英伟达GPU的AI芯片。AWS的Trainium2芯片,将用来构建一个40万卡的集群,训练下一代Claude模型,而且苹果宣布会使用它来训练和部署Apple Intelligence。


正在拉斯维加斯举行的re:Invent大会上,AWS推出的Trn2服务器(16片Trainium2)提供20.8 Pflops性能,可训练数十亿参数模型,试图媲美英伟达和AMD的GPU。Trn2 UltraServers(64片Trainium2)高峰时提供83.2 Pflops算力,完全可以用来训练和部署最大的模型,包括语言、多模态和视觉模型。


AWS还宣布了下一代AI芯片Trainium3的计划。预计将比Trainium2提升2倍的性能,改善40%的能效,3纳米制程,将于2025年底推出。


目前,亚马逊基于Trainium1和Inferentia2的实例,在生成式AI前沿模型训练或推理方面还不太具有竞争力,这是由于硬件规格较弱以及软件集成较弱所致。但随着Trainium2的发布,亚马逊已经做出了重大的调整,正在芯片、系统和软件编译器/框架层面向英伟达产品看齐,提供有竞争力的定制硅芯片解决方案。


苹果公司也非同寻常地对外介绍了它与云服务商之间的合作细节,并且表达出积极合作构建AI的意愿。苹果已经使用AWS服务超过十年,用于Siri、Apple Maps和Apple Music。苹果还一直使用亚马逊的Inferentia和Graviton芯片来支持搜索服务。苹果方面称,亚马逊的这些芯片带来了40%的效率提升。


苹果最近还将用Trainium2进行其自有模型的预训练。苹果对它的初步评估显示,预训练效率提升了50%。苹果在决定开发Apple Intelligence之后,马上就找到了AWS,寻求AI基础设施的支持。苹果也使用过谷歌云的TPU服务器。


苹果正在引领着个人AI的应用方向,即把AI模型向端侧部署,主要用本地化的计算为用户提供定制化与个人化的AI服务,注重保护用户的隐私。


所以,对于苹果来说,最重要的不是用十万张卡去训练大模型,而是用AI更好地服务其20多亿设备用户,即在iPhone、iPad、Mac等设备上,用自研芯片提供本地算力,只有那些较复杂的计算任务才上云端。苹果还需要云服务商能配合它进行隐私计算。


Apple Intelligence有自己的步调,它先推出内容提炼、起草邮件、生成表情包等最基本的功能,很快会集成OpenAI的大模型服务,明年会加强Siri功能,因为智能体技术的加持,它更像个能办事的助理,调动手机App完成用户吩咐的任务。


而且AWS正在与Anthropic合作,打造40万Trainium2卡级的算力集群,用来训练下一代的Claude大模型。这个项目名称为Project Rainer,将为Anthropic提供的算力5倍于训练现有模型的Eflops。亚马逊对Anthropic最新的40亿美元投资,实际上将用于这个40万卡集群,目前还没有其他主要客户。


马斯克的xAI已经建好了10万H100算力集群,而且放也豪言要再买30万张B200;扎克伯格正在用一个超过10万H100的集群加班加点地训练Llama4,更不用说微软/OpenAI等,10万H100已经成为参与军备竞赛的起步价。



但Trainium算力集群真的要挑战英伟达GPU,还要付出更多努力。据半导体咨询机构semianalysis分析,40万颗Trainium2的原始浮点运算性能仍少于10万GB200集群。这意味着由于阿姆达尔定律的限制,Anthropic仍将很难与竞争对手10万卡GB200集群匹敌。在40万颗Trainium2和EFA上执行集合通信将非常困难,因此Anthropic需要在异步训练方面进行一些重大创新。


*作者注:EFA代表Elastic Fabric Adapter,是AWS提供的一种高性能网络接口技术,主要用于支持高性能计算(HPC)和机器学习工作负载。


三大云巨头AWS、微软Azure和谷歌云,目前数据中心芯片主要来自英伟达、AMD和英特尔。同时,它们也在积极探索自己研制芯片,会带来成本及定制化服务等方面的好处,既用于通用计算负载,也用于加速计算,如大模型的训练和推理。AWS称,通过Trainium,Anthropic的大模型Claude Haiku 3.5,速度比其他芯片提升了60%。


随着生成式AI日益进入大规模应用阶段,企业将会寻找更加适合具体应用、为客户定制化、价格更亲民、更具能效的芯片和算力解决方案。


2025年我们会看到一个趋势,更多的算力会部署到推理侧进行强化学习,以及AI的大规模应用,这些都对芯片、服务器、工具、架构、服务等提出新的定制化要求,从而为云服务商的硅技术和初创芯片企业带来新的机会。


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: