扫码打开虎嗅APP
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,题图来自:AI生成
最早赏识DeepSeek的巨头,可能就是英伟达了。在ChatGPT尚未诞生的2022年春天,幻方AI(High-Flyer AI,相当于DeepSeek的前身)就受邀在黄仁勋的GTC舞台上演讲,一连请了三年。
被DeepSeek“伤”得最深的巨头,恐怕也就是英伟达了。不说推理模型R1一夜砸掉了英伟达6000亿美元市值,在DeepSeek的论文里,这家几乎垄断了全球AI算力供应的芯片巨头,也是被“抱怨”和“建议”的对象。如果不从头到尾改一遍,老黄家的算力还是太贵了,并非他吆喝的“买得越多,省得越多”。
去年底至今,DeepSeek的基础模型V3与推理模型R1,以其高性价比优势震惊了美国硅谷、华尔街与华盛顿,也激活了国内AI生态的国产替代。EpochAI连续写了两篇文章分析DeepSeek如何改进transformer及其训练,称从事后来看一切都如此“显而易见”,但绝不意味着一开始想出这些点子是件容易的事。
在V3发布前,DeepSeek的创新是如何开始的?回顾DeepSeek及其前身幻方AI从2022年至2024年的三场GTC演讲,可以看到它跟随、复现前沿技术,以及通过工程优化极致压榨算力成本的痕迹,这是中国最擅长的创新;也看到逐步追逐硬核创新,并将其尽可能地开源出来,这又迥异于以往多数中国企业。DeepSeek创始人梁文锋相信,只要有了一堆事实和过程,硬核创新会成为中国新的群体性想法。
极限压榨A100算力
2022年3月,离OpenAI正式发布ChatGPT还有大半年时间,离DeepSeek正式成立还有1年多。作为英伟达AI芯片的早期万卡大客户,第一批规模采购A100芯片的亚太公司,幻方AI的黄盼盼(时任幻方AI的CEO)与张毅超(时任幻方AI的CTO)受邀在英伟达GTC的“金融AI”论坛上,做了主题为“分时调度AI算力”的演讲。
此前,幻方只是被视为在金融量化投资的垂直领域内部用到了AI工具。就在不到一年前的世界人工智能大会(WAIC)上,幻方还在台上讲述“如何用深度学习为股票定价”。
但幻方AI这次的演讲一点都不“金融范儿”。内容非常硬核,讲的是如何构建(当时的)超大规模智算集群,及最大程度地从中榨取算力。
尽管“萤火二号”拥有万张A100,但算力永远都是稀缺资源。当时,萤火平台面向50多个国内外高校实验室及科研机构提供算力;幻方团队自己还要时不时用它验证与复现行业的前沿研究,包括但不限于transfomer注意力机制算法优化、Alphafold蛋白结构预测、BEVFormer自动驾驶感知等。“缺卡而抢卡”的确时常发生。别忘了,OpenAI对齐团队就曾因为20%算力承诺无法兑现而纷纷出走。
如果按照当时业内的传统模式,那么幻方AI砸了10亿元建成的“萤火二号”,总体使用率就到不了50%。大量算力资源因此闲置浪费。当时A100还未被禁,幻方AI第一时间想到的不是“暴力美学”——GPU Rich的一种路径依赖,而是工程优化与“低成本创新”。团队设想,将计算资源集中起来,在时间维度上进行切分,根据任务优先级弹性调度。这样可以将集群使用率提升至95%以上,相当于多压榨出1倍以上的算力。
(来源:幻方AI。算力的分配以任务为单位,而不是用户。用户提交算力申请后,由集群调度系统统一分配资源,减少算力闲置)
但是,这就要重写算力基础设施的系统架构,存储、网络、计算都要底层优化。这里的关键之一,就是通过减少内存与通信的开销,来提升算力的利用率。
部分硅谷同行认为这是“错误的演示”。因为,研究人员的时间是有机会成本的,如果他们把时间花在微优化上,去充分释放有限的性能,就意味着他们没法做其他事情。但科技博客Stratechery则批评称,在财富涌入的这二十年里,硅谷失去了优化基础设施的原动力,习惯了资本密集型的生产模式。
资本密集体现为争压GPU的“军备竞赛”,以及对能源无节制的使用。全球数据中心最密集的北弗吉尼亚,当地最大的公共事业公司道明尼能源(Dominion Energy)签订的合同,从去年年中的21吉瓦倍增至年底的40吉瓦,1吉瓦能为75万户美国家庭供电。过去两年,美国用于电力系统的变压器(transformer)的交货期一直在延长,平均从约50周延至120周。
中国与美国不同,体量更大,任何技术在中国得以规模落地,都将面临更庞大的系统性的成本,任何浪费都将在规模面前被放大数倍,所以,甚至连英伟达最先进的GPU被拿到中国来用,都有对其效率进行精益的空间。就连Mistral AI也认为DeepSeek与其“非常相似”,DeepSeek的成功可以为法国和欧洲提供一个超越的机会。
在2022年的GTC上,幻方AI演示了如图所示的智算集群系统架构。在硬件之上,最底层的就是分布式并行文件系统3FS(Fire-Flyer File System),可以用很少的CPU和内存资源获得超高的读取带宽,从而无需在训练过程中等待加载数据,更充分地利用GPU的计算性能。这就要对数据存储服务与高速交换机等进行硬件设计与软件实现层面的创新。
(来源:幻方AI。从下至上分为幻方AI基础设施、幻方AI平台、幻方AI框架与深度学习训练)
事实上,DeepSeek的软硬件创新,至少可以追溯到2019年幻方AI成立之初。当时,幻方AI还自研了网络拓扑通讯方案hfreduce,高性能训练数据格式FFRecord,以及深度学习算子库hfai.nn。其中,自研算子都是幻方招揽的一大批NOI/ACM(信息学与程序设计相关国际竞赛)金牌选手攒起来的。幻方AI还研发了haiprof,这是一个能帮用户分析模型性能瓶颈的工具。
在真正开始入局前沿大模型竞争前,幻方AI已经默默地把这些技术整合到一起,捏成了一个弹性、高效、低成本的智算基础设施。
对H800下手
2023年,幻方AI第二次在GTC上介绍了这个基于A100的智算基础设施及其技术进展。当时演讲者为幻方AI首席架构师何莺。那一年,黄仁勋在GTC上宣布为中国市场研发了缩水版的H800。几个月后,DeepSeek成立,开始用H800搭建下一代智算集群。
对于大型语言模型(LLM)训练而言,A100集群似乎只是DeepSeek的早期练手之作。从去年8月DeepSeek发布的“幻方AI-HPC”论文来看,“萤火二号”设计的出发点,可能并不是为了超大参数规模的大型语言模型设计的。
这篇论文集大成地回顾了萤火二号是如何基于PCIe A100,搭建出了第一个“软硬件协同设计”“对性能、成本和能耗的精妙平衡”的智算集群。论文解释自己为什么选择PCIe版本的A100,而非更强大的SXM版本,就是看中了前者在性价比上的优势,差不多以50%成本获得了超过80%的性能。
(来源:DeepSeek论文"Fire-Flyer AI-HPC")
起初,该团队因为成本因素与潜在缺陷,没有采纳英伟达NvLink的通信方案。但随着大型语言模型训练规模的不断上升,团队不得不加入了NvLink,但结果就是后者故障占比达到了42.57%。不过,还是比其他研究者披露的52.42%要稍好一点。
或许就是为了填上这些坑,后来的V3模型的论文,特地强调了对于内存读写和网络框架及驱动的工程优化,甚至动了PTX,一度被误解为已经绕过了英伟达的CUDA壁垒。
无问芯穹联合创始人戴国浩后来拿到DeepSeek的V3论文,惊异地发现,它花了最多的篇幅去介绍系统架构,比预训练与后训练还多。他认为DeepSeek的低成本优势,一是了解硬件细节,实现极致的底层优化;二是打通软件硬件,实现联合协同优化。
DeepSeek取得的震惊外界的成绩,基本上都是基于H800智算集群。H800是英伟达向美国政府芯片出口管制妥协的产物,计算能力与最先进的H100相当,但带宽较低。DeepSeek恰好此前在A100上做了很多减少内存与带宽开销的尝试。
DeepSeek-MOE论文中声称用到了A100与H800,V2论文明确提到其训练基于H800智算集群。V2是V3与R1训练与推理成本大幅下降的关键技术起点,推理成本被降到当时Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,这让硅谷也惊呆了。美国知名半导体和AI咨询公司semianalysis认为,DeepSeek能在碾压其他所有竞争对手的推理经济性的同时实现盈利。
然后事情就发生了变化。在短短半个月内,全世界至少1亿用户已经自己体验过了:DeepSeek用十分之一到二十分之一的成本,对外提供媲美OpenAI-o1的推理服务;所有美国巨头迅速把V3/R1的开源模型整合到自己的业务生态中,动作比中国同行还快。
DeepSeek对整个大模型行业的贡献,不仅是最大程度地开源了模型本身。它还基于自己在训练V3时所做的系统架构的优化——包括高效的跨节点的通信内核,以及在FP8精度下的训练、存储和通信等——针对性地向硬件厂商提出了具体而明确的建议。
(来源:DeepSeek论文"DeepSeek-V3 Technical Report")
DeepSeek发现,当前的通信实现依赖于昂贵的SM(流式多处理器),而且限制计算吞吐量,这会导致效率显著低下;算力硬件也需要更高的FP8 GEMM(通用矩阵乘法)累积精度等。
英伟达要想证明扩展定律在预训练、后训练与测试时阶段都能扩展,也许可以从DeepSeek的论文中找到一点灵感。中国的AI生态也正在抓紧DeepSeek创造的这次机会。国产芯片紧紧围绕DeepSeek模型做适配,如果后续AI应用加速规模落地,“芯片-模型-应用”的国产替代生态将获得更可持续的商业化空间。
不如再重温一遍梁文锋的“技术理想主义”。英伟达的领先,不只是一家公司努力的结果,而是整个欧美技术社区和产业共同努力的结果。“他们能看到下一代的技术趋势,手里有路线图。”他在一次采访中说,中国AI的发展同样需要这样的生态,“很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息。”
所以,DeepSeek站出来了,站在了技术的前沿。
开源模型,谁用,谁对齐
2024年是DeepSeek真正参与大型语言模型训练竞赛的关键一年,这一年迅速实现了基础模型从V1到V2再到V3的大版本更迭。在那一年的英伟达GTC上,团队成员陈德里首次以幻方AI兼DeepSeek研究员的新身份首次亮相,开始聚焦于如何训练一个价值观对齐解耦化的大模型。开源具备更大的优势。
以往的大模型,价值观是固定于模型参数之中的,但社会人群是多样化的。OpenAI、Anthropic与xAI也无法摆脱这种矛盾束缚。马斯克指责竞争对手的大模型被设计成极端偏向某种政治正确,并认为让它极力追求真相才是最关键的。“追求真相,就可能对人类的演化和发展也抱有兴趣,而不是想要抹除我们”。但这也是一种刻印于大模型底层的价值灌输。
欧美机构正在拿着放大镜审查DeepSeek的开源模型,认为推理模型R1在故意诱导下,比GPT-4o、o1和Claude-3-Opus更容易生成有害、有偏见和不安全的内容,包括人口刻板印象与职场偏见。他们似乎没有认真听听,DeepSeek在去年初是怎么设计的。
为了克服大模型价值观对齐中“沉默的大多数”问题,DeepSeek提出了“价值观对齐解耦化”的方法,在演讲中,团队用了一个很中国的词汇去翻译这个专业术语,“和而不同”。即,DeepSeek将整体价值观对齐,解耦拆分为不可变的核心价值观对齐与可变的多元化价值观定制。其中,核心价值观会在训练中被严格保证,而多元化价值观则谁用谁对齐。就像开源模型,谁托管,谁运营,谁来负责用户隐私与数据安全。
不过,DeepSeek也承认,“价值观对齐解耦化”并不容易,交互逻辑、数据构建、模型训练、服务部署,都对大模型研发带来了新的挑战。
为此,DeepSeek构建了一个跨学科的专家团队,对不同社会背景人群的价值观的公约数进行了分类学研究。他们公开招聘历史、文化等领域的数据人才,安排专门的数据采集工程师等协助,以拓展大模型的能力与价值观边界。
近期,DeepSeek刚与其他16家中国企业一道签署了《人工智能安全承诺》,尽管这是一个中国国内的倡议,但卡内基国际和平基金会(CEIP)将其对比“首尔承诺”,认为两者极为相似,对中国大模型安全持乐观态度。
EpochAI认为DeepSeek的创新还将继续。DeepSeek目前的创新,并非依靠蛮力去穷尽可能性,而是在基于对transformer与系统架构缺陷的真正理解之上的精心设计。该机构猜测,DeepSeek下一个最有可能的优化,在于让模型在回答较难的问题时多花点算力,在较易时则少花一点。
从幻方AI到DeepSeek,差不多用了5年;从DeepSeek-LLM到V3,只用了不到一年。最近,Uber创始人卡兰尼克回忆十年前与滴滴一战,震惊于中国科技公司复制的速度与效率。随着跟随距离越来越短,最终后来者无法继续模仿,就转向了创新。如今,Uber在全球很多服务,都是从中国复制来的。
现在,轮到OpenAI与Anthrpoic们了。它们并不开源。用梁文锋的话说,“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究