扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
谷歌Gemini3发布后,资本市场出现GPU与TPU的"跷跷板"效应,引发对AGI基础设施未来形态的深度讨论。专家认为GPU通用性优势仍在,但Transformer架构可能面临变革,开源生态与能源突破将成关键变量。 ## 1. GPU与TPU的算力之争 - 谷歌Gemini3带动市值涨5000亿,英伟达同期蒸发6000亿,反映专用芯片TPU的崛起 - 沐曦孙国梁强调GPU通用性优势:模型迭代速度按周/月计,ASIC难以应对快速变化 - 华尔街做空或是"砍价策略",GPU与ASIC将长期共存但GPU泛化能力更强 ## 2. Transformer架构的先天缺陷 - 阶跃星辰张祥雨指出:Transformer在8-12万token后出现"智商掉落",因单向信息流机制缺陷 - 未来架构或向"Non-Linear RNN"演进:短窗口Transformer+巨型RNN的混合架构 - 当前模型处于变革前夜,需解决长文本下记忆分层(瞬时/短期/情境/语义记忆)问题 ## 3. 开源模型的生存法则 - 硅基流动胡健类比"安卓对抗iOS":开源是二三线企业的生存策略,DeepSeek引爆市场跟进 - 闭源导致客户依赖巨头,承担更高成本与数据风险,需求端倒逼开源持续存在 - 开源商业模式可能类似安卓,通过广告或服务变现 ## 4. 能源与工程学的双向突破 - AI加速可控核聚变研究:高温超导材料(AI for Science)和等离子体控制(强化学习)是关键 - 中国在工程学"暴力尝试"中具备优势,可能反推基础科学突破 - 万卡集群已成现实,网络架构需覆盖NVLink/InfiniBand等多层次 ## 5. 下一代Agent的技术路径 - 阶跃星辰GELab-Zero实现手机端Agent:小模型蒸馏大模型能力,端云协同RL训练 - 智能进化三阶段:ChatBot(NTP)→Reasoner(RLVR)→Agent(自主学习) - "虚拟具身"(操作手机GUI)是多模态与物理具身间的关键过渡
2025-12-21 15:53

AGI的路上,GPU叙事仍在,Transformer却无法开门

本文来自微信公众号: 腾讯科技 ,作者:值得关注的


谷歌Gemini3发布后,资本市场上演了一场“跷跷板”游戏。


借助年度旗舰模型,谷歌市值一度涨超5000亿美元。另一方面,算力霸主英伟达同期蒸发了6000亿美元。


巨大的“剪刀差”似乎在暗示风向转变:当TPU跑出了Gemini3的惊人效果,甚至Meta也传出要采购TPU的消息时,通用GPU构建的算力护城河是否正在松动?硬件范式是否正在从通用的GPU向专用的ASIC发生“转变”?


腾讯科技2025 Hi Tech Day上,英诺天使基金合伙人王晟将这个问题抛给了沐曦股份、硅基流动和阶跃星辰几位国产模型及基础设施的“卖铲人”,进行了一场AGI关键基础设施“稳态还是变态”的终极拷问。


沐曦股份孙国梁认为GPU的叙事仍在:“华尔街的做空也许只是一种‘砍价方式’。”


在孙国梁看来,GPU和ASIC在几十年前就是“超级稳态”,他强调,当前模型处于高速迭代的阶段,GPU的通用性是它最大的优势。“你很难把一个专用性的产品放在一个通用场景里。”


在被问及“开源、闭源”之争时,硅基流动胡健强调,这是一种“老二、老三”生存法则的博弈。“就像安卓对抗iOS。DeepSeek一出来,市场炸了,大家就都得跟进,这是一种低竞争倒逼的趋势。”


胡健表示,如果模型不开源,智能如果只掌握在少数企业手里,客户不得不依赖这些巨头,并为此承担更高的成本与代价。


而在算法侧,阶跃星辰首席科学家张祥雨抛出了一枚“深水炸弹”:现有的Transformer架构无法支撑下一代Agent。


张祥雨指出,在长文本环境下,模型的“智商”会随着上下文长度的增加而快速下降。对于追求无限上下文的通用Agent而言,Transformer单向的信息流机制存在先天缺陷。阶跃星辰的研究表明,未来架构极有可能向“Non-Linear RNN”(非线性循环神经网络)演进。


嘉宾核心看点:


孙国梁(沐曦股份高级副总裁)


“现在的AI是用工程学在‘反推’基础科学。在数学和脑科学原理突破之前,我们需要靠GPU做大量的工程尝试。”


胡健(硅基流动联合创始人、首席产品官)


“模型不开源,智能只掌握在少数企业手里,客户不得不依赖这些巨头,并为此承担更高的成本与代价。”


张祥雨(阶跃星辰首席科学家)


“今天的Transformer完全支撑不了下一代Agent。真正的挑战不是计算复杂度,而是‘智商掉落’——文本越长,模型越傻。”


以下为圆桌实录,不改变原意的情况下有删减调整


01


万亿市值的拷问——GPU还是TPU?


王晟(英诺天使基金合伙人、北京前沿国际人工智能研究院理事长):我们先聊一个最近很炸裂的事。Google发布Gemini3之后估值涨了5000多亿美元,大家觉得Google又回来了。但与此同时英伟达蒸发了6000多亿。


我想问问国梁,你是做国产GPU最头部的企业。怎么看这件事?硬件范式会不会开始往TPU/NPU这些专用芯片转了?大家是完全竞争还是一种竞合关系?


孙国梁:架构本身没有高低优劣之分,最重要的是看场景。


如果说稳态还是变态,GPU和ASIC(专用芯片)这两种架构在几十年前就是“超级稳态”了。ASIC里还有BPU、APU、VPU、DSP等等,它们在各自领域都有优势。


但在今天,我们处在一个模型高速迭代的阶段。在这个阶段里,GPU的通用性是它最大的优势。你很难把一个专用性的产品放在一个通用场景里,因为它处理不过来。


现在的模型更新太快了,快的话按周计,最迟也是按月计。从我们的视角看,任何一种基模还远远没有到达“收敛”的时间点。在未来相当长的时间内,模型的高速迭代依旧是常态。


还有一个问题是场景的碎片化。客户的应用场景是层出不穷、千奇百怪的。在这种分散的场景里,GPU和ASIC会长期共存,但通用GPU会有更好的泛化适配性。


至于英伟达市值的波动,说实话,这未必不是华尔街一种很好的“砍价方式”。之前华尔街已经做出了选择,把英伟达推向世界第一,就是因为在当前历史阶段,通用性显然还是主流。


02


中间层的“缝合”——模型在收敛吗?


王晟:胡健,你们是做连接的,左边是模型,右边是算力。这会不会导致工作量爆炸?比如要重构算子、编译器、计算图?另外,从客户使用情况看,模型是在发散还是收敛?


胡健:硅基流动现在自己有一个云,跟国内别的AI Infra比较大的区别,是我们可能大量的使用国产芯片,包括像摩尔和沐曦,我们都在大量使用用它来真实的服务客户。


整体来说,模型呈现“二八定律”。虽然新模型每隔一两周就出来一个,但大家的调用非常聚焦,主要集中在DeepSeek、千问、Kimi、GLM等少数模型上。


虽然模型变化快,但模型的结构基本上处于“逐渐稳态”。比如DeepSeek用MLA结构,包括MQA结构,大部分是基于Transformer的变体。这对国产芯片是非常大的利好。


如果场景千变万化,且不是基于Transformer,那会是CUDA的天下,因为它的软件栈填了十几年的坑。但现在结构相对稳定,我们核心要做的就是帮助国产芯片实现与英伟达同规格芯片的“端到端对标”。


这里面70%的工作是相对标准的。比如量化——大家都知道国产芯片以前大部分只做INT8,但是现在DeepSeek都是FP8,所以针对量化这一系列方案是通用的;再比如PD分离、KVCache的共享传输等。


剩下的30%需要针对不同芯片的性能瓶颈做联合优化。比如有的芯片算子弱,有的通信弱,我们就需要做算子融合或通信库优化。总体来看,模型结构趋于收缩,这些优化方案在大规模部署和应用时可复用性很高。


03


算法的“变态”——Transformer一定是通向AGI的最终范式吗?


王晟:祥雨你是算法大师。我想直接请教:Transformer已经注定是通向AGI的最终范式了吗?目前学界还有RetNet、Mamba这些Linear Attention的范式,它们会有价值吗?


张祥雨:先给一个结论:现在的模型架构确实处于趋稳状态,但我们很可能处在一个巨大变革的前夜。


我最新的研究结论是:今天的Transformer并不足以支撑我们走向下一步,尤其是在Agent时代。


先解释前半句。确实,现在的架构基本上都收敛到Transformer。虽然有各种Linear Attention、SparseAttention的小修小补,在效率上做文章,但本质建模能力没有区别。


而且,我们发现了一个巨大的副作用:长文本真正的挑战不是计算复杂度,而是模型的“智商”会随着文本长度变化而快速下降。


对于通用Agent,它面对的应该是一个“无限流”的世界——它是无穷长的,从小到大的所有经历都在Context里。但今天的Transformer,不管号称支持多少Token,我自己测下来基本上到8-12万个Token就不可用了,即使GPT-5可能好一点,但最终都会退化。


这里的本质原因是什么?Transformer的信息流是单向的。


所有的信息只能从第L-1层流向第L层。不管Context多长,模型的深度(L)不会增加,或者仅能小幅增加(对于某些最新的架构变体)。


大家想象一下,人类的记忆是有极强的压缩机制的。我今天讲的每一句话,都是我历史上见过所有信息的函数。这个复杂的函数,不可能通过一个恒定层数的神经网络来表示。


王晟:我理解你的意思。这个成果你们研究出来了吗?


张祥雨:我们现在是在一些小规模实验得到非常积极的结论。未来的架构,它应该是一个短窗口的Transformer(建模short-term memory)叠加一个巨大的RNN(循环神经网络,用来建模episodic memory),而且是“Non-Linear RNN”(非线性RNN)。当然,这对系统效率和并行度是巨大挑战,需要软硬件协同设计(Co-design)。


04


物理瓶颈——被AI加速的“可控核聚变”与万卡集群


主持人/王晟:张祥雨刚才的分享太有冲击性了,回头我还要消化。我们时间有限,我就特别简单说一下能源的问题,因为我们投了星环聚能。


在过去扔了氢弹之后,大家就开始探索搞“可控核聚变”。这事儿搞了80多年了,以前一直说“离成功永远还有50年”,但就在这两三年,情况发生了大逆转。特别乐观的人说还要10-15年,客观一点的说20年。


这事儿是怎么发生的?这跟AI的关系非常大。


今天托卡马克装置面临最大的两个问题:


第一是怎么获得巨大的磁场来约束等离子体。这要靠材料,这就涉及到AI for Science——大家都很乐观,觉得未来过几年高温超导、常温超导通过AI就搞出来了,这能解决大问题。


第二是等离子体的控制。里面上亿度、好几亿度,外面无穷多的线圈怎么控制它?这是一个“黑箱”,你切不开来看。过去写程序太复杂了,现在AI来了,通过模拟强化学习大家突然觉得这事儿行了。


如果不解决能源,整个人类文明都会受限。这太吸引人了。


我们讨论了芯片,现在我想讨论一下网络。


我想听一听大家实际训模型、跑模型的网络——不是实验室Demo,是实际出成果的——都已经跑到多大的规模了?


另外,英伟达的网络层次蛮多,NVLink、NVLink Switch、InfiniBand很多层次都布局了。我想知道我们现在自主构建的网络覆盖了哪些层级?


孙国梁:我认为AIInfra最大的挑战是要看清产品到底是什么。客户的需求是一个能够做大规模模型训练、推理、服务的通用性算力,而不是一张卡。


我们在全国各地也有数千卡的集群。无论是传统模型、MoE模型还是非Transformer架构的模型,我们都训练过。


另外我想补充一下能源。如果真的到用能源去解决算力问题的时候,中国有巨大优势。


核心原因是:今天我们的模型属于工程学。工程学的来源是数学推理,数学的来源是生理学和脑科学。但在基础脑科学和生物学研发上,人类还没有取得那么大的突破。所以我们在数学上没有突破,在工程学上只是在“暴力尝试”。


反而是现在我们在工程学上的很多尝试,会“反推”基础科学的演进。这是一个循环。我认为未来国产算力、基础能源和开源模型,好戏还在后头。


05


开源与闭源的终极博弈


王晟:我们下一个问题给到胡健——开源和闭源的问题,因为我理解硅流上的很多都是开源的模型,现在美国巨头都闭源了,中国企业担起了开源的责任。未来开源能和闭源竞争吗?会不会担心最强的模型都是闭源的,导致你们的业务空间被挤压?


胡健:现在回答这个问题比较容易了,因为之前我们刚出来的时候和一堆投资人会问这个问题。


我们刚创业时也面临这个问题。我们坚定两点:开源肯定会起来,推理会是主流。


开源与闭源核心看两点:


第一是竞争格局。往往是处于第二、第三梯队的企业,为了不被头部完全抢占市场份额,必须开源。开源后会有更多人跟你玩,就能逆转形势。就像安卓对抗iOS。DeepSeek一出来,市场炸了,大家就都得跟进,这是一种低竞争倒逼的趋势。


第二是需求。智能如果只掌握在少数企业手里,企业客户为此会承担更高的成本与代价。企业有自己独特的数据,不敢交给闭源模型,因为有隐私和壁垒问题。为了数据可控、成本更低,需求端会倒逼开源持续存在。


就像安卓最终形成了自己的商业模式一样,开源模型未来也会有类似广告或服务的商业模式。


06


手机上的AGI——从推理到自主学习


王晟:祥雨,阶跃刚刚发布了一个针对安卓手机的Agent:GELab-Zero。这是测试成分更多,还是真的能在手机产业落地?


张祥雨(阶跃星辰):为什么在这个时间我们要做GELab-Zero这样的一个工作,是因为它是智能发展的必经之路。


我看智能发展有两条轴,横轴乘以纵轴的面积,就是智能化水平:


横轴是“智能进化”:


第一代是ChatBot,背后的算法是NTP(Next Token Prediction);


第二代是Reasoner,背后的算法是RLVR(Verifiable Reward强化学习);


第三代Agent是什么?现在大家不知道。我自己擅作主张补上,它背后的算法原理应该是“自主学习与在线学习”。


我刚刚说的Transformer架构必然会有一次大的革新,指的是在这条横轴上,我们正在走向下一代的路上。当然模型架构革新也只是一小块,它属于分层记忆机制建模的一部分。除此之外,自主学习和在线学习还需要解决如何进行环境探索、如何利用环境反馈、如何在线更新模型参数的问题。


纵轴是“模态”:从语言、语音,到视觉多模态,再到最困难的具身智能。


在具身和多模态之间,夹着一个“虚拟世界的具身”——就是像人一样操作手机GUI。这比物理具身简单,但比纯文本复杂。


我们要在这方面走出一步。GELab-Zero的技术路径非常有特色:它是一个小模型,蒸馏了更大的视觉、语言模型的能力,通过搭建强化学习环境,赋予它在手机APP里探索的能力。


更关键的是,我们采用了“端云结合”的能力:在必要时发出请求调用云端模型,并且这两个模型是协同训练(Co-training)的,通过RL Trajectory共同形成梯度反传。这是一个非常重要的技术创新点。


07


“老CV人”的反击——颠覆Diffusion


王晟:再问个问题,刚才那轮问题的延续。我看到你的老战友何恺明最近也频频出手,最近发了两个很重要的论文,一个是JiT(Just image Transformer),他觉得采用去噪的方法不太对,直接一把可能就预测图像的结果了。还有一个是iMF(Improved MeanFlow)。它能够变得比Diffusion更好吗?


张祥雨:对,不过这些工作也是在Diffusion框架上打补丁,并未真正“颠覆”Diffusion。恺明最近频频在生成模型基础方向发力,原因很简单:Diffusion这一套在“老CV人”的眼里,是最不MakeSense的。它从一个分布出发,加噪再去噪,这个过程没有任何的语义,并且已经有很多工作展示了在diffusion过程中引入语义对齐可以取得显著的提升,这更说明了原始的diffusion框架是有问题的。


我解释一下为什么要这样做。


深度学习最喜欢的一个词叫“端到端”——从已知分布直接用一个深层神经网络一步达到结果。但在很长一段时间里,模型的“单步推理能力”是不够的。


这就像在语言模型里,单步推理不够深,所以我们要引入CoT(思维链)。你可以认为视觉生成里的“加噪去噪”,它的每一个Step就是一个CoT。


但是!这个CoT跟语言的CoT不一样,它不符合人类理解和形成图像的过程。我们叫它“Bad CoT Pattern”——因为它没有语义。


不过,虽然听上去不太合理,在“类Diffusion”框架下目前还没有太好的去掉加噪-去噪过程的实践。其他的框架,例如基于自回归的图像生成,也同样有缺少语义和单步推理能力受限的问题。


所以目前的研究趋势,一方面是如何给Diffusion等框架引入更丰富的语义,例如刚刚提到的Semantic Alignment,又或者是生成理解一体化训练,都属于这个范畴。另一方面就是尽可能把框架做得更简单、更为端到端,尽量减少人工引入的非语义的元素,恺明组最近的工作大都集中在这一块。


此外,也有人尝试直接提升模型的单步推理能力,例如把loop transformer等latent reasoning工具引入图像生成中,等等。


王晟:我们再拉回到你做的这个非常重要的工作,为什么不能是Memory被外挂,因为你说很多的上下文太长导致模型输出不利,我们为什么不能有一个模型专门去抽取,把Memory抽取更好的专用模型,再给到大模型。


张祥雨:当然是可以的,像您说的在草稿纸上人类也会做这件事,这属于外存。但是我们现在最主要的还是要建模智能体的内存,因为记忆是人类智能的核心组件之一。


人脑的记忆机制是一个非常复杂的,而且分层的记忆机制,从已实现的短到长,比如最短的叫做感知记忆,也叫瞬时记忆;而稍微长一些、大概持续数秒的叫做短期记忆,也可以叫工作记忆。


其中瞬时和短时的记忆,它的很多特性,比如无损性,比如说全连接的特性,今天transformer的上下文机制已经可以建模的很好了。


真正棘手的是长期记忆的建模,我们现在主流的架构还做得不是很好,一个叫Episodic Memory(情境记忆),你会发现大量的论文都在做这一块,它和fast weight update机制密切相关。还有一个叫做Semantic Memory(语义记忆),这个和slow weight update机制有关,这一块用模型参数本身可以建模,它的难度在于怎么Update。


王晟:我记得谷歌刚发了一篇论文,不断地Update模型参数。


张祥雨:对,它那个是走向Online Learning非常必要的。


王晟:今天的讨论特别符合我们“稳态还是变态”的议题。


我发现每一家头部企业都有坚实的基本盘,但同时都在敞开胸怀拥抱变化。Transformer可能不是终局,GPU还在进化,而能源(比如我们投资的可控核聚变)和工程的挑战才刚刚开始。这一波AGI可能刚刚起步,真正的蝴蝶效应,还在后头。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: