2025-12-21 15:53

AGI的路上，GPU叙事仍在，Transformer却无法开门

腾讯科技

本文来自微信公众号：腾讯科技，作者：值得关注的

谷歌Gemini3发布后，资本市场上演了一场“跷跷板”游戏。

借助年度旗舰模型，谷歌市值一度涨超5000亿美元。另一方面，算力霸主英伟达同期蒸发了6000亿美元。

巨大的“剪刀差”似乎在暗示风向转变：当TPU跑出了Gemini3的惊人效果，甚至Meta也传出要采购TPU的消息时，通用GPU构建的算力护城河是否正在松动？硬件范式是否正在从通用的GPU向专用的ASIC发生“转变”？

腾讯科技2025 Hi Tech Day上，英诺天使基金合伙人王晟将这个问题抛给了沐曦股份、硅基流动和阶跃星辰几位国产模型及基础设施的“卖铲人”，进行了一场AGI关键基础设施“稳态还是变态”的终极拷问。

沐曦股份孙国梁认为GPU的叙事仍在：“华尔街的做空也许只是一种‘砍价方式’。”

在孙国梁看来，GPU和ASIC在几十年前就是“超级稳态”，他强调，当前模型处于高速迭代的阶段，GPU的通用性是它最大的优势。“你很难把一个专用性的产品放在一个通用场景里。”

在被问及“开源、闭源”之争时，硅基流动胡健强调，这是一种“老二、老三”生存法则的博弈。“就像安卓对抗iOS。DeepSeek一出来，市场炸了，大家就都得跟进，这是一种低竞争倒逼的趋势。”

胡健表示，如果模型不开源，智能如果只掌握在少数企业手里，客户不得不依赖这些巨头，并为此承担更高的成本与代价。

而在算法侧，阶跃星辰首席科学家张祥雨抛出了一枚“深水炸弹”：现有的Transformer架构无法支撑下一代Agent。

张祥雨指出，在长文本环境下，模型的“智商”会随着上下文长度的增加而快速下降。对于追求无限上下文的通用Agent而言，Transformer单向的信息流机制存在先天缺陷。阶跃星辰的研究表明，未来架构极有可能向“Non-Linear RNN”（非线性循环神经网络）演进。

嘉宾核心看点：

孙国梁（沐曦股份高级副总裁）

“现在的AI是用工程学在‘反推’基础科学。在数学和脑科学原理突破之前，我们需要靠GPU做大量的工程尝试。”

胡健（硅基流动联合创始人、首席产品官）

“模型不开源，智能只掌握在少数企业手里，客户不得不依赖这些巨头，并为此承担更高的成本与代价。”

张祥雨（阶跃星辰首席科学家）

“今天的Transformer完全支撑不了下一代Agent。真正的挑战不是计算复杂度，而是‘智商掉落’——文本越长，模型越傻。”

以下为圆桌实录，不改变原意的情况下有删减调整

01

万亿市值的拷问——GPU还是TPU？

王晟（英诺天使基金合伙人、北京前沿国际人工智能研究院理事长）：我们先聊一个最近很炸裂的事。Google发布Gemini3之后估值涨了5000多亿美元，大家觉得Google又回来了。但与此同时英伟达蒸发了6000多亿。

我想问问国梁，你是做国产GPU最头部的企业。怎么看这件事？硬件范式会不会开始往TPU/NPU这些专用芯片转了？大家是完全竞争还是一种竞合关系？

孙国梁：架构本身没有高低优劣之分，最重要的是看场景。

如果说稳态还是变态，GPU和ASIC（专用芯片）这两种架构在几十年前就是“超级稳态”了。ASIC里还有BPU、APU、VPU、DSP等等，它们在各自领域都有优势。

但在今天，我们处在一个模型高速迭代的阶段。在这个阶段里，GPU的通用性是它最大的优势。你很难把一个专用性的产品放在一个通用场景里，因为它处理不过来。

现在的模型更新太快了，快的话按周计，最迟也是按月计。从我们的视角看，任何一种基模还远远没有到达“收敛”的时间点。在未来相当长的时间内，模型的高速迭代依旧是常态。

还有一个问题是场景的碎片化。客户的应用场景是层出不穷、千奇百怪的。在这种分散的场景里，GPU和ASIC会长期共存，但通用GPU会有更好的泛化适配性。

至于英伟达市值的波动，说实话，这未必不是华尔街一种很好的“砍价方式”。之前华尔街已经做出了选择，把英伟达推向世界第一，就是因为在当前历史阶段，通用性显然还是主流。

02

中间层的“缝合”——模型在收敛吗？

王晟：胡健，你们是做连接的，左边是模型，右边是算力。这会不会导致工作量爆炸？比如要重构算子、编译器、计算图？另外，从客户使用情况看，模型是在发散还是收敛？

胡健：硅基流动现在自己有一个云，跟国内别的AI Infra比较大的区别，是我们可能大量的使用国产芯片，包括像摩尔和沐曦，我们都在大量使用用它来真实的服务客户。

整体来说，模型呈现“二八定律”。虽然新模型每隔一两周就出来一个，但大家的调用非常聚焦，主要集中在DeepSeek、千问、Kimi、GLM等少数模型上。

虽然模型变化快，但模型的结构基本上处于“逐渐稳态”。比如DeepSeek用MLA结构，包括MQA结构，大部分是基于Transformer的变体。这对国产芯片是非常大的利好。

如果场景千变万化，且不是基于Transformer，那会是CUDA的天下，因为它的软件栈填了十几年的坑。但现在结构相对稳定，我们核心要做的就是帮助国产芯片实现与英伟达同规格芯片的“端到端对标”。

这里面70%的工作是相对标准的。比如量化——大家都知道国产芯片以前大部分只做INT8，但是现在DeepSeek都是FP8，所以针对量化这一系列方案是通用的；再比如PD分离、KVCache的共享传输等。

剩下的30%需要针对不同芯片的性能瓶颈做联合优化。比如有的芯片算子弱，有的通信弱，我们就需要做算子融合或通信库优化。总体来看，模型结构趋于收缩，这些优化方案在大规模部署和应用时可复用性很高。

03

算法的“变态”——Transformer一定是通向AGI的最终范式吗？

王晟：祥雨你是算法大师。我想直接请教：Transformer已经注定是通向AGI的最终范式了吗？目前学界还有RetNet、Mamba这些Linear Attention的范式，它们会有价值吗？

张祥雨：先给一个结论：现在的模型架构确实处于趋稳状态，但我们很可能处在一个巨大变革的前夜。

我最新的研究结论是：今天的Transformer并不足以支撑我们走向下一步，尤其是在Agent时代。

先解释前半句。确实，现在的架构基本上都收敛到Transformer。虽然有各种Linear Attention、SparseAttention的小修小补，在效率上做文章，但本质建模能力没有区别。

而且，我们发现了一个巨大的副作用：长文本真正的挑战不是计算复杂度，而是模型的“智商”会随着文本长度变化而快速下降。

对于通用Agent，它面对的应该是一个“无限流”的世界——它是无穷长的，从小到大的所有经历都在Context里。但今天的Transformer，不管号称支持多少Token，我自己测下来基本上到8-12万个Token就不可用了，即使GPT-5可能好一点，但最终都会退化。

这里的本质原因是什么？Transformer的信息流是单向的。

所有的信息只能从第L-1层流向第L层。不管Context多长，模型的深度（L）不会增加，或者仅能小幅增加（对于某些最新的架构变体）。

大家想象一下，人类的记忆是有极强的压缩机制的。我今天讲的每一句话，都是我历史上见过所有信息的函数。这个复杂的函数，不可能通过一个恒定层数的神经网络来表示。

王晟：我理解你的意思。这个成果你们研究出来了吗？

张祥雨：我们现在是在一些小规模实验得到非常积极的结论。未来的架构，它应该是一个短窗口的Transformer（建模short-term memory）叠加一个巨大的RNN（循环神经网络，用来建模episodic memory），而且是“Non-Linear RNN”（非线性RNN）。当然，这对系统效率和并行度是巨大挑战，需要软硬件协同设计（Co-design）。

04

物理瓶颈——被AI加速的“可控核聚变”与万卡集群

主持人/王晟：张祥雨刚才的分享太有冲击性了，回头我还要消化。我们时间有限，我就特别简单说一下能源的问题，因为我们投了星环聚能。

在过去扔了氢弹之后，大家就开始探索搞“可控核聚变”。这事儿搞了80多年了，以前一直说“离成功永远还有50年”，但就在这两三年，情况发生了大逆转。特别乐观的人说还要10-15年，客观一点的说20年。

这事儿是怎么发生的？这跟AI的关系非常大。

今天托卡马克装置面临最大的两个问题：

第一是怎么获得巨大的磁场来约束等离子体。这要靠材料，这就涉及到AI for Science——大家都很乐观，觉得未来过几年高温超导、常温超导通过AI就搞出来了，这能解决大问题。

第二是等离子体的控制。里面上亿度、好几亿度，外面无穷多的线圈怎么控制它？这是一个“黑箱”，你切不开来看。过去写程序太复杂了，现在AI来了，通过模拟强化学习大家突然觉得这事儿行了。

如果不解决能源，整个人类文明都会受限。这太吸引人了。

我们讨论了芯片，现在我想讨论一下网络。

我想听一听大家实际训模型、跑模型的网络——不是实验室Demo，是实际出成果的——都已经跑到多大的规模了？

另外，英伟达的网络层次蛮多，NVLink、NVLink Switch、InfiniBand很多层次都布局了。我想知道我们现在自主构建的网络覆盖了哪些层级？

孙国梁：我认为AIInfra最大的挑战是要看清产品到底是什么。客户的需求是一个能够做大规模模型训练、推理、服务的通用性算力，而不是一张卡。

我们在全国各地也有数千卡的集群。无论是传统模型、MoE模型还是非Transformer架构的模型，我们都训练过。

另外我想补充一下能源。如果真的到用能源去解决算力问题的时候，中国有巨大优势。

核心原因是：今天我们的模型属于工程学。工程学的来源是数学推理，数学的来源是生理学和脑科学。但在基础脑科学和生物学研发上，人类还没有取得那么大的突破。所以我们在数学上没有突破，在工程学上只是在“暴力尝试”。

反而是现在我们在工程学上的很多尝试，会“反推”基础科学的演进。这是一个循环。我认为未来国产算力、基础能源和开源模型，好戏还在后头。

05

开源与闭源的终极博弈

王晟：我们下一个问题给到胡健——开源和闭源的问题，因为我理解硅流上的很多都是开源的模型，现在美国巨头都闭源了，中国企业担起了开源的责任。未来开源能和闭源竞争吗？会不会担心最强的模型都是闭源的，导致你们的业务空间被挤压？

胡健：现在回答这个问题比较容易了，因为之前我们刚出来的时候和一堆投资人会问这个问题。

我们刚创业时也面临这个问题。我们坚定两点：开源肯定会起来，推理会是主流。

开源与闭源核心看两点：

第一是竞争格局。往往是处于第二、第三梯队的企业，为了不被头部完全抢占市场份额，必须开源。开源后会有更多人跟你玩，就能逆转形势。就像安卓对抗iOS。DeepSeek一出来，市场炸了，大家就都得跟进，这是一种低竞争倒逼的趋势。

第二是需求。智能如果只掌握在少数企业手里，企业客户为此会承担更高的成本与代价。企业有自己独特的数据，不敢交给闭源模型，因为有隐私和壁垒问题。为了数据可控、成本更低，需求端会倒逼开源持续存在。

就像安卓最终形成了自己的商业模式一样，开源模型未来也会有类似广告或服务的商业模式。

06

手机上的AGI——从推理到自主学习

王晟：祥雨，阶跃刚刚发布了一个针对安卓手机的Agent：GELab-Zero。这是测试成分更多，还是真的能在手机产业落地？

张祥雨（阶跃星辰）：为什么在这个时间我们要做GELab-Zero这样的一个工作，是因为它是智能发展的必经之路。

我看智能发展有两条轴，横轴乘以纵轴的面积，就是智能化水平：

横轴是“智能进化”：

第一代是ChatBot，背后的算法是NTP（Next Token Prediction）；

第二代是Reasoner，背后的算法是RLVR（Verifiable Reward强化学习）；

第三代Agent是什么？现在大家不知道。我自己擅作主张补上，它背后的算法原理应该是“自主学习与在线学习”。

我刚刚说的Transformer架构必然会有一次大的革新，指的是在这条横轴上，我们正在走向下一代的路上。当然模型架构革新也只是一小块，它属于分层记忆机制建模的一部分。除此之外，自主学习和在线学习还需要解决如何进行环境探索、如何利用环境反馈、如何在线更新模型参数的问题。

纵轴是“模态”：从语言、语音，到视觉多模态，再到最困难的具身智能。

在具身和多模态之间，夹着一个“虚拟世界的具身”——就是像人一样操作手机GUI。这比物理具身简单，但比纯文本复杂。

我们要在这方面走出一步。GELab-Zero的技术路径非常有特色：它是一个小模型，蒸馏了更大的视觉、语言模型的能力，通过搭建强化学习环境，赋予它在手机APP里探索的能力。

更关键的是，我们采用了“端云结合”的能力：在必要时发出请求调用云端模型，并且这两个模型是协同训练（Co-training）的，通过RL Trajectory共同形成梯度反传。这是一个非常重要的技术创新点。

07

“老CV人”的反击——颠覆Diffusion

王晟：再问个问题，刚才那轮问题的延续。我看到你的老战友何恺明最近也频频出手，最近发了两个很重要的论文，一个是JiT（Just image Transformer），他觉得采用去噪的方法不太对，直接一把可能就预测图像的结果了。还有一个是iMF（Improved MeanFlow）。它能够变得比Diffusion更好吗？

张祥雨：对，不过这些工作也是在Diffusion框架上打补丁，并未真正“颠覆”Diffusion。恺明最近频频在生成模型基础方向发力，原因很简单：Diffusion这一套在“老CV人”的眼里，是最不MakeSense的。它从一个分布出发，加噪再去噪，这个过程没有任何的语义，并且已经有很多工作展示了在diffusion过程中引入语义对齐可以取得显著的提升，这更说明了原始的diffusion框架是有问题的。

我解释一下为什么要这样做。

深度学习最喜欢的一个词叫“端到端”——从已知分布直接用一个深层神经网络一步达到结果。但在很长一段时间里，模型的“单步推理能力”是不够的。

这就像在语言模型里，单步推理不够深，所以我们要引入CoT（思维链）。你可以认为视觉生成里的“加噪去噪”，它的每一个Step就是一个CoT。

但是！这个CoT跟语言的CoT不一样，它不符合人类理解和形成图像的过程。我们叫它“Bad CoT Pattern”——因为它没有语义。

不过，虽然听上去不太合理，在“类Diffusion”框架下目前还没有太好的去掉加噪-去噪过程的实践。其他的框架，例如基于自回归的图像生成，也同样有缺少语义和单步推理能力受限的问题。

所以目前的研究趋势，一方面是如何给Diffusion等框架引入更丰富的语义，例如刚刚提到的Semantic Alignment，又或者是生成理解一体化训练，都属于这个范畴。另一方面就是尽可能把框架做得更简单、更为端到端，尽量减少人工引入的非语义的元素，恺明组最近的工作大都集中在这一块。

此外，也有人尝试直接提升模型的单步推理能力，例如把loop transformer等latent reasoning工具引入图像生成中，等等。

王晟：我们再拉回到你做的这个非常重要的工作，为什么不能是Memory被外挂，因为你说很多的上下文太长导致模型输出不利，我们为什么不能有一个模型专门去抽取，把Memory抽取更好的专用模型，再给到大模型。

张祥雨：当然是可以的，像您说的在草稿纸上人类也会做这件事，这属于外存。但是我们现在最主要的还是要建模智能体的内存，因为记忆是人类智能的核心组件之一。

人脑的记忆机制是一个非常复杂的，而且分层的记忆机制，从已实现的短到长，比如最短的叫做感知记忆，也叫瞬时记忆；而稍微长一些、大概持续数秒的叫做短期记忆，也可以叫工作记忆。

其中瞬时和短时的记忆，它的很多特性，比如无损性，比如说全连接的特性，今天transformer的上下文机制已经可以建模的很好了。

真正棘手的是长期记忆的建模，我们现在主流的架构还做得不是很好，一个叫Episodic Memory（情境记忆），你会发现大量的论文都在做这一块，它和fast weight update机制密切相关。还有一个叫做Semantic Memory（语义记忆），这个和slow weight update机制有关，这一块用模型参数本身可以建模，它的难度在于怎么Update。

王晟：我记得谷歌刚发了一篇论文，不断地Update模型参数。

张祥雨：对，它那个是走向Online Learning非常必要的。

王晟：今天的讨论特别符合我们“稳态还是变态”的议题。

我发现每一家头部企业都有坚实的基本盘，但同时都在敞开胸怀拥抱变化。Transformer可能不是终局，GPU还在进化，而能源（比如我们投资的可控核聚变）和工程的挑战才刚刚开始。这一波AGI可能刚刚起步，真正的蝴蝶效应，还在后头。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技