扫码打开虎嗅APP
本文来自微信公众号: 海外独角兽 ,作者:siqi,原文标题:《深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断》
刚刚过去的AGI-Next 2026信息密度极高,也极具Visionary。
这场由清华大学基础模型北京市重点实验室、智谱AI发起的活动上,除了张钹院士和杨强院士两位学术界代表,智谱AI唐杰教授,月之暗面杨植麟,阿里Qwen技术负责人林俊旸,以及腾讯首席AI科学家姚顺雨等中国大模型核心主力们也聚到了一起,拾象创始人及CEO李广密也作为panel主持人参与其中。
毫无疑问,华人已经成为AGI中重要的一股力量,中国团队开发的开源模型是当之无愧的全球Tier 1,并且我们相信在2026年这一位置还会更加牢固,也很期待在2026年看到更多全球华人在AGI领域的突破性探索。
关于活动的全文实录已经不少了,本文是「海外独角兽」对整场活动所有主题发言、对谈讨论中的核心观点的总结提炼,我们也非常推荐大家阅读活动实录全文,更全面地感受AI领域最聪明大脑的思考与洞察。
•模型分化已经是一个显性趋势,分化背后的原因很多元,有To B和To C场景需求差异,是对模型竞争格局慎重思考之后的bet,也有不同AI labs自然而然的战略选择;
•To B领域会出现强模型和弱模型之间的分化,而且会越来越大,模型在To C场景的任务瓶颈往往不是模型不够大,而是Context和Environment的缺失;
•自主学习是共识性极强的新范式,是2026年几乎所有人都会投入到这个方向;
•Scaling仍然会继续,是技术、数据与taste共进的结果,探索前沿智能不会因潜在风险而停止;
•模型即Agent,Agent即产品;
•中美AI之间算力差异不只是绝对量级上的,还是结构性的,美国的算力不仅比中国多1-2个数量级,更关键的是这其中有相当一部分被投入到了下一代关键技术的探索中。
……
关键词01
分化
1.结合中美两地的观察,姚顺雨认为今天AI领域分化有两个角度,1)To C和To B之间发生分化,2)“垂直整合”和“模型和应用分层”两条路线之间也开始分化。
2.对于To C来说,大多数用户在大多数时候并不需要很强的智能,他们对模型智能的提升的体验并不强烈。To C的瓶颈往往不是模型不够大,而是Context和Environment的缺失。
姚顺雨举了一个例子,比如问“今天吃什么”,再强的模型可能也很难给出最准确的回应,这里的瓶颈在它不知道用户当下的感受、所处的天气环境等带来的需求。
3.这个问题的解法在于真正的个性化数据,比如相比于盲目追求更强的预训练模型,在合规前提下能把微信聊天记录等Context用好,反而能给用户带来更大的价值。
4.To B逻辑下,用户(企业)愿意为“最强模型”付出溢价,因此,在To B市场内部,也会出现分化,即强模型与弱模型的分化会越来越明显。
比如Opus 4.5这种能力很强的模型做10个任务能对8-9个,而能力较弱的模型只能对5-6个,即便后者更便宜,但在不知道“哪5个错了”的情况下企业还需要花费巨大的精力去做监控,所以更有动力从一开始就选择强模型。
5.To C场景中,模型做All-in-one的垂直整合是成立的,模型和产品之间可以非常强耦合去紧密迭代,但To B(生产力应用)因为涉及到很多生产环节,因此给了应用公司足够多的机会空间围绕环境、任务做优化,反向来看,应用公司很难自主训模型、同时任务交付又依赖于模型预训练能力的提升,所以就出现了模型公司和应用之间的分层。
6.Qwen林俊旸的观察是,模型的分化并并非预设的road-map,更多是自然演化的结果,这种自然演化通常源于跟客户的高频交流,比如Anthropic做Finance就是在与客户的高频交流中发现的机会。
拾象注:ChatGPT和Claud先后推出的Healthcare的垂直解决方案上的差异也完全印证了这两家公司to C和to B的基因,前者面向C端用户提供健康数据解读,而Claud health走的是链接医疗系统的路线。OpenAI长期来看会是下一个Google,而Claud很明显会成为AI时代的微软。
7.“分化”同样和模型竞争的timing相关。智谱之所以bet coding也是基于对当时模型竞争格局的判断,唐杰教授提到在,DeepSeek出来后,团队判断“Chatbot取代搜索这一仗”已经基本结束,智谱团队经过内部讨论后,最终选择押注在coding上。
关键词02
新范式
自主学习
8.首先,Scaling仍然会继续,但在Scaling的投入上,唐杰教授认为需要区分两种不同方向。
•Scaling已知路径,通过不断增加数据和算力,持续探索能力上限,但本质上也是一种“偷懒”的办法,
•Scaling未知路径,也就是寻找尚未明确的新范式。让AI系统自己来定义奖励函数、交互方法、甚至训练任务来做Scaling。
拾象注:当下AI社区对于新范式还没有一个统一的概念定义,自主学习、active learning、continual learning以及self-learning等本质上都在表达同一个预期,即模型自主学习能力提升,可以在人类不介入的情况下不断提升智能。
9.杨植麟把Scaling Law总结一种把能源转化为智能的视角,它的核心在于高效逼近智能上限。模型承载的是价值观与品味,Scaling是技术、数据与审美的共进,探索前沿智能不会因潜在风险而停止。
10.自主学习的目标是让模型具备自反思与自学习能力。通过持续的自我评估与自我批判,模型能够逐步分辨哪些行为是有效的,哪些路径还有优化空间。
11.姚顺雨认为新范式的发生并不是某个未来的“突变点”,而是一个正在发生的“渐变”过程,甚至在2025年他已经看到了一些信号。
比如Cursor的Auto-complete模型每几小时就用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,也是一种自我学习,Claude Code甚至写了自己项目95%的代码,从某种角度看,AI已经开始有自己帮助自己变好的迹象。
12.新范式的最大的bottleneck其实是想象力。更具象来说,如果2027年宣布实现了新范式,我们要用什么任务去证明这个范式已经实现了?是变成一个赚钱的交易系统?还是解决人类未解的科学问题?也就是说,对于当下我们去思考新范式的时候要先能想象到它长什么样。
13.林俊旸认为从更实际的角度,RL的潜力还没有做到足够充分,很多潜力还值得被挖掘,对于下一代范式则存在两个维度,首先是自主学习,其次是AI具备更强的主动性。今天是人类帮助AI启动,而未来模型可能不再需要人类Prompt,而是环境本身就能Prompt它。
14.Active learning会带来很严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”。主动学习一定是重要范式,但必须给它注入正确的方向。
15.自主学习能够体现到personalization上,但衡量它是否“变好了”会变得很难。推荐系统可以看点击率,但当AI覆盖生活方方面面后,evaluation指标变得极其模糊。
16.持续学习这个问题中包含了一个时间概念,也就是模型出于在持续地不断地学的过程当中,但如果对于多Agent串联的长程任务,一旦Agent的能力没有做到100%,那么越往后能力往往呈指数级下降,而在人类的学习机制中,是通过睡眠来“清理噪音”,可能在AI也需要探索类似的清噪与新计算模式。
17.唐杰教授则提出了“Intelligence Efficiency”的概念,即智能效率,未来的范式不应只是单纯的Scaling,而应关注“投入多少资源能获得多少智能增量”,这才是解决成本瓶颈的关键,而新范式的意义也在于,如何能用更少的范式获得同样、甚至更多的智能的提升。
18.大模型的发展路径一直在借鉴人脑认知的学习过程,逐步进入知识压缩、推理、数学、Coding等抽象演绎等任务而在1)多模态、2)Memory和Continual Learning,以及3)反思与自我认知这几类能力,人类显著领先于当前模型,而这几个点可能是新的突破方向。
19.智谱在2020年画过一张参考人类认知的AI系统结构图,有三个模块:系统一、系统二,自学习。引入自学习主要基于以下几个原因,对应有3类Scaling:
原生多模态
20.原生多模态模型和人的“感统”很相似,人的感统是这边收集到一些视觉信息,同时还能收集到声音、触觉信息,而大脑会把这些感统信息汇集在一起来感知一个东西,今天的模型感统能力并不充分。
21.多模态感统是智谱今年的重点方向之一。模型具备这种能力之后,AI才能在真实工作环境中执行长链路、长时效任务,例如在手机、电脑等设备上持续协作。
22.多模态同样也是Qwen接下来持续要做的事情。林俊旸认为如果要想做出一个真正智能的东西,天然应该是Multimodal,但这里也存在一个debate,即多模态能不能驱动智能。
23.从更第一性地模型提供更多生产力、更好的帮助人类这一角度出发,做视觉、语音等多模态能力是自然而然的选择。
24.视频是更广义的表达,图片可以理解为是单帧的视频,理解很长的视频是很有意思的一个事情。
关键词03
Agent
25.Coding是通往Agent的必经之路。智谱的实践中发现,GLM-4.5虽然跑分高,但写不出“植物大战僵尸”游戏。通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了这个问题。
26.模型即产品。Agent要实现复杂任务对模型的要求是相当高,模型就是这是Agent本身,Agent就是产品本身,如果它们都是一体化的话,今天做基础模型本身,其实也就是在做产品。
27.模型To B和To C的分化同样体现在Agent上:
•To C产品的指标有的时候和模型智能并不相关,甚至相反,
•To B的Agent甚至不需要做太多创新,模型智能提升、解决真实世界任务的能力提高、创造更多的价值。
28.生产力场景的Agent才刚开始,除了模型进步之外之外,环境和deployment同样重要,是Agnet创造价值的关键:即使今天模型不再变好,只要把现有模型部署到各公司,也能带来10倍甚至100倍的收益,但今天AI对GDP的影响还远不到1%。
29.教育非常重要。现在人和人的差距在拉大,并不是说AI要替代人的工作,而是说会使用这些工具的人,在替代那些不会使用工具的人。
30.Qwen林俊旸认为未来的Agent将变成“托管式”。用户不再需要像现在这样频繁地一来一回交互,而是设定一个通用目标,Agent就会在后台长时间独立运行,直到完成任务。
31.Agent要做到这一点同样也离不开前面跟提到的Self-evolution以及Active Learning,因为这件事对模型的要求其实相当高,在这个逻辑下,我们可以说“模型即Agent,Agent即产品”。
32.做通用Agent过程中长尾任务反而是更值得关注,对于用户来说感受到AI的价值与魅力也是因为某个长尾任务被得到解决。今天的所谓AGI本质上也在解决长尾的问题。
33.做通用的Agent是个见仁见智的问题。如果对于自己是一个“套壳高手”足够有自信就可以做,但作为wrapper并没有比模型公司做得更好的信息,那么通用agent就是“模型即产品”的机会,因为对于模型公司来说,很多工程问题也许只是“烧一烧卡”就可解决的。
34.杨强教授将Agent的发展划分为四个象限,从两个维度来看:
•目标定义:是由人为定义的还是自动定义;
•任务规划:即中间的Action,是由人来定义,还是AI自动定义。
今天我们还处于一个很初级的状态:即目标由人定义,规划也由人做,但未来会出现一个大模型观察人的工作,尤其是把人的Process Data给使用起来。最后目标也可以是大模型来定义,规划也可以由大模型定义。所以,Agent应该是由大模型内生的一个Native的系统。
35.决定Agent未来的走势的几个重要问题:
•Agent是否能真正解决人类任务?这个事情能够创造价值吗?价值有多大?
•Agent Cost有多大?一方面如果Cost特别大,那也是一个问题。另一方面,如果调用一个API就能解决,那么模型厂商意识到这件事价值很大的时候,就会自然而然把它做进去。这是基座模型和应用之间永远的矛盾。
•应用公司的迭代速度。如果Agent团队有能力拉开半年时间窗口通过Agent应用满足用户需求,就有机会持续往前走。
关键词04
全球AI竞赛
36.对于中国AI在3-5年内进入全球第一梯队这件事,姚顺雨的态度很乐观。因为从制造业、电动车领域的经历来看,中国最大的优势在于一旦证明某件事可行,就有能力以极高的效率复现、甚至做到局部更好。
37.但长期视角中更核心的问题在于“敢突破新范式、敢冒险的人不够多”这样的文化差异,此外,还需要面对的两个现实瓶颈:
•算力瓶颈:和美国相比,电力能源侧不太会成为中国的算力瓶颈,更核心的还是在于光刻机是否有突破;
•是否能诞生更成熟的To B市场,更进一步在国际市场上做竞争。过分看重刷榜数字并不是健康可持续的,应像Anthropic或DeepSeek那样更关注“正确的事”和用户体验。
38.林俊旸则相对冷静,认为最乐观的情况中国AI超过美国的概率为20%。中美AI之间算力差异不只是绝对量级上的,还是结构性的:美国算力比中国大1-2个数量级,但最关键的差异在于,他们的算力有相当一部分投入到了下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈。
39.但从历史经验来看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与Infra的联合优化,而这个出发点是可以倒逼创新发生。
40.面对光刻机的现实瓶颈,是否有可能我们在下一代的模型结构和芯片上就可以从软硬结合的角度End-to-End地实现。