扫码打开虎嗅APP
本文来自微信公众号: 智宇起源 ,作者:林栩 Leo
一场大会,看清中国AI行业从卷参数到卷场景的务实转向。
4月21-22日,2026年中国生成式AI大会在北京召开。两天密集议程,横跨基础模型、Agent(能自主干活的AI,不像Chat只会说话)架构、记忆系统、多模态(AI能同时处理文字、图片、声音,像人一样"五官并用")统一、AI存储基础设施、3D生成、AI硬件等核心议题。与一年前还在追逐参数规模"虚荣指标"不同,今年所有讨论的核心指向一件事:AI不应只停留在"对话"层面,而必须进入业务流程,实现端到端的任务交付。
这不是一句口号。从智谱GLM-5.1的长程任务训练,到华为DLLM Agent的全局规划实验,从焱融科技的全栈AI存储,到上海人工智能实验室的InternVL-U统一多模态模型——每一个技术动作都在回答同一个问题:怎么让AI真正干活?
共识一:Agent的价值从"对话"转向"交付"

与会者几乎一致认为:简单的Chat无法带来持续的生产力增量。只有具备自主编排、环境交互和结果交付能力的Agent,才能解决实际的商业痛点从而产生真实商业价值。
李子玄(智谱)对"长程任务(AI从简单到复杂逐步完成的任务,类似从搭积木到盖房子)"给出了精确的定义——长程不是长文本,不是长步骤,更不是低水平重复。他举例说:"你让一个员工爬一万条粉丝数据做网页,任务很长,但那只是低水平堆叠。真正的长程任务是:第一分钟的成果和第八小时的成果之间存在惊人的差异——你在不断优化、不断迭代,从一个小demo最终形成一个体系化的东西。"他强调智谱的核心方法论是"评测倒逼训练"——公域榜单背后是十个细粒度私有榜单,通过评测发现问题、倒推数据集和训练方案。

袁薇(阶跃星辰)从基础模型能力演进的角度呼应了这一判断,将AI发展分为三个阶段:提示词工程时代、上下文工程时代,以及当下的Harness Engineering(AI的"安全带与脚手架",确保Agent稳定完成任务的约束和验证机制)时代。她的判断一针见血:"AI的赛事已经从模型本身转向了构建更完善的外部环境。"从"会回答"到"会交付"的关键跨越,Harness正是Agent从演示级Demo走向企业级产品的"绝对分水岭"。
交付能力的前提是什么?沈林(阿里云)从"信息完备性"角度给出了回答。他指出很多行业的Agent处于"半失明"状态——感知能力非常弱。他的五句话总结令人印象深刻:给Agent足够的信息感知能力、编写"图书馆馆藏目录"、知识不等于信息堆积、每一次知识整理都是生产级变更、简单可靠不是锦上添花而是入场券。没有信息感知做底座,交付无从谈起。
赵鑫(中国人民大学)则把视角拉到更宏观的层面:大语言模型能力扩展的核心瓶颈在于"如何持续利用算力"。他提出了一条从环境扩展到工作流编排的路径——通过Docker环境模拟(甚至World Model模拟)来强化Agent的训练数据,以及多智能体分层编排(角色层→专家层→子任务层)来解决长程任务的稳定性问题。他判断"广义AI的实现至少还需1-2次范式突破"。
💡对话是入口,交付才是壁垒。AI不干活,就不值钱。

记忆系统被视为基模向高级智能体进化的关键。本次大会专门设立了记忆技术研讨会,多位演讲者从不同角度探讨了记忆的实现路径。
李博杰(Pine AI)在开幕式发言中率先从工程实践角度给出了判断框架:决定Agent能力上限的是模型和上下文,决定Agent能力下限的是Harness(约束、验证、纠正机制)。他特别指出,向量数据库并不适合做Agent的记忆管理——"100条数据里90条黑猫10条白猫,Top-K检索永远只返回黑猫",更好的方式是Markdown+文件系统通过压缩总结固化知识。这段话实际上揭示了记忆管理的核心矛盾:检索精度vs.知识广度。
那么,记忆系统到底该怎么构建?大会上的讨论呈现出两个鲜明的方向:一个侧重于构建外部记忆系统,一个探索将记忆内化到模型参数中。
邓亚峰(EverMind/盛大集团)在记忆技术研讨会上分享的EverOS呈现了一种长期记忆驱动智能体进化的实践。他指出,OpenClaw之所以火爆,是因为它让人们看到了"AI贾维斯"的原型:具备主动性、长期记忆、可本地化部署。他提出"self-evolving"这一关键概念——AI在使用过程中自身也在成长,就像人和人交流一样,讲完一个话题之后自己也获得了新的认知。
王锴(腾讯混元)同样在研讨会上分享了一个截然不同的方向——函数式神经记忆,将记忆直接以动态权重的形式注入模型前向传播,而非外部挂载。他的比喻很生动:"人的瞳孔会随光线强弱变化,但大模型训完之后就不动了,傻傻待在那里。我们要做的事情就是让大模型随着输入而动起来,以参数的形式动起来。"这是"参数化记忆"路线的典型代表。
两个方向的差异在于:外部记忆系统像计算机的"外存",逻辑清晰但检索有瓶颈;参数化记忆像人类的"直觉",响应极快但训练难度极高。但从趋势看,两者并非互斥——正如人类既有直觉反应,也有回忆检索,两条路径的协同可能是更合理的终局。
李志宇(记忆张量)在记忆工程体系设计中进一步系统化了这个方向,指出记忆能力可分为五个基础步骤:记忆抽取、组织、检索、更新和共享。他强调记忆系统是基模未来一段时间内实现长期进化的关键节点。
研讨会中还出现了更多视角:有人分享了UMEM框架,旨在打破Agent"死记硬背"的困局,实现可泛化的记忆;有人从类脑认知引擎的角度探讨了持续观察、反思学习与未来预测的记忆架构。这些工作共同指向一个方向:记忆不是简单的"存取",而是Agent持续进化的核心引擎。
💡没有记忆的Agent,永远是第一天上班的实习生。

多模态领域的讨论呈现出"宏观路线一致、微观路径各异"的特点——大家公认统一是方向,但怎么走各有判断。
问题的起点在于:现有架构到底行不行?袁粒(北京大学深圳研究生院)从根本角度质疑了当前多模态架构的局限性。他指出,以语言为中心的架构(如GPT系列把视觉Token翻译成词元)天然无法让模型真正理解物理世界——"连人有几根手指都数不清,你指望它做具身智能?"他提出"What I can generate,I do understand"——生成能力与理解能力必须在同一架构中原生融合,而非割裂拼接。同时他指出了原生统一的核心挑战:模态冲突(神经元收敛到一种模态后就"躺平")、扩散(AI生成内容的"慢工出细活"方法,类似画家一笔一笔画)与自回归AR(AI"边写边想"的生成方式,像人类写作文)两种建模范式的融合难题、以及视觉编码器至今未被统一。
既然原生融合如此困难,那有没有更务实的路径?张鸿杰(上海人工智能实验室)分享的InternVL-U给出了一个可行的答案。他的判断很清醒:"关键不再是选哪一条路,而是能不能在统一的上下文中让理解和生成各有所长。"InternVL-U的设计哲学是"统一上下文+模块自定+视觉表征解耦",结果是一个4D参数的模型性能不输3倍以上参数的模型——小参数量通过精巧设计同样可以达到大模型的水平。
圆桌讨论进一步印证了这条务实路线的可行性:原生融合的多模态训练代价太大,而小参数量的动态模型如果能在外部叠加编辑生成能力,性能并不比原生方案差,同时还能适配更小、更快速的部署场景。理想主义与实用主义之间,存在一条值得走的中间路线。
王作书(阿里云)则从全模态应用的角度展示了统一多模态的商业价值。阿里云的Omni模型同时拥有"眼睛、嘴巴和耳朵"——能同时理解视频画面、故事情节、情感氛围、微表情,并支持实时音视频流式交互。他总结全模态带来三个边界拓展:感知边界、推理边界、交互边界。从商业落地来看,统一多模态不是学术浪漫,而是用户需求驱动的必然。
💡统一不是混在一起,而是各司其职协同作战。

随着多智能体协同爆发,企业需要对Token(AI的"计价单位",类似电表的度数)进行精细化管控、路由调度和成本优化。
师天麾(清程极智)在开幕式环节率先提出了"构建Agent时代的高质量Token流通网络"的概念——Token不仅是成本,更是一种需要高效流通的资源。他同时分享了Token行业的"暗面":部分服务商对模型做激进量化以次充好、缓存命中率不透明导致"便宜报价反而总成本更高"、服务质量(慢响应率)大幅下降等问题。Token管理不仅是技术问题,还是一个信息不对称的市场问题。
张文涛(焱融科技)从基础设施角度给出了降本方案:焱融科技的vCache推理加速方案能让低端显卡(如R6)的推理效率超过高端H20显卡——通过三级预缓存管理,显著降低推理成本。他提出"AI的竞争本质上是数据的竞争",而推理成本的降低直接影响数据的流转效率。
王作书(阿里云)则直接将Token定义为"时代的水电煤"——阿里成立ATH事业群就是围绕"创造Token、输送Token、应用Token"这一使命。当AI能力渗透到每个业务环节,Token的流通和管理就成了基础设施级别的问题。
成本的另一面是商业模式。有与会者在圆桌讨论中算了一笔账:"移动互联网时代有'羊毛出在猪身上'的广告模式,但AI时代——用户用得越多,Token消耗越大,Token成本远远大于广告的eCPM。旧的商业模式在AI时代彻底失效。"这对所有从业者都是一个警醒:Token经济学正在重塑商业逻辑。
💡Token是AI时代的石油,不会管Token的公司,迟早被成本淹没。
程思婕(雷鸟创新)从智能眼镜角度阐述了这一趋势:AI将从手机等数字终端走向眼镜等物理世界载体。眼镜是最好的全域数据采集终端——第一人称视角视觉、全景音频、多模态传感——可以构建全方位的个人记忆和"外脑"。她判断智能眼镜将实现"数据飞轮":设备采集数据→模型能力提升→产品体验更好→更多设备部署,与汽车智驾的数据闭环类似。硬件载体提供了AI进入物理世界的入口。
但进入物理世界不只是"看见",更需要"理解"。黄杏(连心云)从"理解人心"的角度阐述了这一关键:AI只理解语言是不够的,它需要理解人的情绪、风险、动机。她的团队构建了以人为中心的"共情能和人本模型",通过多模态识别与分析推理图谱(6000+知识节点、16000+对比关系),在教育、司法、金融等场景实现了心理洞察→业务洞察的转化。

物理世界的资产也在被AI重构。梁鼎(VAST)展示了从图片/文字直接生成3D模型的进展——已经从"像玩具"发展到可以进入游戏管线和3D打印生产线。他判断3D和视频最终会在世界模型(AI对物理世界的"虚拟大脑",能模拟真实环境)上产生交汇——纯视频方案有记忆瓶颈、创作/消费分离难、多人一致性难、成本高等问题,3D原生的可控性和编辑性可以互补。
杨禹雪(中科院自动化所)进一步将物理世界的理解推向了"模拟与推演"的层面,分享了可扩展通用4D世界模型的工作:通过在线重建+生成的方式将训练数据扩展到百万级开放场景视频,实现"可视、可控、可推演"的4D能力,在自动驾驶和具身智能领域有广阔应用前景。
从感知到理解,从资产生成到世界模拟——AI进入物理世界的路径正在逐步清晰。
💡数字世界的AI已经够多了,物理世界才是下一个主战场。
Agent时代,用户交互的基本单元会不会从APP变成原子化的Skills(AI的"小技能",类似手机APP的单一功能)?"消亡论"认为APP将被Agent编排的Skills彻底取代;"共生论"认为两者将长期共存、各司其职。

持"消亡论"的逻辑在于:Agent直接编排能力,APP是多余的中间层。卢国强(商汤大装置)指出,当系统的使用者从人变成Agent时,整个技术栈都需要重新思考:"度量衡从MO变成了TOKEN,设计原则从GUI优先变成了CLI优先,安全模型从管人变成了管Agent。"APP是为人设计的界面,一旦Agent成为主要"用户",APP的存在逻辑就被动摇了。
"共生论"的声音同样有力。黄超(香港大学)指出:"现在不是Skills太少的问题,而是高质量Skills太少。一个Agent启动后,同样的任务可能匹配到几十个相似Skill,如何选择最合适的?这需要Harness层面的完善。"在Skill质量和选择机制成熟之前,APP仍然是必要的。李博杰从Claude Code和OpenClaw的源码对比中给出了更具体的观察:Claude Code没有做GUI,"它认为Agent不需要看界面"。但他同时指出,数据积累、专业业务逻辑、权限和数据治理仍然是软件不可替代的价值——这恰恰是当前APP形态承载的东西。宋健(极狐驭码)则提醒,MCP(AI的"工具箱",包含多种技能模块)正在被Skills取代的论调是"暴论",拆解了技术演进的真实路径:Mode→Rules→Flow→MCP→Skills——这些是逐层积累的关系,不是你死我活的替代。
底层分歧在于:消亡论相信自然语言界面(LUI)将重塑人类注意力分配方式,Agent会成为新的"超级APP";共生论认为,复杂信息场景中人类对审美、探索、结构化体验的需求不会消失,APP形态仍有不可替代的价值。而卢国强的视角则跳出了这个二元框架——也许问题不是APP会不会消失,而是当使用者的身份从人变成Agent,整个系统的设计范式都需要重写。
如果说2024年的行业共识是"scaling law(规模定律)",那么2026年这个共识正在从内部瓦解。大会上,三种视角正面碰撞:决定AI能力天花板的,到底是评测体系、模型架构、还是工程化能力?

"评测决定论"认为,架构不是核心变量,你怎么衡量才重要。李子玄在圆桌讨论中给出了鲜明的立场:模型的强弱与架构关系不大,"架构更多的是决定怎么更快速地训练、需要的数据量更小",核心在于评测体系。他的逻辑是:公域榜单背后是十个细粒度私有榜单,通过评测发现问题、倒推数据集和训练方案——谁定义了"好",谁就决定了AI进化的方向。
"架构决定论"则认为,架构差异会直接导致AI行为的根本不同。林炜哲(华为中央研究院)的DLLM Agent研究给出了直接证据:在同等7B参数条件下,扩散语言模型(DLLM)Agent和自回归(AR)Agent展现出不同的行为模式——AR Agent倾向于"怀疑自己"、反复确认,DLLM Agent则"瞻前顾后",在生成第一个Token时就能感知后续目标,决策更果断。这不是训练策略能弥补的,而是架构本身决定了Agent的"性格"。袁粒从多模态角度进一步印证了架构的刚性约束:以语言为中心的架构"连人几根手指都数不清",生成能力与理解能力必须在同一架构中原生融合,这不是调参能解决的。
"工程决定论"则认为,模型只是引擎,怎么装车才决定能不能上路。赵鑫的判断很直接:"本质还是工程。"大语言模型能力扩展的核心瓶颈在于"如何持续利用算力",解法不在模型本身,而在环境扩展和工作流编排。张鸿杰也用实证说话:InternVL-U通过"统一上下文+模块自定+视觉表征解耦"的设计,4D参数的模型性能不输3倍参数的模型——小参数量+精巧工程,可以打败暴力堆料。
三种视角的根本差异在于对"AI能力边界"的归因方式不同:评测决定论认为能力边界由"你怎么定义和测量"决定发展方向;架构决定论认为由"信息处理的数学结构"决定;工程决定论认为由"如何系统化地组织能力"决定。现实中三者可能各对了一部分——评测决定方向,架构决定上限,工程决定下限。
当AI从实验室走向企业级的真实战场,技术路线的选择不仅关乎技术本身,更关乎商业模式的根本取舍。

王作书(阿里云)阐述了全栈闭源的逻辑:平头哥芯片出货已达47万片,加上阿里云数据中心、千问和通义大模型系列、百炼MaaS平台以及丰富的应用矩阵——"整体全栈服务能够提供确定性生产力"。他的论点聚焦在:企业客户为"确定性"付费,而全栈是端到端可控的路径。
王宁(网易有道)则分享了走开源路线的思考,指出开源=代码可审计=企业可信。他分享了一个有启发的观察:"杰文斯悖论"正在AI行业重演——编程越厉害,产生的APP越多,而非程序员越少。开源模型催生的应用爆炸会反过来扩大市场蛋糕。他判断Agent产品还处于早期阶段,开源的生态力量远大于闭源的先发优势。
姚霆(智象未来HiDream.ai)从创作Agent的实践中提供了一个有意思的中间视角:创作技能需可共享、可复现,工作流需要可沉淀——Skill层的价值天然适合开源共享,而具体的编排和优化则需要产品化能力。开源与闭源可能不是全有全无的选择,而是在不同层级上有不同答案。
底层分歧在于:闭源路线赌的是企业客户愿意为确定性付溢价;开源路线赌的是市场增长速度超过闭源的利润收割速度。在Agent尚处早期的今天,开源的时间窗口或许更大——但当行业走向成熟、客户开始要求SLA和合规保障时,全栈的价值主张可能重新抬头。而姚霆的视角提醒我们,现实中的选择很可能不是非此即彼。
我们试图从四个视角提炼出更深层的信号——不是"AI很重要"之类的废话,而是你读完就能对号入座、立刻行动的判断。
🔥创业者视角:弯道在哪?坑在哪?
大赛道已经换了,别在旧地图上找新大陆。一年前你跟投资人讲"我们有10B参数的模型",对方会认真听。现在?李子玄说得很直白——"公域榜单背后是十个私有榜单"。参数和公域跑分已经不能证明任何事,真正的壁垒是你针对具体场景构建的私有评测体系和训练闭环。这意味着:创业者不需要从零训模型,但必须从零建评测。
Harness和记忆是当前最大的结构性空白。袁薇把AI发展划分为三个时代,第三个时代是Harness Engineering——但今天市场上成熟的Harness方案几乎为零。李博杰说"决定Agent能力下限的是Harness",而上限是模型,模型大厂会搞定上限,下限却没人管。这就是创业者的机会:谁能让Agent在真实业务中"不翻车",谁就卡住了生态位。
邓亚峰提出的self-evolving概念同样指向一个空白:AI在使用中自我成长的能力。今天绝大多数Agent是"金鱼记忆"——每次对话都从零开始。谁能做出真正可用的长期记忆方案,谁就是Agent时代的"关系型数据库"。
Token经济学正在杀死"免费+广告"模式,先想清楚谁付费。王宁提到的"杰文斯悖论"是个好消息——AI越强,需求越大。但圆桌上的那笔账才是坏消息:"用户用得越多,Token消耗越大,Token成本远远大于广告的eCPM。"你不能照搬移动互联网的免费模式。先想清楚谁付费、为什么付费,再动手。师天麾还揭示了一个暗面:便宜的服务商可能通过激进量化以次充好,你的"省钱"选择实际上在牺牲质量。

参数规模不是护城河,评测体系才是。李子玄的话值得每个大厂深思:"公域榜单背后是十个私有榜单。"你的模型在MMLU上刷到第一,客户不关心;客户关心的是在他那个细分场景里好不好用。这意味着:谁的私有评测体系覆盖的场景越多,谁就拥有真正的"评测壁垒"——因为评测决定了训练方向,训练方向决定了模型能力。赵鑫说得更直:"本质还是工程。"
从"卷参数"到"卷场景+卷Token效率"。张鸿杰证明了一件事:小参数+解耦设计可以打败3倍参数的模型。这对大厂的启示是——盲目堆参数的ROI在急剧下降。未来的竞争是"谁的场景最深+谁的Token成本最低"。张文涛展示了让低端卡跑赢高端卡的技术路径,王作书直接把Token定义为"时代的水电煤"。Token效率将成为大厂的第二护城河。
开源与闭源不是二选一,而是分层策略。王宁的"杰文斯悖论"暗示:开源基础模型会催生更多应用,而非杀死大厂生意。聪明的策略可能是:基础模型开源(占生态位),核心Harness和记忆系统闭源(赚利润)。姚霆的洞察也印证了这一点——Skill层的价值在于"可共享、可复现",天然适合开源;而编排和约束机制则需要深度优化,适合闭源。
当Agent成为新入口,你的产品还有存在的理由吗?大会上关于APP与Skills之争的讨论,本质上是在问每一个SaaS厂商的问题。卢国强说"度量衡从MO变成了TOKEN,GUI优先变成了CLI优先"——如果你的产品的核心价值就是"一套好用的界面",Agent时代你可能就是最先被替代的。Claude Code的逻辑很明确:Agent不需要看GUI,直接调用就行。

但别急着恐慌——"软件不可替代的价值"比你想的要深。李博杰从源码对比中给出了冷静的判断:数据积累、专业业务逻辑、权限和数据治理,这三样东西Agent不会自动拥有。宋健进一步指出,MCP→Skills是逐层积累而非简单替代——你的产品中的业务逻辑和工作流,恰恰是高质量Skills的"原材料"。你的SaaS产品不是要被消灭,而是要被"Agent化"——从面向人使用的完整产品,变成可被Agent调用的能力服务。
最务实的转型路径:从"卖给企业"变成"嵌给Agent"。黄超的判断指明了方向:"国内有大量国企和私企希望把Agent与内部系统打通。"谁先把自己的核心能力封装成Agent可调用的Skills或API,谁就能在"Agent即平台"的新生态中占据位置。这类似于移动互联网时代从"桌面软件"到"移动APP"的迁移——那些成功转型的不是最强的公司,而是最快拥抱新趋势的公司。
关键卡点:Token成本可能吃掉你的利润。王作书说Token是"时代的水电煤",师天麾揭示了服务商"激进量化以次充好"的暗面。对SaaS厂商来说,如果你要在产品中嵌入AI能力,Token成本将直接冲击你的毛利率模型。你需要重新设计定价——过去按席位收费,未来可能要按调用量和Token消耗分层计费。圆桌上的那笔账值得反复看:旧商业模式在AI时代"彻底失效"。
不是"要不要用AI",而是"你的行业Agent是不是半失明"。沈林的五句话总结值得每个企业对照:你给Agent足够的信息感知能力了吗?你有"图书馆馆藏目录"吗?你的知识是在堆积还是在整理?每一次知识整理你当成了生产级变更吗?你把"简单可靠"当入场券了吗?如果这五个问题你答不上来,先别急着上Agent——先解决"半失明"问题。

真正的切入点:不是从Agent开始,而是从数据和知识体系开始。李博杰的比喻极其精准:"100条数据里90条黑猫10条白猫,Top-K检索永远只返回黑猫。"如果你内部的数据和知识是"黑猫堆",Agent只会给你返回更多"黑猫"——这不是AI的问题,是你的数据问题。先做知识治理,再做Agent部署。
黄杏的"共情模型"给了一个更具体的切入路径:在教育、司法、金融等场景,AI不需要"万能",只需要在"理解人"这件事上比现有流程强一步——从心理洞察到业务洞察的转化,就已经是巨大的价值增量。
物理世界的机会不要忽视。程思婕的"数据飞轮"逻辑值得传统制造业和服务业关注:智能眼镜+AI可以构建第一人称视角的全天候感知——这意味着质检、巡检、培训等场景可能被根本性重构。梁鼎的3D生成也不仅仅是"做游戏",它正在进入3D打印生产线和工业设计管线。如果你的业务涉及物理世界的资产,现在是认真评估AI-物理融合的窗口期。
最后,李子玄说的一句话适合作为对所有人的提醒:"PMF到来前,你要做好准备。当你肉眼看到风口的时候,已经晚了。"
2026年的中国AI行业,正在从"追风口"走向"造风口"。别再等了,干活吧。
| 作者:林栩LeoAI | 编辑:苏米MiaAI |
| 指标 | 本次 |
| 版本迭代次数 | 9版 |
| 主要问题类型 | 内容覆盖、派别定性、逻辑组织 |
| 审核优化点 | 结构重组、逻辑优化、措辞精细化、格式规范、视角排序 |