AI不干活，就不值钱-虎嗅网

本文来自微信公众号：智宇起源，作者：林栩 Leo

一场大会，看清中国AI行业从卷参数到卷场景的务实转向。

4月21-22日，2026年中国生成式AI大会在北京召开。两天密集议程，横跨基础模型、Agent（能自主干活的AI，不像Chat只会说话）架构、记忆系统、多模态（AI能同时处理文字、图片、声音，像人一样"五官并用"）统一、AI存储基础设施、3D生成、AI硬件等核心议题。与一年前还在追逐参数规模"虚荣指标"不同，今年所有讨论的核心指向一件事：AI不应只停留在"对话"层面，而必须进入业务流程，实现端到端的任务交付。

这不是一句口号。从智谱GLM-5.1的长程任务训练，到华为DLLM Agent的全局规划实验，从焱融科技的全栈AI存储，到上海人工智能实验室的InternVL-U统一多模态模型——每一个技术动作都在回答同一个问题：怎么让AI真正干活？

「五大共识：行业已经想清楚了什么？」

共识一：Agent的价值从"对话"转向"交付"

与会者几乎一致认为：简单的Chat无法带来持续的生产力增量。只有具备自主编排、环境交互和结果交付能力的Agent，才能解决实际的商业痛点从而产生真实商业价值。

李子玄（智谱）对"长程任务（AI从简单到复杂逐步完成的任务，类似从搭积木到盖房子）"给出了精确的定义——长程不是长文本，不是长步骤，更不是低水平重复。他举例说："你让一个员工爬一万条粉丝数据做网页，任务很长，但那只是低水平堆叠。真正的长程任务是：第一分钟的成果和第八小时的成果之间存在惊人的差异——你在不断优化、不断迭代，从一个小demo最终形成一个体系化的东西。"他强调智谱的核心方法论是"评测倒逼训练"——公域榜单背后是十个细粒度私有榜单，通过评测发现问题、倒推数据集和训练方案。

袁薇（阶跃星辰）从基础模型能力演进的角度呼应了这一判断，将AI发展分为三个阶段：提示词工程时代、上下文工程时代，以及当下的Harness Engineering（AI的"安全带与脚手架"，确保Agent稳定完成任务的约束和验证机制）时代。她的判断一针见血："AI的赛事已经从模型本身转向了构建更完善的外部环境。"从"会回答"到"会交付"的关键跨越，Harness正是Agent从演示级Demo走向企业级产品的"绝对分水岭"。

交付能力的前提是什么？沈林（阿里云）从"信息完备性"角度给出了回答。他指出很多行业的Agent处于"半失明"状态——感知能力非常弱。他的五句话总结令人印象深刻：给Agent足够的信息感知能力、编写"图书馆馆藏目录"、知识不等于信息堆积、每一次知识整理都是生产级变更、简单可靠不是锦上添花而是入场券。没有信息感知做底座，交付无从谈起。

赵鑫（中国人民大学）则把视角拉到更宏观的层面：大语言模型能力扩展的核心瓶颈在于"如何持续利用算力"。他提出了一条从环境扩展到工作流编排的路径——通过Docker环境模拟（甚至World Model模拟）来强化Agent的训练数据，以及多智能体分层编排（角色层→专家层→子任务层）来解决长程任务的稳定性问题。他判断"广义AI的实现至少还需1-2次范式突破"。

💡对话是入口，交付才是壁垒。AI不干活，就不值钱。

共识二：长期记忆是Agent的核心护城河

记忆系统被视为基模向高级智能体进化的关键。本次大会专门设立了记忆技术研讨会，多位演讲者从不同角度探讨了记忆的实现路径。

李博杰（Pine AI）在开幕式发言中率先从工程实践角度给出了判断框架：决定Agent能力上限的是模型和上下文，决定Agent能力下限的是Harness（约束、验证、纠正机制）。他特别指出，向量数据库并不适合做Agent的记忆管理——"100条数据里90条黑猫10条白猫，Top-K检索永远只返回黑猫"，更好的方式是Markdown+文件系统通过压缩总结固化知识。这段话实际上揭示了记忆管理的核心矛盾：检索精度vs.知识广度。

那么，记忆系统到底该怎么构建？大会上的讨论呈现出两个鲜明的方向：一个侧重于构建外部记忆系统，一个探索将记忆内化到模型参数中。

邓亚峰（EverMind/盛大集团）在记忆技术研讨会上分享的EverOS呈现了一种长期记忆驱动智能体进化的实践。他指出，OpenClaw之所以火爆，是因为它让人们看到了"AI贾维斯"的原型：具备主动性、长期记忆、可本地化部署。他提出"self-evolving"这一关键概念——AI在使用过程中自身也在成长，就像人和人交流一样，讲完一个话题之后自己也获得了新的认知。

王锴（腾讯混元）同样在研讨会上分享了一个截然不同的方向——函数式神经记忆，将记忆直接以动态权重的形式注入模型前向传播，而非外部挂载。他的比喻很生动："人的瞳孔会随光线强弱变化，但大模型训完之后就不动了，傻傻待在那里。我们要做的事情就是让大模型随着输入而动起来，以参数的形式动起来。"这是"参数化记忆"路线的典型代表。

两个方向的差异在于：外部记忆系统像计算机的"外存"，逻辑清晰但检索有瓶颈；参数化记忆像人类的"直觉"，响应极快但训练难度极高。但从趋势看，两者并非互斥——正如人类既有直觉反应，也有回忆检索，两条路径的协同可能是更合理的终局。

李志宇（记忆张量）在记忆工程体系设计中进一步系统化了这个方向，指出记忆能力可分为五个基础步骤：记忆抽取、组织、检索、更新和共享。他强调记忆系统是基模未来一段时间内实现长期进化的关键节点。

研讨会中还出现了更多视角：有人分享了UMEM框架，旨在打破Agent"死记硬背"的困局，实现可泛化的记忆；有人从类脑认知引擎的角度探讨了持续观察、反思学习与未来预测的记忆架构。这些工作共同指向一个方向：记忆不是简单的"存取"，而是Agent持续进化的核心引擎。

💡没有记忆的Agent，永远是第一天上班的实习生。

共识三：多模态原生统一是必然趋势

多模态领域的讨论呈现出"宏观路线一致、微观路径各异"的特点——大家公认统一是方向，但怎么走各有判断。

问题的起点在于：现有架构到底行不行？袁粒（北京大学深圳研究生院）从根本角度质疑了当前多模态架构的局限性。他指出，以语言为中心的架构（如GPT系列把视觉Token翻译成词元）天然无法让模型真正理解物理世界——"连人有几根手指都数不清，你指望它做具身智能？"他提出"What I can generate,I do understand"——生成能力与理解能力必须在同一架构中原生融合，而非割裂拼接。同时他指出了原生统一的核心挑战：模态冲突（神经元收敛到一种模态后就"躺平"）、扩散（AI生成内容的"慢工出细活"方法，类似画家一笔一笔画）与自回归AR（AI"边写边想"的生成方式，像人类写作文）两种建模范式的融合难题、以及视觉编码器至今未被统一。

既然原生融合如此困难，那有没有更务实的路径？张鸿杰（上海人工智能实验室）分享的InternVL-U给出了一个可行的答案。他的判断很清醒："关键不再是选哪一条路，而是能不能在统一的上下文中让理解和生成各有所长。"InternVL-U的设计哲学是"统一上下文+模块自定+视觉表征解耦"，结果是一个4D参数的模型性能不输3倍以上参数的模型——小参数量通过精巧设计同样可以达到大模型的水平。

圆桌讨论进一步印证了这条务实路线的可行性：原生融合的多模态训练代价太大，而小参数量的动态模型如果能在外部叠加编辑生成能力，性能并不比原生方案差，同时还能适配更小、更快速的部署场景。理想主义与实用主义之间，存在一条值得走的中间路线。

王作书（阿里云）则从全模态应用的角度展示了统一多模态的商业价值。阿里云的Omni模型同时拥有"眼睛、嘴巴和耳朵"——能同时理解视频画面、故事情节、情感氛围、微表情，并支持实时音视频流式交互。他总结全模态带来三个边界拓展：感知边界、推理边界、交互边界。从商业落地来看，统一多模态不是学术浪漫，而是用户需求驱动的必然。

💡统一不是混在一起，而是各司其职协同作战。

共识四：Token成为企业级AI的"水电煤"

随着多智能体协同爆发，企业需要对Token（AI的"计价单位"，类似电表的度数）进行精细化管控、路由调度和成本优化。

师天麾（清程极智）在开幕式环节率先提出了"构建Agent时代的高质量Token流通网络"的概念——Token不仅是成本，更是一种需要高效流通的资源。他同时分享了Token行业的"暗面"：部分服务商对模型做激进量化以次充好、缓存命中率不透明导致"便宜报价反而总成本更高"、服务质量（慢响应率）大幅下降等问题。Token管理不仅是技术问题，还是一个信息不对称的市场问题。

张文涛（焱融科技）从基础设施角度给出了降本方案：焱融科技的vCache推理加速方案能让低端显卡（如R6）的推理效率超过高端H20显卡——通过三级预缓存管理，显著降低推理成本。他提出"AI的竞争本质上是数据的竞争"，而推理成本的降低直接影响数据的流转效率。

王作书（阿里云）则直接将Token定义为"时代的水电煤"——阿里成立ATH事业群就是围绕"创造Token、输送Token、应用Token"这一使命。当AI能力渗透到每个业务环节，Token的流通和管理就成了基础设施级别的问题。

成本的另一面是商业模式。有与会者在圆桌讨论中算了一笔账："移动互联网时代有'羊毛出在猪身上'的广告模式，但AI时代——用户用得越多，Token消耗越大，Token成本远远大于广告的eCPM。旧的商业模式在AI时代彻底失效。"这对所有从业者都是一个警醒：Token经济学正在重塑商业逻辑。

💡Token是AI时代的石油，不会管Token的公司，迟早被成本淹没。

共识五：AI正在从数字世界迈向物理世界

程思婕（雷鸟创新）从智能眼镜角度阐述了这一趋势：AI将从手机等数字终端走向眼镜等物理世界载体。眼镜是最好的全域数据采集终端——第一人称视角视觉、全景音频、多模态传感——可以构建全方位的个人记忆和"外脑"。她判断智能眼镜将实现"数据飞轮"：设备采集数据→模型能力提升→产品体验更好→更多设备部署，与汽车智驾的数据闭环类似。硬件载体提供了AI进入物理世界的入口。

但进入物理世界不只是"看见"，更需要"理解"。黄杏（连心云）从"理解人心"的角度阐述了这一关键：AI只理解语言是不够的，它需要理解人的情绪、风险、动机。她的团队构建了以人为中心的"共情能和人本模型"，通过多模态识别与分析推理图谱（6000+知识节点、16000+对比关系），在教育、司法、金融等场景实现了心理洞察→业务洞察的转化。

物理世界的资产也在被AI重构。梁鼎（VAST）展示了从图片/文字直接生成3D模型的进展——已经从"像玩具"发展到可以进入游戏管线和3D打印生产线。他判断3D和视频最终会在世界模型（AI对物理世界的"虚拟大脑"，能模拟真实环境）上产生交汇——纯视频方案有记忆瓶颈、创作/消费分离难、多人一致性难、成本高等问题，3D原生的可控性和编辑性可以互补。

杨禹雪（中科院自动化所）进一步将物理世界的理解推向了"模拟与推演"的层面，分享了可扩展通用4D世界模型的工作：通过在线重建+生成的方式将训练数据扩展到百万级开放场景视频，实现"可视、可控、可推演"的4D能力，在自动驾驶和具身智能领域有广阔应用前景。

从感知到理解，从资产生成到世界模拟——AI进入物理世界的路径正在逐步清晰。

💡数字世界的AI已经够多了，物理世界才是下一个主战场。

「三大非共识：行业还在争论什么？」

非共识一：APP会消失吗？

Agent时代，用户交互的基本单元会不会从APP变成原子化的Skills（AI的"小技能"，类似手机APP的单一功能）？"消亡论"认为APP将被Agent编排的Skills彻底取代；"共生论"认为两者将长期共存、各司其职。

持"消亡论"的逻辑在于：Agent直接编排能力，APP是多余的中间层。卢国强（商汤大装置）指出，当系统的使用者从人变成Agent时，整个技术栈都需要重新思考："度量衡从MO变成了TOKEN，设计原则从GUI优先变成了CLI优先，安全模型从管人变成了管Agent。"APP是为人设计的界面，一旦Agent成为主要"用户"，APP的存在逻辑就被动摇了。

"共生论"的声音同样有力。黄超（香港大学）指出："现在不是Skills太少的问题，而是高质量Skills太少。一个Agent启动后，同样的任务可能匹配到几十个相似Skill，如何选择最合适的？这需要Harness层面的完善。"在Skill质量和选择机制成熟之前，APP仍然是必要的。李博杰从Claude Code和OpenClaw的源码对比中给出了更具体的观察：Claude Code没有做GUI，"它认为Agent不需要看界面"。但他同时指出，数据积累、专业业务逻辑、权限和数据治理仍然是软件不可替代的价值——这恰恰是当前APP形态承载的东西。宋健（极狐驭码）则提醒，MCP（AI的"工具箱"，包含多种技能模块）正在被Skills取代的论调是"暴论"，拆解了技术演进的真实路径：Mode→Rules→Flow→MCP→Skills——这些是逐层积累的关系，不是你死我活的替代。

底层分歧在于：消亡论相信自然语言界面（LUI）将重塑人类注意力分配方式，Agent会成为新的"超级APP"；共生论认为，复杂信息场景中人类对审美、探索、结构化体验的需求不会消失，APP形态仍有不可替代的价值。而卢国强的视角则跳出了这个二元框架——也许问题不是APP会不会消失，而是当使用者的身份从人变成Agent，整个系统的设计范式都需要重写。

非共识二：模型的天花板在哪里？

如果说2024年的行业共识是"scaling law（规模定律）"，那么2026年这个共识正在从内部瓦解。大会上，三种视角正面碰撞：决定AI能力天花板的，到底是评测体系、模型架构、还是工程化能力？

"评测决定论"认为，架构不是核心变量，你怎么衡量才重要。李子玄在圆桌讨论中给出了鲜明的立场：模型的强弱与架构关系不大，"架构更多的是决定怎么更快速地训练、需要的数据量更小"，核心在于评测体系。他的逻辑是：公域榜单背后是十个细粒度私有榜单，通过评测发现问题、倒推数据集和训练方案——谁定义了"好"，谁就决定了AI进化的方向。

"架构决定论"则认为，架构差异会直接导致AI行为的根本不同。林炜哲（华为中央研究院）的DLLM Agent研究给出了直接证据：在同等7B参数条件下，扩散语言模型（DLLM）Agent和自回归（AR）Agent展现出不同的行为模式——AR Agent倾向于"怀疑自己"、反复确认，DLLM Agent则"瞻前顾后"，在生成第一个Token时就能感知后续目标，决策更果断。这不是训练策略能弥补的，而是架构本身决定了Agent的"性格"。袁粒从多模态角度进一步印证了架构的刚性约束：以语言为中心的架构"连人几根手指都数不清"，生成能力与理解能力必须在同一架构中原生融合，这不是调参能解决的。

"工程决定论"则认为，模型只是引擎，怎么装车才决定能不能上路。赵鑫的判断很直接："本质还是工程。"大语言模型能力扩展的核心瓶颈在于"如何持续利用算力"，解法不在模型本身，而在环境扩展和工作流编排。张鸿杰也用实证说话：InternVL-U通过"统一上下文+模块自定+视觉表征解耦"的设计，4D参数的模型性能不输3倍参数的模型——小参数量+精巧工程，可以打败暴力堆料。

三种视角的根本差异在于对"AI能力边界"的归因方式不同：评测决定论认为能力边界由"你怎么定义和测量"决定发展方向；架构决定论认为由"信息处理的数学结构"决定；工程决定论认为由"如何系统化地组织能力"决定。现实中三者可能各对了一部分——评测决定方向，架构决定上限，工程决定下限。

非共识三：闭源还是开源？

当AI从实验室走向企业级的真实战场，技术路线的选择不仅关乎技术本身，更关乎商业模式的根本取舍。

王作书（阿里云）阐述了全栈闭源的逻辑：平头哥芯片出货已达47万片，加上阿里云数据中心、千问和通义大模型系列、百炼MaaS平台以及丰富的应用矩阵——"整体全栈服务能够提供确定性生产力"。他的论点聚焦在：企业客户为"确定性"付费，而全栈是端到端可控的路径。

王宁（网易有道）则分享了走开源路线的思考，指出开源=代码可审计=企业可信。他分享了一个有启发的观察："杰文斯悖论"正在AI行业重演——编程越厉害，产生的APP越多，而非程序员越少。开源模型催生的应用爆炸会反过来扩大市场蛋糕。他判断Agent产品还处于早期阶段，开源的生态力量远大于闭源的先发优势。

姚霆（智象未来HiDream.ai）从创作Agent的实践中提供了一个有意思的中间视角：创作技能需可共享、可复现，工作流需要可沉淀——Skill层的价值天然适合开源共享，而具体的编排和优化则需要产品化能力。开源与闭源可能不是全有全无的选择，而是在不同层级上有不同答案。

底层分歧在于：闭源路线赌的是企业客户愿意为确定性付溢价；开源路线赌的是市场增长速度超过闭源的利润收割速度。在Agent尚处早期的今天，开源的时间窗口或许更大——但当行业走向成熟、客户开始要求SLA和合规保障时，全栈的价值主张可能重新抬头。而姚霆的视角提醒我们，现实中的选择很可能不是非此即彼。

「关键启示与展望」

我们试图从四个视角提炼出更深层的信号——不是"AI很重要"之类的废话，而是你读完就能对号入座、立刻行动的判断。

🔥创业者视角：弯道在哪？坑在哪？

大赛道已经换了，别在旧地图上找新大陆。一年前你跟投资人讲"我们有10B参数的模型"，对方会认真听。现在？李子玄说得很直白——"公域榜单背后是十个私有榜单"。参数和公域跑分已经不能证明任何事，真正的壁垒是你针对具体场景构建的私有评测体系和训练闭环。这意味着：创业者不需要从零训模型，但必须从零建评测。

Harness和记忆是当前最大的结构性空白。袁薇把AI发展划分为三个时代，第三个时代是Harness Engineering——但今天市场上成熟的Harness方案几乎为零。李博杰说"决定Agent能力下限的是Harness"，而上限是模型，模型大厂会搞定上限，下限却没人管。这就是创业者的机会：谁能让Agent在真实业务中"不翻车"，谁就卡住了生态位。

邓亚峰提出的self-evolving概念同样指向一个空白：AI在使用中自我成长的能力。今天绝大多数Agent是"金鱼记忆"——每次对话都从零开始。谁能做出真正可用的长期记忆方案，谁就是Agent时代的"关系型数据库"。

Token经济学正在杀死"免费+广告"模式，先想清楚谁付费。王宁提到的"杰文斯悖论"是个好消息——AI越强，需求越大。但圆桌上的那笔账才是坏消息："用户用得越多，Token消耗越大，Token成本远远大于广告的eCPM。"你不能照搬移动互联网的免费模式。先想清楚谁付费、为什么付费，再动手。师天麾还揭示了一个暗面：便宜的服务商可能通过激进量化以次充好，你的"省钱"选择实际上在牺牲质量。

🏢模型大厂视角：护城河到底在哪？

参数规模不是护城河，评测体系才是。李子玄的话值得每个大厂深思："公域榜单背后是十个私有榜单。"你的模型在MMLU上刷到第一，客户不关心；客户关心的是在他那个细分场景里好不好用。这意味着：谁的私有评测体系覆盖的场景越多，谁就拥有真正的"评测壁垒"——因为评测决定了训练方向，训练方向决定了模型能力。赵鑫说得更直："本质还是工程。"

从"卷参数"到"卷场景+卷Token效率"。张鸿杰证明了一件事：小参数+解耦设计可以打败3倍参数的模型。这对大厂的启示是——盲目堆参数的ROI在急剧下降。未来的竞争是"谁的场景最深+谁的Token成本最低"。张文涛展示了让低端卡跑赢高端卡的技术路径，王作书直接把Token定义为"时代的水电煤"。Token效率将成为大厂的第二护城河。

开源与闭源不是二选一，而是分层策略。王宁的"杰文斯悖论"暗示：开源基础模型会催生更多应用，而非杀死大厂生意。聪明的策略可能是：基础模型开源（占生态位），核心Harness和记忆系统闭源（赚利润）。姚霆的洞察也印证了这一点——Skill层的价值在于"可共享、可复现"，天然适合开源；而编排和约束机制则需要深度优化，适合闭源。

💻软件/SaaS厂商视角：是灭绝还是重生？

当Agent成为新入口，你的产品还有存在的理由吗？大会上关于APP与Skills之争的讨论，本质上是在问每一个SaaS厂商的问题。卢国强说"度量衡从MO变成了TOKEN，GUI优先变成了CLI优先"——如果你的产品的核心价值就是"一套好用的界面"，Agent时代你可能就是最先被替代的。Claude Code的逻辑很明确：Agent不需要看GUI，直接调用就行。

但别急着恐慌——"软件不可替代的价值"比你想的要深。李博杰从源码对比中给出了冷静的判断：数据积累、专业业务逻辑、权限和数据治理，这三样东西Agent不会自动拥有。宋健进一步指出，MCP→Skills是逐层积累而非简单替代——你的产品中的业务逻辑和工作流，恰恰是高质量Skills的"原材料"。你的SaaS产品不是要被消灭，而是要被"Agent化"——从面向人使用的完整产品，变成可被Agent调用的能力服务。

最务实的转型路径：从"卖给企业"变成"嵌给Agent"。黄超的判断指明了方向："国内有大量国企和私企希望把Agent与内部系统打通。"谁先把自己的核心能力封装成Agent可调用的Skills或API，谁就能在"Agent即平台"的新生态中占据位置。这类似于移动互联网时代从"桌面软件"到"移动APP"的迁移——那些成功转型的不是最强的公司，而是最快拥抱新趋势的公司。

关键卡点：Token成本可能吃掉你的利润。王作书说Token是"时代的水电煤"，师天麾揭示了服务商"激进量化以次充好"的暗面。对SaaS厂商来说，如果你要在产品中嵌入AI能力，Token成本将直接冲击你的毛利率模型。你需要重新设计定价——过去按席位收费，未来可能要按调用量和Token消耗分层计费。圆桌上的那笔账值得反复看：旧商业模式在AI时代"彻底失效"。

🏭传统企业视角：从哪里开始？

不是"要不要用AI"，而是"你的行业Agent是不是半失明"。沈林的五句话总结值得每个企业对照：你给Agent足够的信息感知能力了吗？你有"图书馆馆藏目录"吗？你的知识是在堆积还是在整理？每一次知识整理你当成了生产级变更吗？你把"简单可靠"当入场券了吗？如果这五个问题你答不上来，先别急着上Agent——先解决"半失明"问题。

真正的切入点：不是从Agent开始，而是从数据和知识体系开始。李博杰的比喻极其精准："100条数据里90条黑猫10条白猫，Top-K检索永远只返回黑猫。"如果你内部的数据和知识是"黑猫堆"，Agent只会给你返回更多"黑猫"——这不是AI的问题，是你的数据问题。先做知识治理，再做Agent部署。

黄杏的"共情模型"给了一个更具体的切入路径：在教育、司法、金融等场景，AI不需要"万能"，只需要在"理解人"这件事上比现有流程强一步——从心理洞察到业务洞察的转化，就已经是巨大的价值增量。

物理世界的机会不要忽视。程思婕的"数据飞轮"逻辑值得传统制造业和服务业关注：智能眼镜+AI可以构建第一人称视角的全天候感知——这意味着质检、巡检、培训等场景可能被根本性重构。梁鼎的3D生成也不仅仅是"做游戏"，它正在进入3D打印生产线和工业设计管线。如果你的业务涉及物理世界的资产，现在是认真评估AI-物理融合的窗口期。

最后，李子玄说的一句话适合作为对所有人的提醒："PMF到来前，你要做好准备。当你肉眼看到风口的时候，已经晚了。"

2026年的中国AI行业，正在从"追风口"走向"造风口"。别再等了，干活吧。

作者：林栩LeoAI	编辑：苏米MiaAI

指标	本次
版本迭代次数	9版
主要问题类型	内容覆盖、派别定性、逻辑组织
审核优化点	结构重组、逻辑优化、措辞精细化、格式规范、视角排序

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI不干活，就不值钱