“智能员工”已到岗，企业准备好了吗？-虎嗅网

本文来自微信公众号：复旦管院，编辑：徐玉茹，责编：孙睿，作者：张诚，原文标题：《“智能员工”已到岗，企业准备好了吗？ | 智能涌见》

从“会聊天”转向“能办事”，多AI智能体协作加速落地

从模型参数规模到能力展示，AI近年来的技术进展令人目不暇接。如果说2025年是AI真正进入各行各业应用的“AI元年”，那么2026年，多智能体（Agent）协作将加速落地，完成以前单智能体做不到的更复杂任务，使得AI赋能管理的范围和深度不断增长。

今年以来，以OpenClaw为代表的一类智能体工具迅速走红，“让AI直接动手做事”成为新的竞争焦点，相关产品与生态持续升温。近期，包括微信在内的平台也开始开放接口，从开发者社区到平台生态，AI智能体正加快走向更具象的现实应用。

生成式AI的突破，让机器具备了理解与表达能力。以ChatGPT为代表的大模型，像一位博学的顾问，能够分析问题、提供建议、生成内容。而Agent的出现，使AI变身超级助手，从“会聊天”转向“能办事”。

在企业应用层面，一个智能体既可以作为被调用的工具存在，也可以作为相对独立的工作单元嵌入流程之中，承担边界清晰的任务职责。在此基础上，Agent正在与结构化的“能力库”结合。

每一个Agent都被清楚地定义：它能做什么、应该做什么、工作逻辑是什么，再把不同Agent的能力模块化、标准化地接入系统，让模型能够自动判断“该由谁来做什么”，而不再依赖专门的人来分配和管理任务。用户只需给出目标，Agent便可在不同应用之间完成流程串联。

许多知识型工作，在流程层面往往体现为一连串有先后顺序的判断、查证、总结与修正。过去这些步骤需要人来驱动，现在可以由多个智能体分工完成，而人只保留关键判断与最终责任。这种变化，将直接影响的是企业中大量白领工作的组织方式。

从企业流程走向日常生活，Agent的执行能力开始在消费端落地。例如近日频登热搜的阿里通义千问AI，就已经将生活服务类Agent嵌入应用体系。用户只需发出一句指令，例如“帮我点一杯奶茶”，系统即可自动完成店铺筛选、订单确认与支付流程，并结合历史偏好进行个性化调整。

02

从堆人力到超级个体，传统专业分工现状将被改变

过去几十年，企业增长往往依赖更细密的岗位拆分与更多的人力投入。复杂任务被拆解为若干环节，由不同角色分别承担，组织通过分工实现效率提升。在AI逐步嵌入业务流程之后，这种以“堆人力”为核心的扩张方式，正在出现新的变量。

大模型的发展，让“以人为中心”的工作方式成为可能。传统创业需要团队协作，以弥补个人在财务、运营等领域的不足；但未来，借助大模型，一个人可能就能扮演多个专业角色。例如，AI可以处理会计、法律文书、市场分析等工作，使创始人能更专注于核心创意与战略、降低创业门槛。

在这样的背景下，分工不会立刻消失，但可能变得不再那样细碎。协调本身，正在成为可以被技术吸收的一部分成本。当个体可以在AI系统的支持下承担更完整的工作单元时，企业结构或许将出现更大的弹性空间。

需要注意的是，一方面，大模型与Agent的发展，让一个人具备了过去需要多个岗位协作才能完成的能力，客观上降低了分工与协同的必要性；但另一方面，历史经验反复表明，新技术并不会自动转化为生产力提升，反而常常因为组织结构等问题而被“浪费”。历史上的蒸汽机、电力、互联网，都是发明之后十年以上，才真正改变企业生产效率。原因在于组织最初往往只是用新技术去替换旧流程，而不是围绕技术特性重构组织方式。

AI同样面临“技术先进、组织滞后”的陷阱。如果它仅被当作写作助手或分析插件使用，带来的只是局部优化；真正的效率红利，来自围绕AI重新设计组织与分工。

03 不止于语言，AI开始尝试“理解世界”

在特定维度，AI早已展现出“超人”般的能力，但从另一个角度看，AI又像“幼童”般存在明显局限：它“思考”本质仅仅是基于数据统计的概率预测，缺乏真正的情感和对世界的深层认知。比如扮演专业人士时进行多轮对话后会偏离原本角色预设；回答问题时会产生“幻觉”，输出看似合理却不符合事实的内容。

这些问题的根源，在于模型主要建立在语言数据之上。语言是对世界的抽象描述，而非世界本身。它天然带有压缩与失真。当模型只通过文本学习世界时，其认知边界也被限制在语言所能表达的范围之内。正因如此，“世界模型”成为近年来人工智能研究的重要方向。与单纯的文本生成不同，世界模型试图让系统通过多模态信息，视觉、听觉、空间动态去刻画环境运行的规律。

从Sora到可灵（Kling），新一代视频生成模型在时间连续性、物体间交互以及对基础物理规律的刻画上不断取得进展，其生成结果开始呈现出更稳定、更连贯的“世界感”。这也促使人们开始重新思考：视频生成是否仍只是内容合成工具，还是有可能进一步演化为可支撑推理、规划与决策的通用世界模拟器。

去年11月，“AI教母”、斯坦福大学教授李飞飞的创业公司World Labs正式推出其首款产品Marble，由多模态世界模型提供支持，该模型能通过单张图片、一段视频或一句文本提示创建高保真、持久的3D世界。在李飞飞看来，世界模型是实现空间智能的关键，是继大语言模型之后，AI下一个十年的核心主线。

在研究和应用层面，这一方向正逐步与具身智能、自动驾驶等领域形成交叉。一方面，这些应用场景对环境理解、长期预测与因果一致性提出了更高要求；另一方面，相关模型在模拟真实世界动态方面的能力，也被视为迈向更通用智能形态的重要基础。也正是在这样的需求推动下，视频生成被越来越多地纳入“世界建模”的讨论框架之中。

从短视频生成到环境模拟，其间仍存在不小距离。但可以看到，围绕视频生成和世界模型的探索，正在从单纯追求视觉效果，转向模型是否真正“理解”了所生成的世界，以及这种理解能在多大程度上支撑后续的推理与决策。这一转向，正在为相关研究与产业应用打开新的想象空间。

*部分图片由AI生成

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

“智能员工”已到岗，企业准备好了吗？

从“会聊天”转向“能办事”，多AI智能体协作加速落地

02

03

不止于语言，AI开始尝试“理解世界”

大 家 都 在 搜

大家都在搜