2026-02-09 12:26

桌面Agent 下卖铲子的人

智远同学

速览

本文来自微信公众号：王智远，作者：王智远，原文标题：《桌面 Agent 下卖铲子的人》

OpenClaw火了十来天。

短短十天里，AI圈吵翻了天。有人说它是「桌面Agent的ChatGPT时刻」，有人说它只是极客玩具，还有人盯着Token账单直呼烧不起。

这场景，让我瞬间想起「AI Skills」爆火时，我当时还跟身边的朋友说过，很多东西真没必要死磕，看个热闹、了解是究竟怎么回事就行。

为啥呢？因为目前市面上绝大多数的AI产物，本质是「过渡形态」。不信，我们先看看，这玩意儿到底是什么物种？

先把话说透：OpenClaw是一个能本地运行、自带自主执行逻辑、可以深度操控你电脑系统、文件的开源桌面智能体（Agent）。

正因为它开源、还能一键部署，普通人也能上手试试，这才让它十天就炸了AI圈。

看，这就懵了吧，每个词都认识，放一起，就乱了。别急，想象一下，你家以前有电视、空调、音响，每个电器都有一个专门的遥控器。

想看电视就得拿电视遥控器，想开空调又得换一个，厂家们为了让你多瞅两眼他们的遥控器，把按钮做得五颜六色，还贴满了乱七八糟的广告。

到最后，家里桌子上全是破遥控器，烦都烦死了，咋办？

这时候有人站出来，做了一个Agent，就是OpenClaw。它像一个「万能语音遥控器」，你只要跟它说一句话，它就自动去帮你按那些繁琐的按钮，不用你自己动手。

所以，它和我们日常用的豆包、文心、ChatGPT完全不是一个东西。

别人只在对话框里待着，它能钻进你的系统、读写文件、发邮件、写代码、跑脚本、模拟鼠标键盘，像一个24小时待命的数字员工。

简单讲，它是AI的「手」和「脚」；它没有「大脑」，得靠调用MiniMax、Claude这些大模型做推理，它只负责把模型的想法，真正落地到电脑操作里的执行层。

聊到这儿，估计不少人跟我一样心想：OpenClaw是独立开发者做的开源工具，自己没「大脑」，还烧钱、还要手搓、还有安全隐患，那大厂为啥要费这么大劲，赶在这10天里扎堆跟进？

答案很简单，OpenClaw无意间捅破了一层窗户纸。

大厂们怕别人先抢走「AI操控电脑」的核心入口，更怕自己在马上要到来的桌面Agent时代，被甩在后面，甚至彻底丢了桌面端的话语权。

要知道，大厂从来都不打没准备的仗，更不会瞎跟风，这次之所以打破常规，急急忙忙下场，背后藏着的是AI行业最核心的竞争逻辑。

啥逻辑啊？三个词：时间、权限、生态。这三个词串起来的每一步，都透着紧迫感，甚至能决定未来AI行业的竞争格局。

为啥这么讲？

先说说时间的事儿，互联网竞争有个冷知识，抢功能不如抢用户心智，抢心智不如抢用户习惯。大厂们集体「急了」，因为他们发现，OpenClaw正在定义一种特别吓人的用户习惯：「跳过App」。

以前我们要打车、比价、写文档，得在几个App之间反复横跳，大厂靠着这些精美的UI界面拦住你的视线，顺便塞给你广告和会员。

现在这东西一出来，只要说句话，它在后台把所有活儿都干了，大厂心里跟明镜似的，这种「需求已经被验证」的窗口期，慢一步，就可能被竞争对手抢了先手。

而且，第一批种子用户虽说只是一时跟风，但他们是「第一批被教育的用户」，谁先让他们用自己的云服务器、自己的部署方案，谁就能先在他们心里种下「AI操控电脑，找我就对了」的印象。

后续不管用户留存，教育市场、还是引导他们用更高级的算力、更贵的模型API，都是水到渠成的事。

接着，就是抢权限问题了。OpenClaw再火，也是「外来户」，它没有电脑系统的核心权限，所有操作本质上都是骗电脑，这戳到了大厂的痛处。

你琢磨琢磨，阿里、腾讯为啥急着上云服务器模板？因为他们要借着「安全焦虑」，把权限攥回自己手里。

你不敢在本地跑OpenClaw，怕它误删文件、跑路，那我就给你提供一个云端的「数字沙盒」，你在我这儿跑，我既能帮你把Agent隔离开，保证安全，还能顺便攥住Agent操控电脑的最高解释权。

所以，他们心里门清，桌面Agent的终局，是「谁的权限更高」，权限决定了产品的上限，决定谁能真正把「AI操控电脑」做到极致。

说到这儿，就在周六（2月7号），豆包也推出了浏览器和桌面助手的分开版本。为啥这么急？因为它也想赶紧动手，把手里的「权限」，快速变成面向普通用户的产品优势。

至于最后，就是为抢生态了。咱们都知道，大厂做产品要长期的生态闭环，让用户从头到尾，都离不开自己的产品体系。

OpenClaw爆火之后，大厂敏锐地发现，这是个搭生态的好机会，借着热度，快速再把自己的算力、模型、系统、硬件串起来，形成一个「Agent生态闭环」。

谁能做到这一点，谁就能在未来的Agent时代占据绝对主导地位；要慢一步，生态被其他大厂抢了，自己再想挤进去，就得付出几倍甚至几十倍的代价。

所以，抢权限，为了筑牢长期的产品壁垒；抢生态，是为了掌控未来的行业格局。

如果说战略宏图是大厂布的一盘大棋，那对咱们普通用户来说，最核心的疑问就一个：

到底有没有这个需求？它到底解决实际痛点的真命题，还是只为缓解大家「不折腾就落后」的焦虑？

在我看来，它是一种过渡型需求，短期靠尝鲜撑热度，中期是规模化落地的必经之路，长期形态会慢慢消失，但背后的核心需求，会一直都在。

为啥呢？咱们分阶段看。

从最直观的短期来看，这一波OpenClaw带火的「一键部署」，本质是流量需求，不是真使用需求。

你仔细想想，跟着教程一键部署的人，大多都抱着「我也拥有贾维斯了」的好奇心，装完截张图、发个朋友圈，之后就再也没打开过。

因为部署完，麻烦才真正开始。

Token消耗得飞快，半小时就能烧掉上百万，普通用户根本扛不住；再加上高权限带来的安全顾虑，生怕它误删重要文件、泄露聊天记录，没人敢真拿它处理正经工作。

更关键的是，大多数人根本没那么多「需要AI自动完成的繁琐任务」。平时无非发个邮件、整理个文件，自己动手几分钟就搞定，犯不着折腾Agent，更没必要为了这几分钟，承担Token成本和安全风险。

所以，短期来看，一键部署根本没解决用户的真实痛点。

它让不懂代码、不懂模型的普通人，也能跟风蹭一波AI热度，可热度一退，没有真实使用场景撑着，自然就被丢在一边。

放到中期来看，情况就完全不一样了。

未来一两年，「一键部署」会从「流量需求」变成真正的刚需，甚至是桌面Agent走出极客圈、走向普通用户和企业的必经之路。

毕竟桌面Agent本身门槛太高，企业想用Agent自动处理报表、批量发邮件，总不能每个团队都配个技术人员专门部署吧？

普通人想让Agent帮忙取消邮件订阅、整理行程，也不可能先花好几天学代码、学配置吧？

这时候，「一键部署」就成了降门槛的关键。

阿里云、腾讯云、百度智能云推出的一键部署模板，都在为中期规模化铺路，先让用户「用起来」，再慢慢引导他们「用下去」。

再看长期，三年以上，一键部署这种形态会慢慢消失，但它背后「低门槛使用Agent」的核心需求，会一直存在；因为大厂们会把Agent直接原生集成到系统里，开机就能用，根本不用用户手动部署。

比如：

苹果的Apple Intelligence、微软的Copilot、华为鸿蒙的原生智能，未来都会直接内置在系统里，你打开电脑，直接跟AI说「帮我做什么」，它就能直接干活。

云厂商也会把Agent集成到云桌面里，用户登录就能直接用。到那时，「一键部署」也就没必要存在了，它只是用来填补「系统原生Agent还没上线」的空白期。

所以，咱们要分清，形态消失不代表低门槛使用Agent的需求消失了；恰恰相反，需求只会越来越规模化、越来越刚性。

未来，AI操控电脑会像现在用Wi-Fi、蓝牙一样普遍，每个人都需要一个不用折腾、开箱即用的Agent，这么一想，所有事儿就都通透了。

既然大家都看准了未来AI操控电脑标准配置，那这场桌面agent的收编、或者叫竞争赛，谁才是掌握大权的「最高法院呢？

现在的OpenClaw，本质是对系统搞「暴力破解」。它的做法，就像家里来了个帮厨，不认识厨房的开关，只能拿着说明书一点点瞎试。

这种「非侵入式」的接管，说难听点是一种低效的补丁。

真正的「最高法院」是掌握了系统底层的「房东」，比如：苹果、微软、或者国内的华为、小米。

这些玩家手里攥着「系统内核」和「原生API」，他们做的原生Agent，压根不需要截屏，直接在系统底层发指令就行，就跟你脑子里一想「握拳」，手立刻就动了，不用先睁眼看手在哪儿。

这种「原生权限」带来的响应速度、隐私安全和低功耗，是任何第三方补丁都跨不过去的鸿沟。

但这里有个关键变数：握得住「躯壳」的人，不一定能搞定「灵魂」。你看，手机厂、系统厂虽是房东，握着系统钥匙，但未必是最顶尖的「大厨」。

大模型的训练、推理调度，还有复杂逻辑理解，都是极烧钱、极吃人才的硬本事；不是说你掌控了系统内核，就能做出Claude、MiniMax那样聪明的「大脑」。

所以，模型厂商的机会就在这儿。

系统厂的「原生Agent」脑子不够灵光，最后大概率还得放低身段，去拥抱头部模型厂；这个趋势已经很明显了：系统厂出「权限」和「骨架」，模型厂提供「智力」与「灵魂」，这是互补式的收编。

还有一种更具想象力的野心：如果房东不给钥匙，那大厨就自己盖房子。

就像现在的豆包，一连串动作都在释放一个信号：

现有手机、电脑系统给的权限不够用，那干脆做一款AI时代的「原生硬件」？直接把模型、硬件、系统全链路锁死。这种「自带灵魂的躯壳」，才有可能把Agent的体验拉到天花板，成为终极形态。

所以，要么系统厂收编模型，要么模型厂重塑硬件。在这个各显神通的时代，谁才是闷声发大财的「卖铲人」呢？

这波浪潮里，最先尝到甜头的是像MiniMax这样的玩家。

为啥OpenClaw的作者专门点名M2.1模型？因为在Agent圈子里，办事得经历无数次自我纠错、指令循环，这对模型的逻辑稳定性要求，已经到了变态的地步。

MiniMax聪明地方在于，专注卷「指令跟随」，这十天里，只要你跑OpenClaw，你的API账单，大概率就交到它手里了。

昆仑万维前两天，刚发布了天工Skywork桌面版。

它号称「Windows版的Claude Cowork」，这种思路是典型的「中国式卖铲子」；我不光卖你大脑，还把「办公室环境」都给你搭好了，让你能直接雇一个「AI员工」处理本地文件，还不用担心安全。

还有智谱AI，他们的AutoGLM走另一种「动作模型」原生化的路子，他们想把「看屏幕、点图标」的能力直接练进模型里。

不过说白了，打法都差不多，先让模型跑起来，用云+端兜底，快速让普通人能用得上。

国外就不一样了，老外的思路完全是另一种画风。

Anthropic推出的「Computer Use」，典型的「标准定义者」逻辑，它想定义一套让AI操控电脑的底层协议，相当于告诉全世界：以后AI调动鼠标键盘，就得按我这套规矩来。

这就好比当年定义Wi-Fi标准一样，它想在动作层收税。

而OpenAI的「Operator」和Google的Jarvis，走入口收割的路子；OpenAI追求「托管式的简单」，它想做Agent界的「应用商店」；而Google则把Jarvis直接揉进Chrome生态。

这儿就有个很明显的对比：

国外大厂忙着「造地基、定标准」，走的是科研驱动、想从根上重构电脑逻辑的路线；国内大厂则忙着「搞基建、推落地」，走的是场景驱动、快速响应普通用户需求的路线。

除了卖模型的、做应用的，最稳的还要数「数字房东」，云厂商。

只要你的Agent还在后台疯狂烧Token进行自我对话，你的云费和流量费就一分都少不了，所以，云厂商这次也会赢麻了。

说白了，这一场桌面Agent的狂欢，本质是互联网从「流量经济」向「任务经济」的一次大转型。没有谁高谁低，关键就看谁能抓住信息差，抢占先机。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技