扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-02-09 12:26

桌面Agent 下卖铲子的人

本文来自微信公众号: 王智远 ,作者:王智远,原文标题:《桌面 Agent 下卖铲子的人》


OpenClaw火了十来天。


短短十天里,AI圈吵翻了天。有人说它是「桌面Agent的ChatGPT时刻」,有人说它只是极客玩具,还有人盯着Token账单直呼烧不起。


这场景,让我瞬间想起「AI Skills」爆火时,我当时还跟身边的朋友说过,很多东西真没必要死磕,看个热闹、了解是究竟怎么回事就行。


为啥呢?因为目前市面上绝大多数的AI产物,本质是「过渡形态」。不信,我们先看看,这玩意儿到底是什么物种?


先把话说透:OpenClaw是一个能本地运行、自带自主执行逻辑、可以深度操控你电脑系统、文件的开源桌面智能体(Agent)。


正因为它开源、还能一键部署,普通人也能上手试试,这才让它十天就炸了AI圈。


看,这就懵了吧,每个词都认识,放一起,就乱了。别急,想象一下,你家以前有电视、空调、音响,每个电器都有一个专门的遥控器。


想看电视就得拿电视遥控器,想开空调又得换一个,厂家们为了让你多瞅两眼他们的遥控器,把按钮做得五颜六色,还贴满了乱七八糟的广告。


到最后,家里桌子上全是破遥控器,烦都烦死了,咋办?


这时候有人站出来,做了一个Agent,就是OpenClaw。它像一个「万能语音遥控器」,你只要跟它说一句话,它就自动去帮你按那些繁琐的按钮,不用你自己动手。


所以,它和我们日常用的豆包、文心、ChatGPT完全不是一个东西。


别人只在对话框里待着,它能钻进你的系统、读写文件、发邮件、写代码、跑脚本、模拟鼠标键盘,像一个24小时待命的数字员工。


简单讲,它是AI的「手」和「脚」;它没有「大脑」,得靠调用MiniMax、Claude这些大模型做推理,它只负责把模型的想法,真正落地到电脑操作里的执行层。


聊到这儿,估计不少人跟我一样心想:OpenClaw是独立开发者做的开源工具,自己没「大脑」,还烧钱、还要手搓、还有安全隐患,那大厂为啥要费这么大劲,赶在这10天里扎堆跟进?


答案很简单,OpenClaw无意间捅破了一层窗户纸。


大厂们怕别人先抢走「AI操控电脑」的核心入口,更怕自己在马上要到来的桌面Agent时代,被甩在后面,甚至彻底丢了桌面端的话语权。


要知道,大厂从来都不打没准备的仗,更不会瞎跟风,这次之所以打破常规,急急忙忙下场,背后藏着的是AI行业最核心的竞争逻辑。


啥逻辑啊?三个词:时间、权限、生态。这三个词串起来的每一步,都透着紧迫感,甚至能决定未来AI行业的竞争格局。


为啥这么讲?


先说说时间的事儿,互联网竞争有个冷知识,抢功能不如抢用户心智,抢心智不如抢用户习惯。大厂们集体「急了」,因为他们发现,OpenClaw正在定义一种特别吓人的用户习惯:「跳过App」。


以前我们要打车、比价、写文档,得在几个App之间反复横跳,大厂靠着这些精美的UI界面拦住你的视线,顺便塞给你广告和会员。


现在这东西一出来,只要说句话,它在后台把所有活儿都干了,大厂心里跟明镜似的,这种「需求已经被验证」的窗口期,慢一步,就可能被竞争对手抢了先手。


而且,第一批种子用户虽说只是一时跟风,但他们是「第一批被教育的用户」,谁先让他们用自己的云服务器、自己的部署方案,谁就能先在他们心里种下「AI操控电脑,找我就对了」的印象。


后续不管用户留存,教育市场、还是引导他们用更高级的算力、更贵的模型API,都是水到渠成的事。


接着,就是抢权限问题了。OpenClaw再火,也是「外来户」,它没有电脑系统的核心权限,所有操作本质上都是骗电脑,这戳到了大厂的痛处。


你琢磨琢磨,阿里、腾讯为啥急着上云服务器模板?因为他们要借着「安全焦虑」,把权限攥回自己手里。


你不敢在本地跑OpenClaw,怕它误删文件、跑路,那我就给你提供一个云端的「数字沙盒」,你在我这儿跑,我既能帮你把Agent隔离开,保证安全,还能顺便攥住Agent操控电脑的最高解释权。


所以,他们心里门清,桌面Agent的终局,是「谁的权限更高」,权限决定了产品的上限,决定谁能真正把「AI操控电脑」做到极致。


说到这儿,就在周六(2月7号),豆包也推出了浏览器和桌面助手的分开版本。为啥这么急?因为它也想赶紧动手,把手里的「权限」,快速变成面向普通用户的产品优势。


至于最后,就是为抢生态了。咱们都知道,大厂做产品要长期的生态闭环,让用户从头到尾,都离不开自己的产品体系。


OpenClaw爆火之后,大厂敏锐地发现,这是个搭生态的好机会,借着热度,快速再把自己的算力、模型、系统、硬件串起来,形成一个「Agent生态闭环」。


谁能做到这一点,谁就能在未来的Agent时代占据绝对主导地位;要慢一步,生态被其他大厂抢了,自己再想挤进去,就得付出几倍甚至几十倍的代价。


所以,抢权限,为了筑牢长期的产品壁垒;抢生态,是为了掌控未来的行业格局。


如果说战略宏图是大厂布的一盘大棋,那对咱们普通用户来说,最核心的疑问就一个:


到底有没有这个需求?它到底解决实际痛点的真命题,还是只为缓解大家「不折腾就落后」的焦虑?


在我看来,它是一种过渡型需求,短期靠尝鲜撑热度,中期是规模化落地的必经之路,长期形态会慢慢消失,但背后的核心需求,会一直都在。


为啥呢?咱们分阶段看。


从最直观的短期来看,这一波OpenClaw带火的「一键部署」,本质是流量需求,不是真使用需求。


你仔细想想,跟着教程一键部署的人,大多都抱着「我也拥有贾维斯了」的好奇心,装完截张图、发个朋友圈,之后就再也没打开过。


因为部署完,麻烦才真正开始。


Token消耗得飞快,半小时就能烧掉上百万,普通用户根本扛不住;再加上高权限带来的安全顾虑,生怕它误删重要文件、泄露聊天记录,没人敢真拿它处理正经工作。


更关键的是,大多数人根本没那么多「需要AI自动完成的繁琐任务」。平时无非发个邮件、整理个文件,自己动手几分钟就搞定,犯不着折腾Agent,更没必要为了这几分钟,承担Token成本和安全风险。


所以,短期来看,一键部署根本没解决用户的真实痛点。


它让不懂代码、不懂模型的普通人,也能跟风蹭一波AI热度,可热度一退,没有真实使用场景撑着,自然就被丢在一边。


放到中期来看,情况就完全不一样了。


未来一两年,「一键部署」会从「流量需求」变成真正的刚需,甚至是桌面Agent走出极客圈、走向普通用户和企业的必经之路。


毕竟桌面Agent本身门槛太高,企业想用Agent自动处理报表、批量发邮件,总不能每个团队都配个技术人员专门部署吧?


普通人想让Agent帮忙取消邮件订阅、整理行程,也不可能先花好几天学代码、学配置吧?


这时候,「一键部署」就成了降门槛的关键。


阿里云、腾讯云、百度智能云推出的一键部署模板,都在为中期规模化铺路,先让用户「用起来」,再慢慢引导他们「用下去」。


再看长期,三年以上,一键部署这种形态会慢慢消失,但它背后「低门槛使用Agent」的核心需求,会一直存在;因为大厂们会把Agent直接原生集成到系统里,开机就能用,根本不用用户手动部署。


比如:


苹果的Apple Intelligence、微软的Copilot、华为鸿蒙的原生智能,未来都会直接内置在系统里,你打开电脑,直接跟AI说「帮我做什么」,它就能直接干活。


云厂商也会把Agent集成到云桌面里,用户登录就能直接用。到那时,「一键部署」也就没必要存在了,它只是用来填补「系统原生Agent还没上线」的空白期。


所以,咱们要分清,形态消失不代表低门槛使用Agent的需求消失了;恰恰相反,需求只会越来越规模化、越来越刚性。


未来,AI操控电脑会像现在用Wi-Fi、蓝牙一样普遍,每个人都需要一个不用折腾、开箱即用的Agent,这么一想,所有事儿就都通透了。


既然大家都看准了未来AI操控电脑标准配置,那这场桌面agent的收编、或者叫竞争赛,谁才是掌握大权的「最高法院呢?


现在的OpenClaw,本质是对系统搞「暴力破解」。它的做法,就像家里来了个帮厨,不认识厨房的开关,只能拿着说明书一点点瞎试。


这种「非侵入式」的接管,说难听点是一种低效的补丁。


真正的「最高法院」是掌握了系统底层的「房东」,比如:苹果、微软、或者国内的华为、小米。


这些玩家手里攥着「系统内核」和「原生API」,他们做的原生Agent,压根不需要截屏,直接在系统底层发指令就行,就跟你脑子里一想「握拳」,手立刻就动了,不用先睁眼看手在哪儿。


这种「原生权限」带来的响应速度、隐私安全和低功耗,是任何第三方补丁都跨不过去的鸿沟。


但这里有个关键变数:握得住「躯壳」的人,不一定能搞定「灵魂」。你看,手机厂、系统厂虽是房东,握着系统钥匙,但未必是最顶尖的「大厨」。


大模型的训练、推理调度,还有复杂逻辑理解,都是极烧钱、极吃人才的硬本事;不是说你掌控了系统内核,就能做出Claude、MiniMax那样聪明的「大脑」。


所以,模型厂商的机会就在这儿。


系统厂的「原生Agent」脑子不够灵光,最后大概率还得放低身段,去拥抱头部模型厂;这个趋势已经很明显了:系统厂出「权限」和「骨架」,模型厂提供「智力」与「灵魂」,这是互补式的收编。


还有一种更具想象力的野心:如果房东不给钥匙,那大厨就自己盖房子。


就像现在的豆包,一连串动作都在释放一个信号:


现有手机、电脑系统给的权限不够用,那干脆做一款AI时代的「原生硬件」?直接把模型、硬件、系统全链路锁死。这种「自带灵魂的躯壳」,才有可能把Agent的体验拉到天花板,成为终极形态。


所以,要么系统厂收编模型,要么模型厂重塑硬件。在这个各显神通的时代,谁才是闷声发大财的「卖铲人」呢?


这波浪潮里,最先尝到甜头的是像MiniMax这样的玩家。


为啥OpenClaw的作者专门点名M2.1模型?因为在Agent圈子里,办事得经历无数次自我纠错、指令循环,这对模型的逻辑稳定性要求,已经到了变态的地步。


MiniMax聪明地方在于,专注卷「指令跟随」,这十天里,只要你跑OpenClaw,你的API账单,大概率就交到它手里了。


昆仑万维前两天,刚发布了天工Skywork桌面版。


它号称「Windows版的Claude Cowork」,这种思路是典型的「中国式卖铲子」;我不光卖你大脑,还把「办公室环境」都给你搭好了,让你能直接雇一个「AI员工」处理本地文件,还不用担心安全。


还有智谱AI,他们的AutoGLM走另一种「动作模型」原生化的路子,他们想把「看屏幕、点图标」的能力直接练进模型里。


不过说白了,打法都差不多,先让模型跑起来,用云+端兜底,快速让普通人能用得上。


国外就不一样了,老外的思路完全是另一种画风。


Anthropic推出的「Computer Use」,典型的「标准定义者」逻辑,它想定义一套让AI操控电脑的底层协议,相当于告诉全世界:以后AI调动鼠标键盘,就得按我这套规矩来。


这就好比当年定义Wi-Fi标准一样,它想在动作层收税。


而OpenAI的「Operator」和Google的Jarvis,走入口收割的路子;OpenAI追求「托管式的简单」,它想做Agent界的「应用商店」;而Google则把Jarvis直接揉进Chrome生态。


这儿就有个很明显的对比:


国外大厂忙着「造地基、定标准」,走的是科研驱动、想从根上重构电脑逻辑的路线;国内大厂则忙着「搞基建、推落地」,走的是场景驱动、快速响应普通用户需求的路线。


除了卖模型的、做应用的,最稳的还要数「数字房东」,云厂商。


只要你的Agent还在后台疯狂烧Token进行自我对话,你的云费和流量费就一分都少不了,所以,云厂商这次也会赢麻了。


说白了,这一场桌面Agent的狂欢,本质是互联网从「流量经济」向「任务经济」的一次大转型。没有谁高谁低,关键就看谁能抓住信息差,抢占先机。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: