2026-06-15 21:02

Agent时代,真正的入口不是AI

author_path AIGC从0到1
头图

本文来自微信公众号:AIGC从0到1,作者:王零壹,题图来自:AI生成


过去半个月,入口战突然从暗线变成了明牌。Apple 把 Siri 重写成系统级 AI,把 App Intents 推到更核心的位置;Google 在 Android 上推 AppFunctions,让 App 功能变成 Gemini 可调用的函数;华为把小艺推成鸿蒙里的系统级 Agent;微信也开放了小程序接入微信 AI 的指引,开始让小程序从“用户点开”变成“AI 调用”。这些动作放在一起看,表面上是在争谁能调度 App、小程序和服务,深一层看,其实是在争:未来谁有资格站在用户和所有服务之间。


但我觉得,只把这场战争理解成“谁能调度更多 App”,还是浅了。


如果只把它想成一个更聪明的聊天框,或者 App Store 2.0,我觉得都低估了这件事。


它应该是一个被授权的个人情境层。


这个词听起来有点绕,我换个说法。


未来真正重要的是:哪个系统被你允许持续在场,理解你的状态、日程、位置、屏幕、关系、设备、支付权限和服务偏好。


它知道你正在看什么。


知道你下一步要去哪。


知道你和谁约了时间。


知道哪些事拖了三天还没处理。


知道这个动作能不能自动做,哪个动作必须让你确认。


它不只是等你开口,而是在某些时刻先判断:这件事值不值得提醒你,要不要帮你推进到下一步。


所以,Agent 时代真正的入口问题会变成:


哪个系统被允许持续理解我,并且在正确时刻有限地代表我行动。


一、入口革命从来不只是换界面


每一次入口革命,表面上看都是一个新界面出现了。


门户时代,是 Yahoo 和 AOL。


搜索时代,是 Google 搜索框。


社交和 Feed 时代,是 Facebook News Feed、微博、朋友圈、抖音流。


移动 App 时代,是 iPhone、App Store、微信、小程序。


但如果只看界面,就会误判入口的本质。


入口真正改掉的,是“意图如何被捕获”。


门户时代解决的是:我不记得网址,你替我把互联网分门别类。


搜索时代解决的是:我知道我要找什么,我输入关键词,机器替我排序全网。


Feed 时代解决的是:我不主动找信息,信息根据关系、兴趣、行为来找我。


移动 App 时代解决的是:服务和场景被装进手机,位置、相机、支付、通知、传感器都变成新的能力。


下一步要捕获的,不再只是关键词、点击、关系和位置。


下一步要捕获的是连续情境。


也就是:我现在处在什么状态,我正在做什么,什么事情马上要发生,哪些服务已经被我授权,哪些动作可以帮我推进一步。


这个变化比“AI 更会聊天”大得多。


因为聊天只是表达意图的一种方式。


真正的入口,是系统能不能在你还没完整表达时,就已经理解到足够多的上下文。


二、现在大家争的,多数还是工具调度层


今天苹果、Google、华为、微信做的事情都很重要。


但它们多数还停留在“工具调度层”。


苹果的 App Intents,是让 App 把自己的功能和数据声明成系统可调用的意图。订一张桌、查一笔订单、改一个设置,都可以变成 Siri 可以调用的动作。


Google 的 AppFunctions,也是类似逻辑。Android App 把功能注册给系统,Gemini 或其他授权调用者就能发现并执行。


华为在鸿蒙里推进小艺、Intent Framework、AI Kit、MCP 与元服务,本质上也是把系统能力和应用能力变成 Agent 可调度的模块。


微信的小程序 AI 化,则是把小程序变成微信 AI 可以调用的服务单元。自动模式让平台理解现有页面,开发模式让开发者把业务能力封装成更结构化的 Skill。


这些动作的共同点是:


它们都在把 App 或小程序拆成能力函数。


过去 App 是用户打开的入口。


现在 App 开始变成 AI 调用的工具。


这一步很关键。


没有工具化,Agent 只能聊天,办不了事。


但工具化还不是终点。


它解决的是“怎么做事”。


真正的新入口还要解决另一个问题:


系统怎么知道现在该不该做、该为谁做、做到哪一步。


前者是手。


后者才是眼睛、记忆、判断和授权。


三、真正的入口,是个人情境层


我更愿意把下一代入口称为“个人情境层”。


它有五个特征。


第一,持续在场。


它不等你打开某个 App,也不等你进入一个聊天框。它通过手机、耳机、手表、车机、电脑、未来的眼镜,持续理解你和环境之间的关系。


第二,端侧优先。


越贴近个人的数据,越不能随便上云。屏幕内容、位置、日程、联系人、健康、支付、照片、设备状态,最好先在本地处理。需要云端模型时,也要有可验证的隐私边界。


第三,多模态感知。


它不只理解文字。它要理解语音、屏幕、图像、位置、日程、消息、联系人、设备状态和环境。


第四,工具化执行。


它把 App、小程序、网页、支付、地图、消息、日历、企业系统,变成可调用的能力。


第五,分级授权。


低风险事项可以自动处理。


中风险事项要一键确认。


高风险事项必须解释原因、让用户确认、留下记录、允许撤销。


这五件事合在一起,才是下一代入口。


否则,一个系统即使能调度很多 App,也只是一个更强的工具调用器。


它还不是“入口”。


四、为什么不能完全自动


这里要加一个边界。


我不认为主流形态会是“AI 完全替用户做决定”。


很多人一说 Agent,就想象一个自动替你安排生活、替你下单、替你回复所有消息的系统。


这不现实。


更重要的是,用户也未必愿意。


现实中,人们可能愿意让 AI 做这样的事:


“你 30 分钟后有会,路上堵车,要不要现在叫车?”


“这封邮件涉及合同截止日,要不要我先起草回复?”


“你刚和客户聊到报价,要不要生成 CRM 记录?”


“你正在看这个商品,要不要我查一下历史低价和替代品?”


但用户未必愿意让 AI 直接做这样的事:


“我已经替你改签机票。”


“我已经替你下单更贵的方案。”


“我已经替你回复客户并承诺了交付时间。”


“我已经帮你把合同条款改了。”


所以更可能成为主流的,是“副驾驶式 Agent”,不是“自动驾驶式 Agent”。


它可以主动感知。


可以主动建议。


可以预填信息。


可以比较选项。


可以草拟方案。


可以推进流程到确认前一步。


但关键动作要让用户知道、理解、确认。


这也是为什么我前面说,真正的入口光有主动和感知还不够。它必须被信任地持续感知,也必须被授权地有限行动。


这个“有限”很重要。


没有限制,就没有信任。


五、四条最可能的技术路线


现在看,最接近个人情境层的路线大概有四条。


第一条,是苹果式路线:端侧模型 + 私有云 + 系统级个人上下文。


苹果的优势是硬件、系统、隐私叙事和设备控制。它最适合处理日程、邮件、屏幕内容、照片、位置、通知这些敏感上下文。


苹果的问题也很明显:端侧模型受算力、电池、内存和新硬件覆盖率限制;另外,苹果在全球服务图谱、商户、搜索、开放生态上不如 Google,也不如中国的超级 App。


所以苹果可能定义“可信个人 Agent”的隐私标准,但未必最快做出能办最多事的入口。


第二条,是 Google 式路线:搜索、Android、Gmail、Calendar、Maps、Chrome、YouTube、Gemini 和 AppFunctions 串在一起。


Google 的优势是完整。


它有搜索,有地图,有邮件,有日历,有浏览器,有 Android,有 Gemini,还有 Project Astra 这种实时多模态助理方向。


如果只看“谁最可能先做出一个真正能用的主动入口”,Google 概率很高。


但 Google 的问题是信任。


它的商业模式长期依赖广告和搜索分发。用户会担心:主动感知到底是在帮我,还是在更精确地影响我?


第三条,是可穿戴路线:眼镜、耳机、手表、车机。


主动入口需要持续在场。手机很强,但经常在口袋里。耳机贴着耳朵,手表贴着身体,车机知道你的移动场景,眼镜未来可能看到你正在看的世界。


Meta 的 Ray-Ban 眼镜、Google 的 Android XR 眼镜,都在往这个方向走。


但这条路最容易撞上隐私墙。


眼镜拍摄别人,麦克风持续收音,旁观者如何知道自己被感知,这些都不是小问题。


所以眼镜可能是未来的高频界面,但不会在 2026 到 2027 年单独成为主入口。


短期更现实的,是手机 + 耳机 + 手表 + 车机 + 少量眼镜场景一起组成情境层。


第四条,是中国式路线:超级 App + 系统级智能体。


中国的特殊之处是服务密度极高。


打车、外卖、支付、挂号、政务、团购、快递、出行、内容、电商、企业协作,都已经高度数字化,而且很多服务集中在少数超级 App 里。


微信有消息、支付、小程序、公众号、视频号、社交关系、企业微信。


支付宝有支付、信用、金融和生活服务。


美团有本地生活。


高德和百度有地图。


抖音有内容和兴趣电商。


华为、小米、OPPO、vivo、荣耀有系统权限和设备感知。


这让中国有机会比欧美更快做出“能办事”的 Agent。


但中国的问题也更硬:上下文割裂。


微信掌握社交和服务,但不完全掌握系统级传感器。


手机厂商掌握系统和设备,但不掌握全部交易与社交关系。


电商、本地生活、内容平台各有自己的数据和支付闭环。


结果就是,每个平台都能做“自己的主动入口”,但很难做“用户的完整入口”。



六、中国变量:终端分散,微信服务密度高


中国市场的特殊性,不在模型,而在入口结构。


一边是手机厂商。


华为、小米、vivo、OPPO、荣耀都有自己的系统助手、模型、意图框架和开发者接入方式。它们离设备很近,能拿到系统权限、传感器、屏幕、通知、多设备协同这些上下文。


但它们的问题是横向迁移很难。


你在一台手机上长期使用某个系统助手,换到另一个品牌,很多偏好和理解很难完整带走。


开发者也会遇到类似问题。


一个服务如果想被多家终端 Agent 调用,就要面对多套文档、多套审核、多套市场、多套能力边界。即使底层工具协议正在收敛,真正接入时,仍然要分别处理账号、权限、审核、支付、责任和分成。


这就是终端侧的现实:靠近设备,但彼此分散。


另一边是微信。


微信不一定掌握最完整的系统级传感器,但它掌握了中国最密集的服务关系。


账号体系在这里。


支付和风控在这里。


小程序在这里。


公众号、视频号、群、私域、企业微信也在这里。


很多服务不是先长在操作系统里,而是先长在微信生态里。用户找商家、进群、下单、付款、售后、复购,很多时候都发生在微信这条链路里。


所以微信做 Agent,起点和手机厂商不一样。


手机厂商要把服务接进系统。


微信要做的是把已有服务变成 AI 可以理解和调用的任务单元。


这也是为什么微信的小程序 AI 化很重要。


它不是单纯多一个助手,而是在把已经存在的服务网络,改造成可被 Agent 调度的执行网络。


不过微信也有自己的边界。


它的服务密度很高,但更多发生在微信生态内部。


它能很好地调度小程序、支付、公众号、群和私域服务,却不天然掌握所有系统能力,也不天然打通所有 App 原生功能。


因此,中国的关键问题不是“微信会不会成为唯一入口”,也不是“终端厂能不能各自做出系统 Agent”。


真正的问题是:


系统侧的个人情境,和平台侧的服务网络,能不能形成一种可互认的调用关系。


这里卡住的,仍然是三件事:


身份怎么认。


信任怎么给。


收益怎么分。


这三件事表面像技术细节,实际是分配秩序。


没有一个公共规则,终端厂会各做各的,超级 App 也会各做各的。最后每个平台都能在自己的范围内做得很强,但用户得到的是多个彼此分开的“半入口”。


海外的入口战,更多是 Apple、Google、Meta 这些巨头在自己的系统里收编 App。


中国的入口战要复杂得多:终端、超级 App、独立 AI 入口、监管、支付、服务生态都在场。


所以中国卡住的不是模型。


卡住的是公共规则。


七、为什么公共规则这么难


很多人会说:既然大家都支持 MCP,问题不就解决了吗?


没有。


MCP 只是工具调用协议。


它解决的是“怎么调用”。


它不解决“凭什么调用”。


一个外来 Agent 凭什么读我的上下文?


凭什么调用我的服务?


凭什么替用户下单?


出了错谁负责?


调用带来的交易收入怎么分?


用户授权在哪个平台生效?


用户撤销授权后,记录怎么处理?


这些都不在普通技术协议里。


它们是治理层问题。


所以中国眼下最需要的,不是硬把大家统一成一个 Agent OS。


让华为、小米、vivo、OPPO、荣耀统一一个系统核心,几乎不现实。


每家都有自己的系统、芯片、设备、商业目标和安全边界。


更现实的做法,是在上面立一层薄薄的公共标准。


不碰各家的系统核心。


不要求交出用户数据。


先解决一件事:


一个外来 Agent 或一个服务能力,如何被注册、认证、授权、调用、审计和分账。


身份与信任先通。


分成随后。


数据可以不互通,甚至可以永远不互通。


但调用规则要有。


否则未来三年,中国可能出现一个很尴尬的局面:


人人都在做 Agent OS,但没有一个真正的 Agent OS。


每家都有助手,但每个助手只能调自己体系里的那一部分东西。


用户换手机,助手失忆。


开发者接五套框架,维护成本爆炸。


小 App 只接微信,大厂只接头部平台。


终端厂的系统 Agent 最后变成一个高级闹钟,能调设置,能看日程,但调不动用户每天真正用的那些服务。


这不是危言。


这是把今天每一条已经画好的线,往前延长一点。


八、真正入口出现前,会先经历三个阶段


我倾向于分三个阶段看。


第一阶段,2026 到 2027 年:工具层标准化。


苹果 App Intents、Google AppFunctions、华为 Intent Framework、微信小程序 AI 接入、腾讯元器、各种 MCP 和 Skill,都会继续把 App 和服务拆成可调用的动作。


这一阶段,用户体验更多是:你说一句,Agent 帮你跨 App 做几步。


主动性还不会特别强。


系统最多在通知、锁屏卡片、日历、导航、会议、邮件、购物助手这些窄场景里提出建议。


第二阶段,2027 到 2029 年:低打扰、低风险、可确认的主动建议。


系统会越来越像这样:


“你现在去机场可能来不及,要不要改签?”


“这封邮件涉及合同截止日,要不要我起草回复?”


“你刚和客户聊到报价,要不要生成 CRM 记录?”


“你正在看这个商品,要不要我查历史低价和替代品?”


这时,耳机、手表、车机、轻量眼镜会变得更重要。


它们不一定单独成为入口,但会变成个人情境层的传感器和提示界面。


第三阶段,2029 到 2032 年:如果隐私、权限和商业分配被解决,个人情境层才可能成为主入口。


到那时,用户不再频繁思考“打开哪个 App”。


App 还在,但退到后台。


搜索还在,但很多查询由 Agent 在需要时替用户完成。


社交和内容流还在,但会被个人情境层过滤、总结、延后,或者转化成行动。


真正发生入口迁移,不能只看厂商有没有发布一个 AI 助手。


要看这四件事有没有同时发生:


用户每天接受系统主动建议,而不是只在聊天框里提问。


开发者把核心能力注册成 Agent 可调用函数,而不是只争 App 打开率。


高价值场景中,用户愿意授权 Agent 预填、比较、预约、草拟、下单前确认。


系统提供可审计、可撤销、可解释的行动日志,用户知道 Agent 为什么介入、调用了什么、影响了什么。


九、谁最可能先定义这个入口


全球来看,Google 最可能先做出能力最完整的主动入口。


因为它有服务图谱、搜索、地图、邮件、日历、Android、Chrome、Gemini 和 Astra。


它的问题是用户信任。


Apple 最可能定义可信度最高的主动入口。


因为它有硬件、系统、隐私叙事、端侧模型和 Private Cloud Compute。


它的问题是服务执行图谱不够完整,开放生态也更慢。


Meta 最可能定义最像未来设备的入口表面。


因为眼镜确实更接近“持续在场”。


但它的问题是隐私信任和服务执行能力。


中国来看,微信和华为是两个半入口。


微信更接近服务入口和关系入口。


华为更接近设备入口和系统情境入口。


单独看,微信最可能定义服务调度。


华为最可能定义端侧感知和系统级主动建议。


但真正的新入口如果在中国成型,大概率不是某一家完全吞掉另一家。


更可能是某种组合:


系统级情境层,加上超级 App 服务图谱。


这也是为什么公共规则重要。


没有公共规则,系统级情境层调不到足够多的服务。


没有系统级情境层,超级 App 很难真正理解用户设备和环境。


两边都缺一块。


十、被授权的个人情境操作系统


Agent 时代,真正的入口不是 Agent App、聊天框、App Store 2.0,也不是智能眼镜本身。


我更愿意把它叫作:被授权的个人情境操作系统。


它持续在场,但不能越界。


它理解你,但不能偷看。


它能调用工具,但不能替你乱做决定。


它可以主动建议,但关键动作必须让你知道、确认、可撤销。


它不会消灭 App,它会把 App 推到后台,让 App 变成能力供应商。


它也不是替用户全自动生活。它更像把用户推进到一种更少选择、更少重复、更少漏事的状态。


这件事最难的地方,从来不只是模型。


模型会继续变强。


工具协议会继续标准化。


端侧算力会继续提升。


眼镜、耳机、手表、车机也会越来越像情境入口的组成部分。


真正难的是:


用户愿不愿意授权。


平台愿不愿意互认。


App 愿不愿意被调用。


交易和责任怎么分。


出错之后谁负责。


如果这些问题解决不了,Agent 入口战最后只会变成一堆更聪明、但彼此割裂的系统。


如果这些问题能被解决,入口革命才会真的发生。


那时用户不会说“我要打开某个 Agent”。


用户只会觉得:


它知道我现在可能需要什么,而且我敢让它帮我做到下一步。


本文来自微信公众号:AIGC从0到1,作者:王零壹

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。