2026-06-15 21:02

Agent时代，真正的入口不是AI

本文来自微信公众号：AIGC从0到1，作者：王零壹，题图来自：AI生成

过去半个月，入口战突然从暗线变成了明牌。Apple 把 Siri 重写成系统级 AI，把 App Intents 推到更核心的位置；Google 在 Android 上推 AppFunctions，让 App 功能变成 Gemini 可调用的函数；华为把小艺推成鸿蒙里的系统级 Agent；微信也开放了小程序接入微信 AI 的指引，开始让小程序从“用户点开”变成“AI 调用”。这些动作放在一起看，表面上是在争谁能调度 App、小程序和服务，深一层看，其实是在争：未来谁有资格站在用户和所有服务之间。

但我觉得，只把这场战争理解成“谁能调度更多 App”，还是浅了。

如果只把它想成一个更聪明的聊天框，或者 App Store 2.0，我觉得都低估了这件事。

它应该是一个被授权的个人情境层。

这个词听起来有点绕，我换个说法。

未来真正重要的是：哪个系统被你允许持续在场，理解你的状态、日程、位置、屏幕、关系、设备、支付权限和服务偏好。

它知道你正在看什么。

知道你下一步要去哪。

知道你和谁约了时间。

知道哪些事拖了三天还没处理。

知道这个动作能不能自动做，哪个动作必须让你确认。

它不只是等你开口，而是在某些时刻先判断：这件事值不值得提醒你，要不要帮你推进到下一步。

所以，Agent 时代真正的入口问题会变成：

哪个系统被允许持续理解我，并且在正确时刻有限地代表我行动。

一、入口革命从来不只是换界面

每一次入口革命，表面上看都是一个新界面出现了。

门户时代，是 Yahoo 和 AOL。

搜索时代，是 Google 搜索框。

社交和 Feed 时代，是 Facebook News Feed、微博、朋友圈、抖音流。

移动 App 时代，是 iPhone、App Store、微信、小程序。

但如果只看界面，就会误判入口的本质。

入口真正改掉的，是“意图如何被捕获”。

门户时代解决的是：我不记得网址，你替我把互联网分门别类。

搜索时代解决的是：我知道我要找什么，我输入关键词，机器替我排序全网。

Feed 时代解决的是：我不主动找信息，信息根据关系、兴趣、行为来找我。

移动 App 时代解决的是：服务和场景被装进手机，位置、相机、支付、通知、传感器都变成新的能力。

下一步要捕获的，不再只是关键词、点击、关系和位置。

下一步要捕获的是连续情境。

也就是：我现在处在什么状态，我正在做什么，什么事情马上要发生，哪些服务已经被我授权，哪些动作可以帮我推进一步。

这个变化比“AI 更会聊天”大得多。

因为聊天只是表达意图的一种方式。

真正的入口，是系统能不能在你还没完整表达时，就已经理解到足够多的上下文。

二、现在大家争的，多数还是工具调度层

今天苹果、Google、华为、微信做的事情都很重要。

但它们多数还停留在“工具调度层”。

苹果的 App Intents，是让 App 把自己的功能和数据声明成系统可调用的意图。订一张桌、查一笔订单、改一个设置，都可以变成 Siri 可以调用的动作。

Google 的 AppFunctions，也是类似逻辑。Android App 把功能注册给系统，Gemini 或其他授权调用者就能发现并执行。

华为在鸿蒙里推进小艺、Intent Framework、AI Kit、MCP 与元服务，本质上也是把系统能力和应用能力变成 Agent 可调度的模块。

微信的小程序 AI 化，则是把小程序变成微信 AI 可以调用的服务单元。自动模式让平台理解现有页面，开发模式让开发者把业务能力封装成更结构化的 Skill。

这些动作的共同点是：

它们都在把 App 或小程序拆成能力函数。

过去 App 是用户打开的入口。

现在 App 开始变成 AI 调用的工具。

这一步很关键。

没有工具化，Agent 只能聊天，办不了事。

但工具化还不是终点。

它解决的是“怎么做事”。

真正的新入口还要解决另一个问题：

系统怎么知道现在该不该做、该为谁做、做到哪一步。

前者是手。

后者才是眼睛、记忆、判断和授权。

三、真正的入口，是个人情境层

我更愿意把下一代入口称为“个人情境层”。

它有五个特征。

第一，持续在场。

它不等你打开某个 App，也不等你进入一个聊天框。它通过手机、耳机、手表、车机、电脑、未来的眼镜，持续理解你和环境之间的关系。

第二，端侧优先。

越贴近个人的数据，越不能随便上云。屏幕内容、位置、日程、联系人、健康、支付、照片、设备状态，最好先在本地处理。需要云端模型时，也要有可验证的隐私边界。

第三，多模态感知。

它不只理解文字。它要理解语音、屏幕、图像、位置、日程、消息、联系人、设备状态和环境。

第四，工具化执行。

它把 App、小程序、网页、支付、地图、消息、日历、企业系统，变成可调用的能力。

第五，分级授权。

低风险事项可以自动处理。

中风险事项要一键确认。

高风险事项必须解释原因、让用户确认、留下记录、允许撤销。

这五件事合在一起，才是下一代入口。

否则，一个系统即使能调度很多 App，也只是一个更强的工具调用器。

它还不是“入口”。

四、为什么不能完全自动

这里要加一个边界。

我不认为主流形态会是“AI 完全替用户做决定”。

很多人一说 Agent，就想象一个自动替你安排生活、替你下单、替你回复所有消息的系统。

这不现实。

更重要的是，用户也未必愿意。

现实中，人们可能愿意让 AI 做这样的事：

“你 30 分钟后有会，路上堵车，要不要现在叫车？”

“这封邮件涉及合同截止日，要不要我先起草回复？”

“你刚和客户聊到报价，要不要生成 CRM 记录？”

“你正在看这个商品，要不要我查一下历史低价和替代品？”

但用户未必愿意让 AI 直接做这样的事：

“我已经替你改签机票。”

“我已经替你下单更贵的方案。”

“我已经替你回复客户并承诺了交付时间。”

“我已经帮你把合同条款改了。”

所以更可能成为主流的，是“副驾驶式 Agent”，不是“自动驾驶式 Agent”。

它可以主动感知。

可以主动建议。

可以预填信息。

可以比较选项。

可以草拟方案。

可以推进流程到确认前一步。

但关键动作要让用户知道、理解、确认。

这也是为什么我前面说，真正的入口光有主动和感知还不够。它必须被信任地持续感知，也必须被授权地有限行动。

这个“有限”很重要。

没有限制，就没有信任。

五、四条最可能的技术路线

现在看，最接近个人情境层的路线大概有四条。

第一条，是苹果式路线：端侧模型 + 私有云 + 系统级个人上下文。

苹果的优势是硬件、系统、隐私叙事和设备控制。它最适合处理日程、邮件、屏幕内容、照片、位置、通知这些敏感上下文。

苹果的问题也很明显：端侧模型受算力、电池、内存和新硬件覆盖率限制；另外，苹果在全球服务图谱、商户、搜索、开放生态上不如 Google，也不如中国的超级 App。

所以苹果可能定义“可信个人 Agent”的隐私标准，但未必最快做出能办最多事的入口。

第二条，是 Google 式路线：搜索、Android、Gmail、Calendar、Maps、Chrome、YouTube、Gemini 和 AppFunctions 串在一起。

Google 的优势是完整。

它有搜索，有地图，有邮件，有日历，有浏览器，有 Android，有 Gemini，还有 Project Astra 这种实时多模态助理方向。

如果只看“谁最可能先做出一个真正能用的主动入口”，Google 概率很高。

但 Google 的问题是信任。

它的商业模式长期依赖广告和搜索分发。用户会担心：主动感知到底是在帮我，还是在更精确地影响我？

第三条，是可穿戴路线：眼镜、耳机、手表、车机。

主动入口需要持续在场。手机很强，但经常在口袋里。耳机贴着耳朵，手表贴着身体，车机知道你的移动场景，眼镜未来可能看到你正在看的世界。

Meta 的 Ray-Ban 眼镜、Google 的 Android XR 眼镜，都在往这个方向走。

但这条路最容易撞上隐私墙。

眼镜拍摄别人，麦克风持续收音，旁观者如何知道自己被感知，这些都不是小问题。

所以眼镜可能是未来的高频界面，但不会在 2026 到 2027 年单独成为主入口。

短期更现实的，是手机 + 耳机 + 手表 + 车机 + 少量眼镜场景一起组成情境层。

第四条，是中国式路线：超级 App + 系统级智能体。

中国的特殊之处是服务密度极高。

打车、外卖、支付、挂号、政务、团购、快递、出行、内容、电商、企业协作，都已经高度数字化，而且很多服务集中在少数超级 App 里。

微信有消息、支付、小程序、公众号、视频号、社交关系、企业微信。

支付宝有支付、信用、金融和生活服务。

美团有本地生活。

高德和百度有地图。

抖音有内容和兴趣电商。

华为、小米、OPPO、vivo、荣耀有系统权限和设备感知。

这让中国有机会比欧美更快做出“能办事”的 Agent。

但中国的问题也更硬：上下文割裂。

微信掌握社交和服务，但不完全掌握系统级传感器。

手机厂商掌握系统和设备，但不掌握全部交易与社交关系。

电商、本地生活、内容平台各有自己的数据和支付闭环。

结果就是，每个平台都能做“自己的主动入口”，但很难做“用户的完整入口”。

六、中国变量：终端分散，微信服务密度高

中国市场的特殊性，不在模型，而在入口结构。

一边是手机厂商。

华为、小米、vivo、OPPO、荣耀都有自己的系统助手、模型、意图框架和开发者接入方式。它们离设备很近，能拿到系统权限、传感器、屏幕、通知、多设备协同这些上下文。

但它们的问题是横向迁移很难。

你在一台手机上长期使用某个系统助手，换到另一个品牌，很多偏好和理解很难完整带走。

开发者也会遇到类似问题。

一个服务如果想被多家终端 Agent 调用，就要面对多套文档、多套审核、多套市场、多套能力边界。即使底层工具协议正在收敛，真正接入时，仍然要分别处理账号、权限、审核、支付、责任和分成。

这就是终端侧的现实：靠近设备，但彼此分散。

另一边是微信。

微信不一定掌握最完整的系统级传感器，但它掌握了中国最密集的服务关系。

账号体系在这里。

支付和风控在这里。

小程序在这里。

公众号、视频号、群、私域、企业微信也在这里。

很多服务不是先长在操作系统里，而是先长在微信生态里。用户找商家、进群、下单、付款、售后、复购，很多时候都发生在微信这条链路里。

所以微信做 Agent，起点和手机厂商不一样。

手机厂商要把服务接进系统。

微信要做的是把已有服务变成 AI 可以理解和调用的任务单元。

这也是为什么微信的小程序 AI 化很重要。

它不是单纯多一个助手，而是在把已经存在的服务网络，改造成可被 Agent 调度的执行网络。

不过微信也有自己的边界。

它的服务密度很高，但更多发生在微信生态内部。

它能很好地调度小程序、支付、公众号、群和私域服务，却不天然掌握所有系统能力，也不天然打通所有 App 原生功能。

因此，中国的关键问题不是“微信会不会成为唯一入口”，也不是“终端厂能不能各自做出系统 Agent”。

真正的问题是：

系统侧的个人情境，和平台侧的服务网络，能不能形成一种可互认的调用关系。

这里卡住的，仍然是三件事：

身份怎么认。

信任怎么给。

收益怎么分。

这三件事表面像技术细节，实际是分配秩序。

没有一个公共规则，终端厂会各做各的，超级 App 也会各做各的。最后每个平台都能在自己的范围内做得很强，但用户得到的是多个彼此分开的“半入口”。

海外的入口战，更多是 Apple、Google、Meta 这些巨头在自己的系统里收编 App。

中国的入口战要复杂得多：终端、超级 App、独立 AI 入口、监管、支付、服务生态都在场。

所以中国卡住的不是模型。

卡住的是公共规则。

七、为什么公共规则这么难

很多人会说：既然大家都支持 MCP，问题不就解决了吗？

没有。

MCP 只是工具调用协议。

它解决的是“怎么调用”。

它不解决“凭什么调用”。

一个外来 Agent 凭什么读我的上下文？

凭什么调用我的服务？

凭什么替用户下单？

出了错谁负责？

调用带来的交易收入怎么分？

用户授权在哪个平台生效？

用户撤销授权后，记录怎么处理？

这些都不在普通技术协议里。

它们是治理层问题。

所以中国眼下最需要的，不是硬把大家统一成一个 Agent OS。

让华为、小米、vivo、OPPO、荣耀统一一个系统核心，几乎不现实。

每家都有自己的系统、芯片、设备、商业目标和安全边界。

更现实的做法，是在上面立一层薄薄的公共标准。

不碰各家的系统核心。

不要求交出用户数据。

先解决一件事：

一个外来 Agent 或一个服务能力，如何被注册、认证、授权、调用、审计和分账。

身份与信任先通。

分成随后。

数据可以不互通，甚至可以永远不互通。

但调用规则要有。

否则未来三年，中国可能出现一个很尴尬的局面：

人人都在做 Agent OS，但没有一个真正的 Agent OS。

每家都有助手，但每个助手只能调自己体系里的那一部分东西。

用户换手机，助手失忆。

开发者接五套框架，维护成本爆炸。

小 App 只接微信，大厂只接头部平台。

终端厂的系统 Agent 最后变成一个高级闹钟，能调设置，能看日程，但调不动用户每天真正用的那些服务。

这不是危言。

这是把今天每一条已经画好的线，往前延长一点。

八、真正入口出现前，会先经历三个阶段

我倾向于分三个阶段看。

第一阶段，2026 到 2027 年：工具层标准化。

苹果 App Intents、Google AppFunctions、华为 Intent Framework、微信小程序 AI 接入、腾讯元器、各种 MCP 和 Skill，都会继续把 App 和服务拆成可调用的动作。

这一阶段，用户体验更多是：你说一句，Agent 帮你跨 App 做几步。

主动性还不会特别强。

系统最多在通知、锁屏卡片、日历、导航、会议、邮件、购物助手这些窄场景里提出建议。

第二阶段，2027 到 2029 年：低打扰、低风险、可确认的主动建议。

系统会越来越像这样：

“你现在去机场可能来不及，要不要改签？”

“这封邮件涉及合同截止日，要不要我起草回复？”

“你刚和客户聊到报价，要不要生成 CRM 记录？”

“你正在看这个商品，要不要我查历史低价和替代品？”

这时，耳机、手表、车机、轻量眼镜会变得更重要。

它们不一定单独成为入口，但会变成个人情境层的传感器和提示界面。

第三阶段，2029 到 2032 年：如果隐私、权限和商业分配被解决，个人情境层才可能成为主入口。

到那时，用户不再频繁思考“打开哪个 App”。

App 还在，但退到后台。

搜索还在，但很多查询由 Agent 在需要时替用户完成。

社交和内容流还在，但会被个人情境层过滤、总结、延后，或者转化成行动。

真正发生入口迁移，不能只看厂商有没有发布一个 AI 助手。

要看这四件事有没有同时发生：

用户每天接受系统主动建议，而不是只在聊天框里提问。

开发者把核心能力注册成 Agent 可调用函数，而不是只争 App 打开率。

高价值场景中，用户愿意授权 Agent 预填、比较、预约、草拟、下单前确认。

系统提供可审计、可撤销、可解释的行动日志，用户知道 Agent 为什么介入、调用了什么、影响了什么。

九、谁最可能先定义这个入口

全球来看，Google 最可能先做出能力最完整的主动入口。

因为它有服务图谱、搜索、地图、邮件、日历、Android、Chrome、Gemini 和 Astra。

它的问题是用户信任。

Apple 最可能定义可信度最高的主动入口。

因为它有硬件、系统、隐私叙事、端侧模型和 Private Cloud Compute。

它的问题是服务执行图谱不够完整，开放生态也更慢。

Meta 最可能定义最像未来设备的入口表面。

因为眼镜确实更接近“持续在场”。

但它的问题是隐私信任和服务执行能力。

中国来看，微信和华为是两个半入口。

微信更接近服务入口和关系入口。

华为更接近设备入口和系统情境入口。

单独看，微信最可能定义服务调度。

华为最可能定义端侧感知和系统级主动建议。

但真正的新入口如果在中国成型，大概率不是某一家完全吞掉另一家。

更可能是某种组合：

系统级情境层，加上超级 App 服务图谱。

这也是为什么公共规则重要。

没有公共规则，系统级情境层调不到足够多的服务。

没有系统级情境层，超级 App 很难真正理解用户设备和环境。

两边都缺一块。

十、被授权的个人情境操作系统

Agent 时代，真正的入口不是 Agent App、聊天框、App Store 2.0，也不是智能眼镜本身。

我更愿意把它叫作：被授权的个人情境操作系统。

它持续在场，但不能越界。

它理解你，但不能偷看。

它能调用工具，但不能替你乱做决定。

它可以主动建议，但关键动作必须让你知道、确认、可撤销。

它不会消灭 App，它会把 App 推到后台，让 App 变成能力供应商。

它也不是替用户全自动生活。它更像把用户推进到一种更少选择、更少重复、更少漏事的状态。

这件事最难的地方，从来不只是模型。

模型会继续变强。

工具协议会继续标准化。

端侧算力会继续提升。

眼镜、耳机、手表、车机也会越来越像情境入口的组成部分。

真正难的是：

用户愿不愿意授权。

平台愿不愿意互认。

App 愿不愿意被调用。

交易和责任怎么分。

出错之后谁负责。

如果这些问题解决不了，Agent 入口战最后只会变成一堆更聪明、但彼此割裂的系统。

如果这些问题能被解决，入口革命才会真的发生。

那时用户不会说“我要打开某个 Agent”。

用户只会觉得：

它知道我现在可能需要什么，而且我敢让它帮我做到下一步。

本文来自微信公众号：AIGC从0到1，作者：王零壹

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI原生产品日报

频道：前沿科技