
本文来自微信公众号:AIGC从0到1,作者:王零壹,题图来自:AI生成
过去半个月,入口战突然从暗线变成了明牌。Apple 把 Siri 重写成系统级 AI,把 App Intents 推到更核心的位置;Google 在 Android 上推 AppFunctions,让 App 功能变成 Gemini 可调用的函数;华为把小艺推成鸿蒙里的系统级 Agent;微信也开放了小程序接入微信 AI 的指引,开始让小程序从“用户点开”变成“AI 调用”。这些动作放在一起看,表面上是在争谁能调度 App、小程序和服务,深一层看,其实是在争:未来谁有资格站在用户和所有服务之间。
但我觉得,只把这场战争理解成“谁能调度更多 App”,还是浅了。
如果只把它想成一个更聪明的聊天框,或者 App Store 2.0,我觉得都低估了这件事。
它应该是一个被授权的个人情境层。
这个词听起来有点绕,我换个说法。
未来真正重要的是:哪个系统被你允许持续在场,理解你的状态、日程、位置、屏幕、关系、设备、支付权限和服务偏好。
它知道你正在看什么。
知道你下一步要去哪。
知道你和谁约了时间。
知道哪些事拖了三天还没处理。
知道这个动作能不能自动做,哪个动作必须让你确认。
它不只是等你开口,而是在某些时刻先判断:这件事值不值得提醒你,要不要帮你推进到下一步。
所以,Agent 时代真正的入口问题会变成:
哪个系统被允许持续理解我,并且在正确时刻有限地代表我行动。
一、入口革命从来不只是换界面
每一次入口革命,表面上看都是一个新界面出现了。
门户时代,是 Yahoo 和 AOL。
搜索时代,是 Google 搜索框。
社交和 Feed 时代,是 Facebook News Feed、微博、朋友圈、抖音流。
移动 App 时代,是 iPhone、App Store、微信、小程序。
但如果只看界面,就会误判入口的本质。
入口真正改掉的,是“意图如何被捕获”。
门户时代解决的是:我不记得网址,你替我把互联网分门别类。
搜索时代解决的是:我知道我要找什么,我输入关键词,机器替我排序全网。
Feed 时代解决的是:我不主动找信息,信息根据关系、兴趣、行为来找我。
移动 App 时代解决的是:服务和场景被装进手机,位置、相机、支付、通知、传感器都变成新的能力。
下一步要捕获的,不再只是关键词、点击、关系和位置。
下一步要捕获的是连续情境。
也就是:我现在处在什么状态,我正在做什么,什么事情马上要发生,哪些服务已经被我授权,哪些动作可以帮我推进一步。
这个变化比“AI 更会聊天”大得多。
因为聊天只是表达意图的一种方式。
真正的入口,是系统能不能在你还没完整表达时,就已经理解到足够多的上下文。
二、现在大家争的,多数还是工具调度层
今天苹果、Google、华为、微信做的事情都很重要。
但它们多数还停留在“工具调度层”。
苹果的 App Intents,是让 App 把自己的功能和数据声明成系统可调用的意图。订一张桌、查一笔订单、改一个设置,都可以变成 Siri 可以调用的动作。
Google 的 AppFunctions,也是类似逻辑。Android App 把功能注册给系统,Gemini 或其他授权调用者就能发现并执行。
华为在鸿蒙里推进小艺、Intent Framework、AI Kit、MCP 与元服务,本质上也是把系统能力和应用能力变成 Agent 可调度的模块。
微信的小程序 AI 化,则是把小程序变成微信 AI 可以调用的服务单元。自动模式让平台理解现有页面,开发模式让开发者把业务能力封装成更结构化的 Skill。
这些动作的共同点是:
它们都在把 App 或小程序拆成能力函数。
过去 App 是用户打开的入口。
现在 App 开始变成 AI 调用的工具。
这一步很关键。
没有工具化,Agent 只能聊天,办不了事。
但工具化还不是终点。
它解决的是“怎么做事”。
真正的新入口还要解决另一个问题:
系统怎么知道现在该不该做、该为谁做、做到哪一步。
前者是手。
后者才是眼睛、记忆、判断和授权。
三、真正的入口,是个人情境层
我更愿意把下一代入口称为“个人情境层”。
它有五个特征。
第一,持续在场。
它不等你打开某个 App,也不等你进入一个聊天框。它通过手机、耳机、手表、车机、电脑、未来的眼镜,持续理解你和环境之间的关系。
第二,端侧优先。
越贴近个人的数据,越不能随便上云。屏幕内容、位置、日程、联系人、健康、支付、照片、设备状态,最好先在本地处理。需要云端模型时,也要有可验证的隐私边界。
第三,多模态感知。
它不只理解文字。它要理解语音、屏幕、图像、位置、日程、消息、联系人、设备状态和环境。
第四,工具化执行。
它把 App、小程序、网页、支付、地图、消息、日历、企业系统,变成可调用的能力。
第五,分级授权。
低风险事项可以自动处理。
中风险事项要一键确认。
高风险事项必须解释原因、让用户确认、留下记录、允许撤销。
这五件事合在一起,才是下一代入口。
否则,一个系统即使能调度很多 App,也只是一个更强的工具调用器。
它还不是“入口”。
四、为什么不能完全自动
这里要加一个边界。
我不认为主流形态会是“AI 完全替用户做决定”。
很多人一说 Agent,就想象一个自动替你安排生活、替你下单、替你回复所有消息的系统。
这不现实。
更重要的是,用户也未必愿意。
现实中,人们可能愿意让 AI 做这样的事:
“你 30 分钟后有会,路上堵车,要不要现在叫车?”
“这封邮件涉及合同截止日,要不要我先起草回复?”
“你刚和客户聊到报价,要不要生成 CRM 记录?”
“你正在看这个商品,要不要我查一下历史低价和替代品?”
但用户未必愿意让 AI 直接做这样的事:
“我已经替你改签机票。”
“我已经替你下单更贵的方案。”
“我已经替你回复客户并承诺了交付时间。”
“我已经帮你把合同条款改了。”
所以更可能成为主流的,是“副驾驶式 Agent”,不是“自动驾驶式 Agent”。
它可以主动感知。
可以主动建议。
可以预填信息。
可以比较选项。
可以草拟方案。
可以推进流程到确认前一步。
但关键动作要让用户知道、理解、确认。
这也是为什么我前面说,真正的入口光有主动和感知还不够。它必须被信任地持续感知,也必须被授权地有限行动。
这个“有限”很重要。
没有限制,就没有信任。
五、四条最可能的技术路线
现在看,最接近个人情境层的路线大概有四条。
第一条,是苹果式路线:端侧模型 + 私有云 + 系统级个人上下文。
苹果的优势是硬件、系统、隐私叙事和设备控制。它最适合处理日程、邮件、屏幕内容、照片、位置、通知这些敏感上下文。
苹果的问题也很明显:端侧模型受算力、电池、内存和新硬件覆盖率限制;另外,苹果在全球服务图谱、商户、搜索、开放生态上不如 Google,也不如中国的超级 App。
所以苹果可能定义“可信个人 Agent”的隐私标准,但未必最快做出能办最多事的入口。
第二条,是 Google 式路线:搜索、Android、Gmail、Calendar、Maps、Chrome、YouTube、Gemini 和 AppFunctions 串在一起。
Google 的优势是完整。
它有搜索,有地图,有邮件,有日历,有浏览器,有 Android,有 Gemini,还有 Project Astra 这种实时多模态助理方向。
如果只看“谁最可能先做出一个真正能用的主动入口”,Google 概率很高。
但 Google 的问题是信任。
它的商业模式长期依赖广告和搜索分发。用户会担心:主动感知到底是在帮我,还是在更精确地影响我?
第三条,是可穿戴路线:眼镜、耳机、手表、车机。
主动入口需要持续在场。手机很强,但经常在口袋里。耳机贴着耳朵,手表贴着身体,车机知道你的移动场景,眼镜未来可能看到你正在看的世界。
Meta 的 Ray-Ban 眼镜、Google 的 Android XR 眼镜,都在往这个方向走。
但这条路最容易撞上隐私墙。
眼镜拍摄别人,麦克风持续收音,旁观者如何知道自己被感知,这些都不是小问题。
所以眼镜可能是未来的高频界面,但不会在 2026 到 2027 年单独成为主入口。
短期更现实的,是手机 + 耳机 + 手表 + 车机 + 少量眼镜场景一起组成情境层。
第四条,是中国式路线:超级 App + 系统级智能体。
中国的特殊之处是服务密度极高。
打车、外卖、支付、挂号、政务、团购、快递、出行、内容、电商、企业协作,都已经高度数字化,而且很多服务集中在少数超级 App 里。
微信有消息、支付、小程序、公众号、视频号、社交关系、企业微信。
支付宝有支付、信用、金融和生活服务。
美团有本地生活。
高德和百度有地图。
抖音有内容和兴趣电商。
华为、小米、OPPO、vivo、荣耀有系统权限和设备感知。
这让中国有机会比欧美更快做出“能办事”的 Agent。
但中国的问题也更硬:上下文割裂。
微信掌握社交和服务,但不完全掌握系统级传感器。
手机厂商掌握系统和设备,但不掌握全部交易与社交关系。
电商、本地生活、内容平台各有自己的数据和支付闭环。
结果就是,每个平台都能做“自己的主动入口”,但很难做“用户的完整入口”。

六、中国变量:终端分散,微信服务密度高
中国市场的特殊性,不在模型,而在入口结构。
一边是手机厂商。
华为、小米、vivo、OPPO、荣耀都有自己的系统助手、模型、意图框架和开发者接入方式。它们离设备很近,能拿到系统权限、传感器、屏幕、通知、多设备协同这些上下文。
但它们的问题是横向迁移很难。
你在一台手机上长期使用某个系统助手,换到另一个品牌,很多偏好和理解很难完整带走。
开发者也会遇到类似问题。
一个服务如果想被多家终端 Agent 调用,就要面对多套文档、多套审核、多套市场、多套能力边界。即使底层工具协议正在收敛,真正接入时,仍然要分别处理账号、权限、审核、支付、责任和分成。
这就是终端侧的现实:靠近设备,但彼此分散。
另一边是微信。
微信不一定掌握最完整的系统级传感器,但它掌握了中国最密集的服务关系。
账号体系在这里。
支付和风控在这里。
小程序在这里。
公众号、视频号、群、私域、企业微信也在这里。
很多服务不是先长在操作系统里,而是先长在微信生态里。用户找商家、进群、下单、付款、售后、复购,很多时候都发生在微信这条链路里。
所以微信做 Agent,起点和手机厂商不一样。
手机厂商要把服务接进系统。
微信要做的是把已有服务变成 AI 可以理解和调用的任务单元。
这也是为什么微信的小程序 AI 化很重要。
它不是单纯多一个助手,而是在把已经存在的服务网络,改造成可被 Agent 调度的执行网络。
不过微信也有自己的边界。
它的服务密度很高,但更多发生在微信生态内部。
它能很好地调度小程序、支付、公众号、群和私域服务,却不天然掌握所有系统能力,也不天然打通所有 App 原生功能。
因此,中国的关键问题不是“微信会不会成为唯一入口”,也不是“终端厂能不能各自做出系统 Agent”。
真正的问题是:
系统侧的个人情境,和平台侧的服务网络,能不能形成一种可互认的调用关系。
这里卡住的,仍然是三件事:
身份怎么认。
信任怎么给。
收益怎么分。
这三件事表面像技术细节,实际是分配秩序。
没有一个公共规则,终端厂会各做各的,超级 App 也会各做各的。最后每个平台都能在自己的范围内做得很强,但用户得到的是多个彼此分开的“半入口”。
海外的入口战,更多是 Apple、Google、Meta 这些巨头在自己的系统里收编 App。
中国的入口战要复杂得多:终端、超级 App、独立 AI 入口、监管、支付、服务生态都在场。
所以中国卡住的不是模型。
卡住的是公共规则。
七、为什么公共规则这么难
很多人会说:既然大家都支持 MCP,问题不就解决了吗?
没有。
MCP 只是工具调用协议。
它解决的是“怎么调用”。
它不解决“凭什么调用”。
一个外来 Agent 凭什么读我的上下文?
凭什么调用我的服务?
凭什么替用户下单?
出了错谁负责?
调用带来的交易收入怎么分?
用户授权在哪个平台生效?
用户撤销授权后,记录怎么处理?
这些都不在普通技术协议里。
它们是治理层问题。
所以中国眼下最需要的,不是硬把大家统一成一个 Agent OS。
让华为、小米、vivo、OPPO、荣耀统一一个系统核心,几乎不现实。
每家都有自己的系统、芯片、设备、商业目标和安全边界。
更现实的做法,是在上面立一层薄薄的公共标准。
不碰各家的系统核心。
不要求交出用户数据。
先解决一件事:
一个外来 Agent 或一个服务能力,如何被注册、认证、授权、调用、审计和分账。
身份与信任先通。
分成随后。
数据可以不互通,甚至可以永远不互通。
但调用规则要有。
否则未来三年,中国可能出现一个很尴尬的局面:
人人都在做 Agent OS,但没有一个真正的 Agent OS。
每家都有助手,但每个助手只能调自己体系里的那一部分东西。
用户换手机,助手失忆。
开发者接五套框架,维护成本爆炸。
小 App 只接微信,大厂只接头部平台。
终端厂的系统 Agent 最后变成一个高级闹钟,能调设置,能看日程,但调不动用户每天真正用的那些服务。
这不是危言。
这是把今天每一条已经画好的线,往前延长一点。
八、真正入口出现前,会先经历三个阶段
我倾向于分三个阶段看。
第一阶段,2026 到 2027 年:工具层标准化。
苹果 App Intents、Google AppFunctions、华为 Intent Framework、微信小程序 AI 接入、腾讯元器、各种 MCP 和 Skill,都会继续把 App 和服务拆成可调用的动作。
这一阶段,用户体验更多是:你说一句,Agent 帮你跨 App 做几步。
主动性还不会特别强。
系统最多在通知、锁屏卡片、日历、导航、会议、邮件、购物助手这些窄场景里提出建议。
第二阶段,2027 到 2029 年:低打扰、低风险、可确认的主动建议。
系统会越来越像这样:
“你现在去机场可能来不及,要不要改签?”
“这封邮件涉及合同截止日,要不要我起草回复?”
“你刚和客户聊到报价,要不要生成 CRM 记录?”
“你正在看这个商品,要不要我查历史低价和替代品?”
这时,耳机、手表、车机、轻量眼镜会变得更重要。
它们不一定单独成为入口,但会变成个人情境层的传感器和提示界面。
第三阶段,2029 到 2032 年:如果隐私、权限和商业分配被解决,个人情境层才可能成为主入口。
到那时,用户不再频繁思考“打开哪个 App”。
App 还在,但退到后台。
搜索还在,但很多查询由 Agent 在需要时替用户完成。
社交和内容流还在,但会被个人情境层过滤、总结、延后,或者转化成行动。
真正发生入口迁移,不能只看厂商有没有发布一个 AI 助手。
要看这四件事有没有同时发生:
用户每天接受系统主动建议,而不是只在聊天框里提问。
开发者把核心能力注册成 Agent 可调用函数,而不是只争 App 打开率。
高价值场景中,用户愿意授权 Agent 预填、比较、预约、草拟、下单前确认。
系统提供可审计、可撤销、可解释的行动日志,用户知道 Agent 为什么介入、调用了什么、影响了什么。
九、谁最可能先定义这个入口
全球来看,Google 最可能先做出能力最完整的主动入口。
因为它有服务图谱、搜索、地图、邮件、日历、Android、Chrome、Gemini 和 Astra。
它的问题是用户信任。
Apple 最可能定义可信度最高的主动入口。
因为它有硬件、系统、隐私叙事、端侧模型和 Private Cloud Compute。
它的问题是服务执行图谱不够完整,开放生态也更慢。
Meta 最可能定义最像未来设备的入口表面。
因为眼镜确实更接近“持续在场”。
但它的问题是隐私信任和服务执行能力。
中国来看,微信和华为是两个半入口。
微信更接近服务入口和关系入口。
华为更接近设备入口和系统情境入口。
单独看,微信最可能定义服务调度。
华为最可能定义端侧感知和系统级主动建议。
但真正的新入口如果在中国成型,大概率不是某一家完全吞掉另一家。
更可能是某种组合:
系统级情境层,加上超级 App 服务图谱。
这也是为什么公共规则重要。
没有公共规则,系统级情境层调不到足够多的服务。
没有系统级情境层,超级 App 很难真正理解用户设备和环境。
两边都缺一块。
十、被授权的个人情境操作系统
Agent 时代,真正的入口不是 Agent App、聊天框、App Store 2.0,也不是智能眼镜本身。
我更愿意把它叫作:被授权的个人情境操作系统。
它持续在场,但不能越界。
它理解你,但不能偷看。
它能调用工具,但不能替你乱做决定。
它可以主动建议,但关键动作必须让你知道、确认、可撤销。
它不会消灭 App,它会把 App 推到后台,让 App 变成能力供应商。
它也不是替用户全自动生活。它更像把用户推进到一种更少选择、更少重复、更少漏事的状态。
这件事最难的地方,从来不只是模型。
模型会继续变强。
工具协议会继续标准化。
端侧算力会继续提升。
眼镜、耳机、手表、车机也会越来越像情境入口的组成部分。
真正难的是:
用户愿不愿意授权。
平台愿不愿意互认。
App 愿不愿意被调用。
交易和责任怎么分。
出错之后谁负责。
如果这些问题解决不了,Agent 入口战最后只会变成一堆更聪明、但彼此割裂的系统。
如果这些问题能被解决,入口革命才会真的发生。
那时用户不会说“我要打开某个 Agent”。
用户只会觉得:
它知道我现在可能需要什么,而且我敢让它帮我做到下一步。
本文来自微信公众号:AIGC从0到1,作者:王零壹
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。