扫码打开虎嗅APP
本文来自微信公众号: 思考机器 ,作者:陆三金&kimi,原文标题:《当 Agent 成为一等公民》
2026年2月10日,Obsidian发布了CLI。同一天,Draw.io和Excalidraw发布了MCP接口。
三个消息单独看都不大,放到一起却指向一个更大的争论:我们是否需要为AI Agent把所有基础设施重做一遍?
有人认为这是必然趋势。就像移动互联网时代,没有移动端的软件被慢慢淘汰;今天,没有Agent接口的软件会遭遇同样的命运。GUI对人友好,CLI和API才是Agent的母语。Obsidian加CLI、画图软件加MCP,就是在给Agent开专属的门。
但真的是这样吗?
先来聊聊这个重做这个想法。
Obsidian CLI让Agent可以直接操作笔记库——读取、搜索、整理标签。命令行的好处是"自带说明书":Agent跑一条帮助命令,就能拿到所有功能和参数。文件名是元信息,参数是接口文档,不需要额外配置。

Draw.io和Excalidraw选了另一条路:MCP。这是Anthropic推出的标准通信协议,让Agent可以直接创建图表元素、修改属性、导出成品。到2026年初,公共MCP服务器已经超过10,000个。
2月5日,Anthropic和OpenAI同一天发布新模型:Opus 4.6和GPT-5.3-Codex。前者支持100万Token上下文,后者在Terminal-Bench 2.0测试上拿到77.3%,接近人类水平。开源的OpenClaw更激进:72小时拿了6万GitHub star,能让Agent通过WhatsApp和Telegram帮你管邮件、跑脚本、操作浏览器。
能力到了,接口自然要跟上来。这是"重做派"的核心逻辑。
类比很直观:2007年iPhone发布后,软件厂商面临同样的问题——PC时代的大屏幕、鼠标、键盘、多窗口,到了手机上全部失效。微信不是QQ的手机版,抖音不是优酷的手机版,它们是从零设计的新产品,因此成了赢家。
Agent带来的变化结构上一模一样。只是这一次,使用软件的不再是人,而是AI。人需要图形界面、按钮、视觉反馈;Agent不需要这些,它需要结构化的接口、明确的参数、可预测的输出。
所以结论是:与其让Agent用各种技巧绕过你的GUI,不如直接给它一条干净的路。软件正在为AI Agent重做自己的接口。
但质疑者的声音同样有力。
首先是历史教训。二十年前,Semantic Web运动也曾承诺让机器自动理解网页内容。Tim Berners-Lee的愿景是:网页不再是给人看的,而是给机器读的——通过RDF、OWL、SPARQL这些标准,机器可以自动发现、组合、推理网络服务。

结果呢?它失败了。
2025年的一篇学术论文分析了原因:Semantic Web过度依赖符号推理,要求内容创作者做太多额外工作(标注语义、定义本体),而回报却不明确。最终,实用的AI范式赢了,理想主义的语义网络输了。

历史会重复吗?
质疑者指出,今天的"Agent-first"重构面临同样的问题:它要求软件厂商为一套尚未成熟的标准投入资源,而回报却充满不确定性。Obsidian加CLI是好事,但要求所有软件都这样做,成本谁来承担?
更深层的分歧在于对"基础设施"的理解。
"重做派"认为,现有的互联网基础设施是为人设计的,Agent需要一套新的。HTML对人友好,对Agent是噪音;GUI需要解析和理解,效率低下。
但渐进派认为,现有的Web标准已经足够好——关键是怎么让Agent更高效地使用它们。
这里Cloudflare的做法很有代表性。
2月12日,他们发布了Markdown for Agents。功能很简单:当AI Agent请求一个网页时,Cloudflare在边缘网络实时把HTML转换成Markdown,然后返回给Agent。
数据很直观:Cloudflare博客的一篇文章,HTML版本16,180个tokens,Markdown版本3,150个tokens——减少80%。

但更重要的是实现方式。Cloudflare没有要求数百万网站所有者把网站重写一遍、全部换成Markdown。他们只是在边缘网络加了一层转换——对现有基础设施的适配,而不是推翻重来。

他们的官方博客说得很明确:是时候把Agent当作一等公民了。但实现路径是:让Agent能更高效地消费现有的HTML内容,而不是要求所有人为Agent改变。

这正是渐进派的核心论点:与其要求软件厂商推倒重来,不如通过技术手段让Agent更好地适配现有世界。
强迫所有人为机器优化内容,可能是一条死路。更好的方式是:机器自己去适应人创造的内容。
今天的大模型正是这样做的。它们不需要网页有完美的语义标注,而是通过海量训练学会了理解自然语言和不完美的HTML。这是进步,但这不意味着我们要回到Semantic Web的老路——要求所有人为机器重写内容。
让我尝试调和这两种观点。
"重做派"看到的趋势是真实的:Agent的能力在快速提升,软件厂商确实在为它们适配接口。但"渐进派"的警告同样重要:激进的推倒重来可能重蹈Semantic Web的覆辙。
可能的答案是:这不是一个非黑即白的选择。
Obsidian加CLI、Draw.io加MCP,这是低成本的渐进改进——它们在现有产品上增加通道,而不是推翻重来。Cloudflare的Markdown转换是网络层的优化,不需要网站所有者做任何改动。这些都是"让Agent更好地使用现有基础设施",而不是"为Agent重建基础设施"。
真正的风险在于:如果我们过度承诺"Agent-first"的愿景,要求所有软件都按Agent的需求重构,可能会再次失败。历史告诉我们:技术革命的成功,往往来自于渐进式的采纳,而不是激进式的推倒重来。
移动互联网时代,也不是所有软件都"从零设计"。很多产品先做了响应式网页适配,再逐步开发原生App。这是一个渐进过程。
Agent时代可能也一样。CLI、MCP、Skills是新增的通道,但GUI不会消失——因为人还在。真正的问题不是"要不要重做",而是"如何让Agent和人共存"。
2026年2月的密集发布,不意味着所有基础设施都要重写。
它意味着一件事:Agent已经成为软件设计的一个重要考量。Obsidian加CLI不是为了取代GUI,而是为了给Agent多开一扇门。Cloudflare做Markdown转换不是为了推翻HTML,而是为了让Agent更高效地消费现有内容。
Semantic Web的失败教训是:不要试图让整个世界为机器改变。今天的Agent基础设施建设的聪明之处在于:它在适配现有的世界,而不是要求世界为它改变。
"一等公民"不等于"唯一公民"。Agent正在成为互联网的重要用户,但不是唯一用户。基础设施的演进方向,应该是让人和Agent都能更好地使用——而不是为了其中一个牺牲另一个。
这才是2026年2月的真正意义:不是推倒重来的开始,而是渐进适配的加速。