当Agent 成为一等公民-虎嗅网

本文来自微信公众号：思考机器，作者：陆三金&kimi，原文标题：《当 Agent 成为一等公民》

2026年2月10日，Obsidian发布了CLI。同一天，Draw.io和Excalidraw发布了MCP接口。

三个消息单独看都不大，放到一起却指向一个更大的争论：我们是否需要为AI Agent把所有基础设施重做一遍？

有人认为这是必然趋势。就像移动互联网时代，没有移动端的软件被慢慢淘汰；今天，没有Agent接口的软件会遭遇同样的命运。GUI对人友好，CLI和API才是Agent的母语。Obsidian加CLI、画图软件加MCP，就是在给Agent开专属的门。

但真的是这样吗？

先来聊聊这个重做这个想法。

Obsidian CLI让Agent可以直接操作笔记库——读取、搜索、整理标签。命令行的好处是"自带说明书"：Agent跑一条帮助命令，就能拿到所有功能和参数。文件名是元信息，参数是接口文档，不需要额外配置。

Draw.io和Excalidraw选了另一条路：MCP。这是Anthropic推出的标准通信协议，让Agent可以直接创建图表元素、修改属性、导出成品。到2026年初，公共MCP服务器已经超过10,000个。

2月5日，Anthropic和OpenAI同一天发布新模型：Opus 4.6和GPT-5.3-Codex。前者支持100万Token上下文，后者在Terminal-Bench 2.0测试上拿到77.3%，接近人类水平。开源的OpenClaw更激进：72小时拿了6万GitHub star，能让Agent通过WhatsApp和Telegram帮你管邮件、跑脚本、操作浏览器。

能力到了，接口自然要跟上来。这是"重做派"的核心逻辑。

类比很直观：2007年iPhone发布后，软件厂商面临同样的问题——PC时代的大屏幕、鼠标、键盘、多窗口，到了手机上全部失效。微信不是QQ的手机版，抖音不是优酷的手机版，它们是从零设计的新产品，因此成了赢家。

Agent带来的变化结构上一模一样。只是这一次，使用软件的不再是人，而是AI。人需要图形界面、按钮、视觉反馈；Agent不需要这些，它需要结构化的接口、明确的参数、可预测的输出。

所以结论是：与其让Agent用各种技巧绕过你的GUI，不如直接给它一条干净的路。软件正在为AI Agent重做自己的接口。

但质疑者的声音同样有力。

首先是历史教训。二十年前，Semantic Web运动也曾承诺让机器自动理解网页内容。Tim Berners-Lee的愿景是：网页不再是给人看的，而是给机器读的——通过RDF、OWL、SPARQL这些标准，机器可以自动发现、组合、推理网络服务。

结果呢？它失败了。

2025年的一篇学术论文分析了原因：Semantic Web过度依赖符号推理，要求内容创作者做太多额外工作（标注语义、定义本体），而回报却不明确。最终，实用的AI范式赢了，理想主义的语义网络输了。

历史会重复吗？

质疑者指出，今天的"Agent-first"重构面临同样的问题：它要求软件厂商为一套尚未成熟的标准投入资源，而回报却充满不确定性。Obsidian加CLI是好事，但要求所有软件都这样做，成本谁来承担？

更深层的分歧在于对"基础设施"的理解。

"重做派"认为，现有的互联网基础设施是为人设计的，Agent需要一套新的。HTML对人友好，对Agent是噪音；GUI需要解析和理解，效率低下。

但渐进派认为，现有的Web标准已经足够好——关键是怎么让Agent更高效地使用它们。

这里Cloudflare的做法很有代表性。

2月12日，他们发布了Markdown for Agents。功能很简单：当AI Agent请求一个网页时，Cloudflare在边缘网络实时把HTML转换成Markdown，然后返回给Agent。

数据很直观：Cloudflare博客的一篇文章，HTML版本16,180个tokens，Markdown版本3,150个tokens——减少80%。

但更重要的是实现方式。Cloudflare没有要求数百万网站所有者把网站重写一遍、全部换成Markdown。他们只是在边缘网络加了一层转换——对现有基础设施的适配，而不是推翻重来。

他们的官方博客说得很明确：是时候把Agent当作一等公民了。但实现路径是：让Agent能更高效地消费现有的HTML内容，而不是要求所有人为Agent改变。

这正是渐进派的核心论点：与其要求软件厂商推倒重来，不如通过技术手段让Agent更好地适配现有世界。

强迫所有人为机器优化内容，可能是一条死路。更好的方式是：机器自己去适应人创造的内容。

今天的大模型正是这样做的。它们不需要网页有完美的语义标注，而是通过海量训练学会了理解自然语言和不完美的HTML。这是进步，但这不意味着我们要回到Semantic Web的老路——要求所有人为机器重写内容。

让我尝试调和这两种观点。

"重做派"看到的趋势是真实的：Agent的能力在快速提升，软件厂商确实在为它们适配接口。但"渐进派"的警告同样重要：激进的推倒重来可能重蹈Semantic Web的覆辙。

可能的答案是：这不是一个非黑即白的选择。

Obsidian加CLI、Draw.io加MCP，这是低成本的渐进改进——它们在现有产品上增加通道，而不是推翻重来。Cloudflare的Markdown转换是网络层的优化，不需要网站所有者做任何改动。这些都是"让Agent更好地使用现有基础设施"，而不是"为Agent重建基础设施"。

真正的风险在于：如果我们过度承诺"Agent-first"的愿景，要求所有软件都按Agent的需求重构，可能会再次失败。历史告诉我们：技术革命的成功，往往来自于渐进式的采纳，而不是激进式的推倒重来。

移动互联网时代，也不是所有软件都"从零设计"。很多产品先做了响应式网页适配，再逐步开发原生App。这是一个渐进过程。

Agent时代可能也一样。CLI、MCP、Skills是新增的通道，但GUI不会消失——因为人还在。真正的问题不是"要不要重做"，而是"如何让Agent和人共存"。

2026年2月的密集发布，不意味着所有基础设施都要重写。

它意味着一件事：Agent已经成为软件设计的一个重要考量。Obsidian加CLI不是为了取代GUI，而是为了给Agent多开一扇门。Cloudflare做Markdown转换不是为了推翻HTML，而是为了让Agent更高效地消费现有内容。

Semantic Web的失败教训是：不要试图让整个世界为机器改变。今天的Agent基础设施建设的聪明之处在于：它在适配现有的世界，而不是要求世界为它改变。

"一等公民"不等于"唯一公民"。Agent正在成为互联网的重要用户，但不是唯一用户。基础设施的演进方向，应该是让人和Agent都能更好地使用——而不是为了其中一个牺牲另一个。

这才是2026年2月的真正意义：不是推倒重来的开始，而是渐进适配的加速。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

当Agent 成为一等公民

大 家 都 在 搜

大家都在搜