2026-02-12 16:05

我们在OpenClaw 的“坑”里，看到了AI 落地的Gap

速览

本文来自微信公众号：云启资本，作者：一定要上手试试的，原文标题：《云启 AI 测评 | 我们在 OpenClaw 的“坑”里，看到了 AI 落地的 Gap》

最近OpenClaw在AI圈的热度不用多说，大家都在尝试，都在讨论。

作为一家深耕AI的科技VC，我们常说的一句话是：“不仅要投，更要用。”有了OpenClaw这一款看似高度契合“自动化工作流”期待的工具，我们当然也要试试。

「马力全开·云启年货集」第三次“开箱”，和你分享我们从OpenClaw一线带回的（稍微有点“疼”的）实测体验。新的一年，我们也将持续在「云启测评」分享云启的AI工具体验观察。

第一阶段：

第一个测试场景是：前沿科技领域的垂直新闻自动化推送。也就是让OpenClaw来跑新闻收集+分类+飞书推送。

流程听起来不复杂：从数据库抓取全球动态→按照算法、硬件、投融资等9个维度精准分类→排版成清晰的飞书卡片。

但在实测中，OpenClaw在理解这种垂直业务逻辑时显得有些“磕磕绊绊”。从连接数据库、分析字段结构、按指定逻辑分类、调用模型生成summary、拼接飞书卡片样式、推送测试，每一步都需要纠正。

经过近百轮的prompt纠偏，耗时将近一天，它终于吐出了那张满意的卡片。

但随后我们遇到了一个很头疼的问题：成果无法有效沉淀。

当你再次要求它发送，希望它能像“老员工”一样每天自动干活时，之前设定的NLP处理逻辑、消息卡片样式全部“归零”——不是样式乱了就是分类偏了。

这让我们意识到：现阶段，单纯靠Prompt让OpenClaw完成一个垂直领域、含定制逻辑的任务（收集、处理、飞书推送），如果不沉淀下来，是非常不稳定的。

既然OpenClaw的原生工作流还在进中，我们转而尝试了一种“曲线救国”的方案：引入Claude Code辅助。

同样的前沿科技新闻推送需求，我们把复杂的数据库逻辑和分类标准丢给了Claude Code。令人惊喜的是，Claude Code用一个多小时就完成了代码编写到测试的全流程。它的优势很明显，生成的是代码，而不是一段偶然成立的动作流程。而代码天然可以沉淀、重构、复用。

我们随后又做了一个关键动作：把这段稳健的代码封装成一个Skill，部署到OpenClaw所在的服务器上。

反转出现了：当OpenClaw作为“智能管道”去调用这段专业脚本时，它表现得十分自然、稳定。这意味着，现阶段面对高度自定义的任务，将逻辑代码化，再交给OpenClaw进行分发和调度，或许才是更务实的路径。

*引入Claude Code辅助

此外，我们也尝试了将open code的skill配置在openclaw上，明确要求openclaw通过代码形式完成一个skill的开发，也顺利完成任务。

所以关键不是用什么工具，而是用什么思路去要求AI做事情。

在大模型评测里，有一个经典测试叫“大海捞针”。

我们也做了一个类似的实验，给OpenClaw加了一个“对暗号”的skill，想看看它在海量技能中能否精准检索。

结果显示，它并不能丝滑地直接反馈，往往需要更明确的提示词引导。看来，Agent的意图识别与技能检索的深度耦合，仍有很大的进步空间。

这次实测，验证了从“能用”到“好用”确实还有不小的Gap。同时，我们也对AI落地有了更务实的理解，和大家交流：

1.代码依然是“硬通货”。现阶段，大量自定义逻辑的任务如果追求100%的稳定性，最佳路径依然是将任务“代码化”。Claude Code负责创造资源，OpenClaw负责智能分发，这种“双open”模式可能是当下的优解。

2.别把“自动驾驶”神化。很多时候不能依靠一句“帮我搜搜进展”就得到精华。AI只是管道，对业务的数据源精选、精准的分类逻辑、甚至一套符合审美的Prompt风格，才是真正的核心资产。

3.对新事物保持耐心：OpenClaw作为一个高速迭代的项目，频繁改名和兼容性问题确实会让人“抓狂”，但这或许这也正是新事物诞生的常态。

当然，可能是我们自己还用得不够好

所以也想问问万能的朋友圈，大家在部署和使用类似Agent工具时，有没有什么独门秘籍或者妙用指南？欢迎在评论区给我们“支招”。一起探索，一起更好！

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。