OpenClaw 技术闭门：测试将比代码更值钱，Agent Computer 会是新的硬件形态-虎嗅网

本文来自微信公众号： Founder Park ，作者：Founder Park

「OpenClaw项目每小时能收到上百个pr，甚至很多PR的提交者自己都不知道这段代码是怎么来的。代码开始成为了一种负债。」

「当代码都是AI vibe出来的，测试其实比真实代码更值钱。」

「以前，工程师的核心能力是做Feature Coding，但现在你会更注重整个Platform Engineering的事情。」

......

OpenClaw已经持续发酵了半个多月。

在这段时间里，我们看到的一个趋势是，OpenClaw正在从一个单纯的极客「玩具」，逐渐在各种具体业务中被实际用起来、作为一个可落地的生产力工具来提效。国内的几家基模大厂，也陆续发布了类似产品或功能。

于是，在组织了第一场闭门之后，我们决定找离OpenClaw最近的一群人：一线开发者、技术founder、明星创企的核心工程师，聊聊在概念、热度之外，他们在各种实际业务中是怎么用OpenClaw的，以及一些真实的思考与困惑。

这场闭门分享，很硬核，我们整理了部分精彩内容。

PS：考虑到是闭门分享交流，我们对一些嘉宾进行了匿名化处理。

⬆️关注Founder Park，最及时最干货的创业分享

超19000人的「AI产品市集」社群！不错过每一款有价值的AI应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的AI新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01

Vibe Coding时代，

代码开始成为负债

「Code as Liability」

飞书OpenClaw插件维护者：先分享一个非常夸张的数据。大家可以想一下，现在的OpenClaw项目主干，平均每小时会收到多少个PR？这个数字现在是30到60个，高峰期甚至能超过100个。现在随时去看它官方仓库，都可能看到2000多个待处理的PR。这意味着，你的贡献能被合并进去的概率，大概是两千分之一。

回到工程视角来看。如果未来的开源项目都以这种方式维护，一个小时涌入几十个PR，怎么可能有人review得过来？即使OpenClaw现在有几百个contributor，但最终的maintainer数量也是极其有限的，这些maintainer的注意力非常稀缺。

为了应对这种情况，OpenClaw社区甚至搞了一个专门的频道，限制每个人6小时内只能发一条消息。如果你觉得自己的PR特别重要，想让维护者看到，就只能在这里「排队」发言，才可能更优先地获得注意力。

整个状态，就好像一个大企业每天收到几千份内推简历，最终谁的简历能被优先看到，已经变成了一个纯粹的注意力争夺问题。

这带来了一个非常大的转变。之前的开源项目里，如果看到一个新的PR，第一反应是积极的：有人愿意读我的代码，有人愿意参与维护，那我可以降低一点这个项目的「公交车指数」，就是万一我出门被公交车撞了，还有人能维护这个项目。

但现在，这个模式可以说被完全颠覆了。因为所有人都可以随便提交，甚至很多PR的提交者自己都不知道这段代码是怎么来的。维护者的心态更多地转向了「Code as Liability（代码是负债）」的角度。你每增加几百行代码，都可能引入一些意想不到的问题，让项目在未来更难维护。在这种心态下，只能尽可能避免随意合并。

开源的信任链条其实有些断裂，我们似乎又回归到了最原始的人际信任。

一方面是需要更多的人际信任来做背书，另一方面，我们需要探索自动化的review和测试。实际上，OpenClaw自己已经有了一套机制，它会自己识别出来那些很低质量的、机器生成且你根本不care的PR，关掉。

我的感觉是，在OpenClaw这种大家用Vibe Coding写PR的「恶性通胀」产能下，传统的开源信任链条是断裂的。我们合并一个PR，不是因为我读了你所有代码，可能是信任你作为一个engineer的工程能力，和你对这个东西持续维护的credit。

我们还不知道如何迎接上万个高质量PR的涌入

Agent创业者：我很喜欢把代码库比作「胶水」。在Agent时代，我们可以重新审视代码的本质：它不就是连接逻辑的胶水吗？现在的Coding Agent就像手里的一把「热熔胶枪」，它可以源源不断地喷出胶水。每个人手里都拿着一把热熔胶枪，对着一个「泡泡玛特」玩具说，「诶，这个不错，我也来喷点胶水」。每个人都想按照自己的意愿把它粘成合适的形状。但最终，这个玩具是被粘得更奇怪，还是更圆润？我觉得这是一个很深的问题。

OpenClaw这个项目其实让我看到了这个问题被推向了一个更疯狂的层面。

所以我一直在思考一个问题：未来如果过了半年或一年，GitHub上一定会涌现出一批这样的仓库，无数的人和Agent都在疯狂地往里提交代码。在OpenClaw这个项目上，现在很多提交代码的已经不是人了，而是Agent。未来这个情况只会推演得更加疯狂。

到了那时候，假如以小时甚至分钟为单位，都有海量高质量的PR被提交进来。从review的角度看，每一个PR单独拿出来，可能都有在某个角度上的合理性。那么，当这些中上水平的PR涌入时，会发生什么？

首先，人工测试显然已经是不太现实了。其次，也是我更关心的问题：当一分钟有上万个高质量PR涌入时，我们那个时代的Git基础设施、整个软件仓库的演进生态，以及相应的治理规范，会是什么样？这可能是我觉得目前还没有明确答案的地方。

Vibe Coding进入到了一个「快消费」的时代

AI4S Agent创业者：我觉得Vibe Coding的Impact我们才刚刚感知到一部分，但它对社会的长期Impact才刚刚开始。我写了十几年代码，也研究了两三年代码生成，现在发现Vibe Coding进入到了一个非常「快消费」的时代。

这种「快消费」跟传统的硬核开发，比如写Linux Kernel、数据库Planning，形成了鲜明对比。一边是非常快速、用后即抛的使用方式，另一边是支撑整个互联网的最基础架构，可能还是需要那20个人去写最核心的维护代码。

这两种情况下如何协作？如何维持两者之间的Tension？普通人能不能去写Linux Kernel？我觉得这非常有趣。

就像前边提到的「胶水」比喻，很早以前铸造一个东西需要做模型、找工匠，现在可能直接3D打印就出来了。当代码变成一个用后即抛的东西之后，它真正的价值和意义到底是什么？非常需要我们思考。

02

当代码都是AI vibe出来的，

测试变得异常重要

测试，其实比你真实的代码更值钱

Agent Infra创业者：我们的项目——Agent运行时的Sandbox基本就是Vibe Coding出来的，Claude Code是我们项目的第一贡献者，它的Commit数量是我们剩下4个人加起来的总和。这个项目非常依赖测试。

但如果你放手让Claude Code去写测试的话，你会发现他写大量那种我们叫「瞎Mock」的东西。他可能在一个测试里把所有外部环境全Mock一遍，装模作样测一下，告诉你通过了，实际上真实代码一行都没跑。这种测试是无效的。

所以我们在文档里写了非常多的Testing规则，还写了一些Skill。当它开发完代码，我们会主动@这些规则，让他去修改代码。

我觉得测试其实比真实代码更值钱。像Claude前段时间号称写了个C编译器，其实C编译器的Test Case这么多年已经非常完善了。你在一个快速反馈的环境下去烧Token，是能烧出来的。但在一个比较开放的开发任务里，让Coding Agent去做事就非常困难。

所以我的观点是，Coding Agent写的代码我可以不看，但他写的测试我一定会看，而且一定会严格要求他按照我们的Pattern去重写。

这里有一个很重要的Mock规则，只有第三方的库你可以Mock，但是你所有的内部Library、内部Service都不能Mock。

在我们的通用测试框架里，除了三方的东西Mock之外，所有内部Service调用都是真实的。验证的时候，我们只验证API的请求和结果，不做任何手工数据库插入和读取的断言。这在以往算集成测试，但我们会把它定义成最小粒度的单元测试。

对于UI测试，我们有两种。一种是我们写的最多的，就是React的UI测试。我们会把整个页面渲染出来，在模拟环境中做用户界面操作，比如点击按钮，断言UI结果。这里面没有真实浏览器，是模拟的DOM。

还有一类是Playwright那种E2E测试，那个测试很慢，我不太喜欢写。一般只测Happy Pass（主流程），比如登录注册能进首页，写一两个就行。大部分还是React Mock DOM的测试。

飞书OpenClaw插件维护者：Playwright E2E其实很重，维护成本也很高。但测试有一个黄金准则：你的测试越接近实际使用的方式，你就越能带来实际的信心，你就越确信这个东西不会坏。

我们的实践是，会更多投人力去维护E2E测试。因为它虽然容易坏，但真正抓到线上问题还是靠它。

但Agent公司的迭代速度非常快，我们就有了一个准则，我们还是用Playwright写很多很多的E2E，但分类两类：

冒烟测试：往主干合代码时，比较激进，只跑50个以内的Case，允许Mock后端，保证5分钟内能合进去。
巡检：面向线上的场景，低频地跑，比如半小时一次，用线上端到端的链路验证。

这里有个简单的实践技巧：给业务应用加测试时，先用一个Skill去扫描UI组件，加上test-id。然后让AI写测试用例，只验证打开UI时test-id都在。以此为起点，你可以封装一些能力，这样就不需要每次都依赖多模态模型，成本低且快。

大模型就像「抽卡」，建立一个自己的benchmark很重要

基模公司核心工程师：测试这件事情其实很重要。现在的模型每次更新后，权重和训练数据都会变，模型公司是不对这个负责的。这跟做工程不一样，模型类似于「抽卡」。今天抽到80分，下次可能是60分，波动非常大。

比如GPT-4o刚发布时，很多人说缺少了GPT-4的「人味儿」。模型公司自己不一定测得出来，因为他们只关注自己的Benchmark指标。这件事情其实对AI从业者来说，是一个非常疲惫的事情。因为，每天都像是在跟一个新的人聊天。我今天教的东西，明天到底会不会？

所以我的一个建议是，去造一些属于你们自己的Benchmark，验证它到底能干什么。用这件事情从概率里找到准确性，保证你的东西能持续往前走。

03

大众还在接受过程中，

少数人已经玩成了「超级个体」

Pro User玩出了花，普通用户却有点恐惧

AI4S Agent创业者：因为在湾区，我们离OpenClaw这边非常近，也从第一方的视角实际参与进去了。我们跟OpenClaw官方组织了一个用户的Workshop，帮50个人配置了OpenClaw。发现了一些很有趣的东西，在普通人和专业工程师之间，大家对于OpenClaw的认知差有点大。

对于工程师、PM来说，安装OpenClaw可能很容易。但对于普通用户时，大部分人其实都不知道怎么弄，他们完全不知道Terminal是什么。而且OpenClaw很多代码是Vibe Coding出来的，有一些不太稳定的地方，在Mac或Linux上会有各种环境配置问题，所以最终跑通的成功率其实并不高。

但是，一旦跑通了，那种感觉真的有点像「Feel of AGI」。当他把OpenClaw跟WhatsApp、Gmail连起来，再去操作的时候，那个体验是非常不一样的。

还有一点，大家其实非常恐惧。印象很深，我帮一位女生装Mac mini上的OpenClaw，她之前从来没有接触过编程。装Gmail插件时需要去Google Cloud Console建一个App，把API Key和Secret复制到Terminal里。她当时整个人都傻了，有点像被扔到了太平洋正中间。当我离开的时候，出了问题她完全不知道该怎么继续。这个视角非常有趣。

但我跟那些所谓的AI Native的朋友，也就是OpenClaw的Pro User去聊，发现真正跑起来后，对某些行业的效果其实是非常好。比如当公司的Workflow已经数字化，且不需要太多人工审核时，整个公司都可以搬到OpenClaw上。

我有个Creator朋友，买了两三台Mac Mini，装了Gemini Ultra的Plan。他们公司不光是做内容，连互联网上的API调用都自动化了。比如以前他们觉得很复杂的广告投放分析、SEO优化，现在直接跟OpenClaw或Claude Code聊，AI会建议一个方案，人只需要去Developer网站把Key拿过来验证一下就行。

所以他们都不需要UI了，基于API把一整套业务都跑起来了，甚至连招人都是自动化的。我有个朋友的Stack是：在LinkedIn上Reach 200个人，收简历和Portfolio，用AI Review结果，再进行AI Monitor的面试。从200人筛选到2人的过程完全自动化，省了大量时间。

Power User跑起来之后，你会非常Surprise。他们一行代码不写，纯动嘴就把我们花很多年才学会的GitHub、前后端开发、甚至各种Developer Tool全都跑起来了，而且特别熟练。这个事让我觉得非常Surprising。

文科生，一行代码都不会写，但被merge了9个PR

金融投资从业者：我是个文科生，做金融投资出身的。到现在为止，我仍然是一行代码都不会写。算是一个Vibe Coder。

但是这两天我开始给OpenClaw写代码，提交了十几个PR，然后被通过了9个。所以我现在基本上已经是OpenClaw全球贡献者里面前50名了。

我发现，正是因为我没有技术背景，反而更依赖、也更天然地接受AI技术。传统搞技术的朋友可能更喜欢确定性，比如输入1+1必须等于2。但AI编程很多时候是在「抽卡」，可能抽10次只有2次能用。这种路径差异，可能是很多人使用AI的限制。

我现在使用AI的方法很简单，依靠三个「AI员工」组成的团队，部署在我的MacBook Air和Mac Mini上：

一个首席助理，负责安排和协调所有Agent的工作；
一个CTO，负责实际的代码编写；
一个是CMO或者Social Officer，在CTO提交完PR后，它会去评论区自动寻找最近活跃的、对这个PR感兴趣的Maintainer，主动@他们。这样可以加快我PR被合并的效率。

另外还有一个「需求发现师」，它会24小时不断在GitHub上寻找Issue，分析有哪些Issue需要被解决，有哪些是比较重要的，有哪些是目前更可能被合并的。

大概是这样的一个工作流，Run起来发现效果是出奇的好。

04

Platform Engineering，

正在成为人类工程师的核心

从Feature Coding到platform engineering

飞书OpenClaw插件维护者：结合我现在在公司里面的角度，我发现自己做的很多工作正在逐渐往两个方向发展，所谓的「左移」和「右移」。

以前我们可能会很强调工程师的核心能力是做Feature Coding，但现在你会更注重整个Platform Engineering的事情。

往左移，就是在代码合并和发布之前，你要注重比如怎么给代码一个容器化的隔离环境，怎么让AI在你约束的SPEC下面去编码。

右移部分是说，在代码合并之后，如果有问题，我要能够Resilience，做一些可观测性的建设，有问题能够回退兜底。

因为你很难保证每天写进来的几千、几万行代码在工程上是可靠的，它可能只是「It works」。那这个时候，传统的软件开发角色就变成了一个左移和右移结合的角色，有点类似于测试开发和平台工程师。

中间的Feature Coding反而变得可能没那么重要了，因为它越来越能像AI一样能全自动生成。虽然现在无监督的AI开发还有点离谱，比如Claude号称写了个C编译器，但连Hello World都编译不了。但再过两年会变成什么样？我觉得还是有非常多工程上可以做的方式，比如从Platform Engineering这个角度，或者是否会有新的组织和个体去做相应的质量控制。

比如Linux社区就有不同的发行版：有的像Arch Linux非常激进，所有东西都往里合，体验最新代码；有的像Debian强调稳定，会人工做很多测试才发出来，这种概念可能更适合企业的场景。同时，像这样的概念是不是会得到一些商业上的机会？我觉得也是非常有可行性的。

Agent Computer，会是一种新的硬件形态

Agent创业者：我看几位嘉宾都聊到家里有不同的小主机在部署Agent。其实OpenClaw相比于Manus、GenSpark、Happycapy，虽然产品形态类似都是在云端起Docker跑Agent，但OpenClaw走向了反面，它是深度结合你本地的，比如联动苹果的通讯录、备忘录。

我觉得OpenClaw这一波带火了「个人助理」的意义，它相对于云端产品，跟本地智能结合得更紧密。

大家讨论的形态，在计算机上装Agent，资源主要给Agent用，平时不插显示器——其实是一个新的产品形态。我有个朋友在做叫「Pamir AI」的项目，他们提了一个概念叫「Agent Computer」。

*Pamir AI：一个售价250美元、计算器大小的硬件，能24小时保持在线，接管重复性工作，甚至能通过物理接口，直接介入物理世界。（内容来自晚点报道）

这就好比苹果诞生于PC将出未出的时代。我们想，以后大家可能每天不需要对着几百个软件界面，而是每个人有100到500个Agent来服务他。那时，我们的硬件设备形态可能也会发生很大的改观。

05 Heartbeat机制，

让OpenClaw更像是一位长期伙伴

OpenClaw更像是一个「长周期、永远在线、有主动性」的陪伴型伙伴

Agent创业者：过去一年，我们在做Claude Code的开源实现，从我的视角来看，OpenClaw跟过去传统的Claude Code这种Agent到底有什么区别？

Claude Code的设计中，其实也有任务持久化和记忆机制，但不是那么凸显。你跟它的对话很像是一种临时性的对话。打开Terminal，聊完Task就结束了，Terminal一关，很多人甚至有「上下文洁癖」，用一半就Clear了。

那OpenClaw显然走向它的反面。你跟它聊，随便聊，你也不知道上下文窗口用得有多满。它不会给你显示Session Window占用了多少，但你提的任务它都给你完成。这个时候显然不可能由人来手动管理上下文，它内部必须保持长周期的连续运转。

我觉得这是两个相反的设计。Claude Code是一个更加单元型的Agent，关心原子性任务。而OpenClaw其实已经不再是一个Chatbot或Chat Agent，它是一个长周期、主动的陪伴，就像你身边的一个同事。

你不会说你跟OpenClaw临时开了一个会话，你会把它当做一个长周期的伙伴，因为它的记忆是始终Online的，任务是始终往前推进的。而且它有Heartbeat机制，会周期性地提醒并唤醒自己做一些后台任务，比如做文件的整理或数据的搜集。

我觉得这是两个项目的一些核心差异。上层的产品哲学、心智还是非常不同的，我觉得这也是OpenClaw能引爆社区的主要原因。

现阶段，用OpenClaw做SaaS还蛮难的

开源社区负责人：OpenClaw出来之后，我就试着让它把我过去几年的发票处理一下：我要求它分门别类，按「故事」线整理，比如这趟是北京出差，那趟是深圳出差，把发票Group在一起，算明白里面的税。跟它聊，给它OCR工具、Vision Language Model，把API Key给它，让它自己上网学。

结果发现它做得还不错。我当时想，是不是可以让OpenClaw去做一些有实际商业价值的事情？但坐下来细聊需求后，我发现用OpenClaw做SaaS还是蛮难的。

首先是成本问题。因为它实际是一个数字助理，给我个人服务很方便。但做成会计SaaS，假设一个月收二三十块钱，如果每个人背后都绑一个Claude的套餐，哪怕是Kimi，这笔账也是算不过来的。我没办法用纯AI Native的方式去交付这个服务。

其次是权限和安全问题。我想过把它包装成带API的服务，抽象一部分控制权。但权限控制很难搞。如果放在同一个Server上，客户文件之间的隔离很难做。更担心的是，用户跟OpenClaw聊着聊着，可能会诱导它改代码——因为OpenClaw权限太高了，甚至能改自己的代码。

这就引出了供应链安全的问题。所以我觉得供应链安全这个东西还挺难搞的。结合最近的SEO，如果未来有人通过SEO污染了一个常用Tool的搜索结果，Agent下载了带有恶意代码的东西，那整个安全防线就彻底崩溃了。

最后是Consistent的问题。它很聪明，比如说它看到我这个发票的时间点，自动把两张发票关联起来，说这是一个从A到B再到C的Trip。但当我下次找它做同样的事时，它很难给我一个可复现的、非常Consistent的结果。

我尝试用Prompt控制它，效果都不太好。如果要把它变成一个SaaS服务交付给用户，在现阶段，那我可能还还没有办法完全相信这个Agent。

06 Token税：谁用得越多、试错越多，

谁就越能理解AI的「思维模式」

Claude 4.5 Opus之后，模型开始进化到「可用」的状态了

基模公司核心工程师：直到半年之前，我觉得我还是一个「古法编程爱好者」。在那之前，其实我对模型是属于完全不信任的状态，不管是当时的GPT-3.5还是4，我都试过，这东西没办法去解决在真实工程中看到的各种问题。

什么时候我的思维开始动摇了？其实是从Claude 4.5 Opus出来之后。在它之后，我明显地能感知到一件事情，就是模型从我的视角下的「不可用」已经进化到一个「可用」的状态了。

因为我是古法编程，我真的很地道地把OpenClaw当时版本下的所有的代码都读了一遍。其实OpenClaw整体的架构并没有超出设计的范畴，从头拆解起来其实就三个东西：模型、Loop、Tool。

业界最近在探索一种新的Agent使用方式，叫Proactive Agent。我的第一反应是这东西不就是把ReAct变成了后端熟悉的Cron Job，不断轮询吗？

如果真要做Proactive Agent，我觉得最重要的因素是记忆。之前Manus爆火时我也猜测过它的记忆机制。后来逆向Claude Code发现，其实没有什么黑魔法，其实就两件事情：一是通过标注把所有代码执行一遍；二是在Tool上做了很多雕花工作，System Prompt，告诉它当前的执行过程。仅仅靠这点东西就形成了魔法。

这件事情其实对我本身的冲击有点大，因为它跟一个工程师的直觉是非常非常反过来的。工程师觉得我得知道一件事情到底是为什么，我才去用。但实际上这一波的模型能力迭代真的有一个分界线，可能就是Claude 4.5 Opus之后，模型在Coding领域真的从玩具的状态变成了生产级可用。

「Token税」，是Vibe Coding时代的经验条

基模公司核心工程师：最近感触最大的是听了翁家翌的采访，里面有一句很重要的话：环境的稳定性，或者叫迭代的速度，直接决定了当前模型能够进化的效率。

大家觉得模型训练是黑魔法，只要有神算法和神数据就行。但实际上，真正的算法研究员90%的时间都在「揉数据」，揉数据决定了能产生多少高质量轨迹供模型学习。这需要快速试错，像抽卡一样，一旦抽中SSR，就可以无限复制当前的所有轨迹。

这其实也是现在模型训练中的一个最核心的点，就是把一切可被Scalable的事情作为第一性原理。

我现在重新反思，如果现在再去做应用的话，可能需要牺牲掉一部分「解耦」的执念。实际上，你给模型一个完全可供自己探索的环境，让它烧Token去试，直到发现一条路径是模型一定能走对的时候，这条认知就变成了你自己的能力。

所以，这个时代有一个很严肃的问题，叫做「Token税」。就是谁用的Token越多，谁对于这个东西感知越多，谁能更理解所谓的模型的AI Native思维。

包括OpenClaw该怎么用？我觉得这件事情其实可能会有一个无聊的废话，但是很正确的答案就是「试」，你不断地试，找到一个它真的能够帮你做哪一件事情，然后在这个过程中再去找那个轨迹，到底什么东西是对的。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

OpenClaw 技术闭门：测试将比代码更值钱，Agent Computer 会是新的硬件形态

01

我们还不知道如何迎接上万个高质量PR的涌入

Vibe Coding进入到了一个「快消费」的时代

02

03

Pro User玩出了花，普通用户却有点恐惧

04

Agent Computer，会是一种新的硬件形态

05

Heartbeat机制，

现阶段，用OpenClaw做SaaS还蛮难的

06

Token税：谁用得越多、试错越多，

大 家 都 在 搜

大家都在搜