扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
本文通过ITBench-AA评测和作者开发Chrome插件的实践,提出AI Agent的核心能力是判断力而非执行力,迭代质量远胜尝试次数。 ## 1. ITBench-AA评测:前沿大模型根因排查得分均不足50% ITBench-AA是IBM发布的全新大模型评测,要求模型在真实服务器集群中排查故障根因,漏判任何真实原因直接得零分。 所有前沿大模型得分均低于50%:Claude Opus 4.7以47%领跑,GPT-5.5为46%,Qwen3.7-Max以42.5%位列全球第三。 评测发现反直觉结论:模型调查轮次越多成绩越差,Gemini 3.1 Pro Preview平均83轮交互仅得30%,GPT-5.5平均31轮拿到46%。因为找对根因后多报无关内容会扣分,模型排查越多越容易干扰结论,**真正重要的是判断力而非尝试次数**。 ## 2. 字幕获取:7次碰壁后,选择复用已有方案解决问题 作者计划开发支持长视频的油管结构化摘要Chrome插件,决定基于技术架构干净的Read Frog做二次开发,而非翻新旧项目Glarity。 获取油管字幕先后尝试6种自研方案,均因安全验证、环境限制失败,仅能获取短视频字幕,长视频方案稳定性不足。 第7次尝试时,模型发现Read Frog作为翻译插件本身已有成熟的字幕获取方案,选择直接复用解决了所有问题。**优秀Agent的核心能力之一,是懂得何时停止自研、借力已有成熟方案**。 ## 3. 摘要生成:三轮优化后推翻原有思路,采用两遍扫描框架 长视频摘要的痛点不是模型上下文长度不足,而是整段输入会稀释核心内容,导致重点模糊。 最初方案坚持让模型一次生成摘要,先后优化了输出格式、自适应分段,但始终无法解决长视频重点丢失的问题,三轮优化后收益持续递减。 模型推翻了“一次搞定”的原有思路,提出Two-pass两遍扫描方案:第一遍轻扫划分视频段落、标记边界标题,第二遍对每个段落单独生成带时间戳的摘要,并行处理解决了长视频重点模糊的问题。**好Agent不只调整参数方案,更懂得适时跳出原有框架换思路**。 ## 4. AI Agent发展:判断力比执行力更重要 当前AI Agent正从补全代码向自主完成全流程协作者演进,权限和自主性提升后,判断力的重要性远超执行力。 缺乏判断力的高自主Agent,只会更快走向错误方向;新式评测开始聚焦真实场景解决问题的能力,而非知识和推理速度。**最优秀的Agent不是最勤快的,而是懂得精准判断、会高质量迭代的**。
2026-05-29 14:26

7次碰壁、4个版本:我在一个浏览器插件里看到Agent该有的样子

本文来自微信公众号: AI超维度 ,作者:非共识的,题图来自:AI生成


5月27日,IBM软件创新实验室和Artificial Analysis联合发布了ITBench-AA。


这个榜单和我们熟悉的那些benchmark不一样。它不考问答,不考代码生成,不考你能不能写一篇漂亮的文章。它做了一件事:把模型扔进一个真实的服务器集群,系统已经出了故障,你来排查根因——像一个真正的运维工程师那样读日志、追链路、定位问题。评分极其严格,漏掉任何一个真实原因,整道题直接零分。


结果怎样?所有前沿模型得分均低于50%。Claude Opus 4.7领跑,47%。GPT-5.5紧随其后,46%。Qwen3.7-Max拿到42.5%,全球前三。


ITBench-AA榜单:所有前沿模型得分均低于50%


但这个榜单真正有意思的地方不在排名,而在一个反直觉的发现:


调查轮次越多的模型,成绩反而越差。


Gemini 3.1 Pro Preview平均每道题需要83轮交互,得分只有30%。GPT-5.5平均31轮,拿到46%。Qwen3.7-Max平均37.6轮,拿到42.5%。


不是越勤快越好。这个评测的计分方式很有意思:漏掉真正的故障原因,零分;但找对了原因、同时又多报了几个无关的,也要扣分。模型查得越多,越容易把"看起来可疑但其实没问题"的东西也报上去——就像一个过度紧张的医生,明明已经找到了病因,但非要把所有异常指标都写进诊断书,结果反而模糊了真正的结论。


这和我们日常使用AI的直觉相悖。我们总觉得,模型应该尽可能多想、多查、多试。但ITBench-AA告诉我们,真正重要的不是尝试的次数,而是每次尝试的判断力。


ITBench-AA各模型平均调查轮次


就在这个榜单发布的同一周,我用Qwen3.7-Max做了一件事,恰好从另一个角度验证了同样的道理。


两天,一个Chrome插件,和十几次碰壁


我平时在油管上看大量的视频——投资访谈、AI论文解读、技术讲座,一条视频动辄一两个小时,根本看不过来。而很多时候我只想快速知道这个视频在聊什么、有哪些关键观点,再决定要不要完整地看完。过去我一直用Glarity这个Chrome插件做视频摘要,短视频还凑合,但视频一超过十五分钟效果就断崖式下降。一个一小时的访谈,摘要只覆盖前20分钟,后面的内容全丢了。Glarity这个插件来自2023年,早就停更了。


这个痛点存在了快三年,我一直想自己做一个更好的,但浏览器插件开发门槛不低,所以这个想法就一直搁置着。


直到上周,5月20日我去参加了阿里云峰会,会上千问团队宣讲了当天刚发布的Qwen3.7-Max——专门面向Agent场景设计、百万级上下文窗口、支持长达35小时自主执行。听完觉得挺适合拿来试试真实项目,正好手上有这个搁置了三年的插件需求,就拿它试手了。


需求很明确:做一个Chrome插件,能给油管视频生成结构化摘要,特别是要解决长视频的问题。我最初的想法是在Glarity的基础上翻新,但Qwen3.7-Max帮我做了一轮调研之后否定了这个方案——它搜了市面上的同类工具和开源项目,扒了Glarity、BrainyAI、Read Frog等几个项目的代码,给出的结论是:Glarity代码太旧,改造成本不如直接基于一个现代基座叠加功能;Read Frog虽然是翻译插件,但技术栈最新,架构干净,直接拿它的代码做二次开发,工作量最小。


我接受了这个判断。最终的产品方案定下来:基于Read Frog做二次开发,在它的翻译引擎上叠加油管视频摘要和Google搜索增强两个核心功能。这个"站在别人肩膀上"的决策很重要,后面会看到它如何在关键时刻救了整个项目。


开发用的是OpenCode,一个开源的终端编码Agent,背后跑的就是Qwen3.7-Max。品牌和视觉设计交给了Claude Design,它定了一套深森绿加酸柠绿的配色,做了图标和整个组件样式体系,效果比我预期好很多。


Claude Design设计过程:品牌色与图标


组件风格与CSS变量


设计就位,接下来就是核心功能开发——也是整个项目最值得讲的部分。我开发用的是OpenCode,一个开源的终端编码Agent,背后跑的就是Qwen3.7-Max。


在Opencode里面使用Qwen3.7-Max


获取字幕:6次碰壁之后,第7次它选择了"不做"


做油管视频摘要,第一步是拿到视频的字幕文本。听起来简单,但油管不提供公开的字幕接口,想拿到这些数据,得自己想办法。


这里要说一下开发模式:我给了Qwen3.7-Max操作浏览器的权限,它能自己打开Chrome、加载插件、访问油管页面、跑一遍流程看结果。写完代码自己测,测完不对自己改,不需要我传话。所以接下来的每一次"尝试→失败→换方案",都是它自主完成的。


它先试了最直接的办法——直接请求油管的页面数据,提取字幕。结果被油管的登录验证挡回来了。然后它转向从浏览器内部想办法,试了好几种方式去读取页面上的字幕数据:先是被浏览器插件的安全隔离机制挡住(插件和网页之间有一道墙,互相看不到对方的数据),又被浏览器的安全策略拦截,再试着直接调用油管的内部接口,结果缺少一个验证令牌,请求被拒。


四种方案,四种不同的失败原因。但有一点让我印象很深:它从不在同一条路上反复"撞南墙"。每次失败后它都能判断出"这不是我代码写错了,是这条路本身走不通",然后切到一条完全不同的思路。


到第五次尝试时,出现了一线希望——它找到了一种方式让插件和网页共享数据,短视频的字幕成功拿到了。但长视频仍然失败,因为油管对长视频有额外的验证机制。


第六次,它又想了一个很精巧的方案去截获页面数据,但稳定性不够,时灵时不灵。


六次尝试,每条路在逻辑上都合理,但每条路都撞上了油管或浏览器安全模型的某一道墙。而这几轮方案切换都发生在同一个Qwen3.7-Max的长会话里——它始终记得前几次失败的原因,不会重蹈覆辙。整个过程中,我只在"要不要继续这个方向"上做了确认。


然后,第七次,转折来了。


还记得前面说的"基于Read Frog做二次开发这个决策很重要"吗?模型在重新审视Read Frog的代码库时意识到一件事——Read Frog作为翻译插件,本身也有获取油管字幕的需求。也就是说,它已经有一套完整的、经过社区验证的字幕获取方案,前面六次碰到的每一个坑,这套方案全部解决过了。


模型的结论是:不应该自己重写,直接复用。


问题彻底解决。我们选择基于Read Frog做二次开发,本来是看中了它的技术栈作为基座。没想到它的字幕获取能力——一个翻译插件的"副产品"——最终成了整个项目的关键拼图。


回头看,七次迭代里最重要的不是前六次越来越精巧的技术方案,而是第七次那个"放弃自己写"的决定。最聪明的迭代不是"再想一种新方法",而是"认识到不该自己做这件事"。


Qwen3.7-Max理解自己的错误


这让我想到ITBench-AA的那个发现。Gemini用了83轮交互——它很努力,但越查越乱。好的Agent不是那个永远不放弃的,是那个知道什么时候该停、什么时候该借力的。


摘要生成:优化了三轮之后,它把整个思路推翻了


字幕拿到了,接下来是怎么把它变成有用的摘要。


短视频的摘要其实不难——五到十分钟的视频,字幕也就几千字,整段丢给大模型,一次就能出一份不错的总结。


但长视频完全是另一回事。过去最大的问题是模型一次能读的文本量有限,一两个小时的视频字幕动辄十几万字,模型读不完只能截断,所以Glarity这类工具做出来的"长视频摘要"其实只覆盖了前20分钟,后面全丢了。现在模型能读的量够大了,一次读一百万字都不稀奇,但问题并没有因此解决——你把十几万字一股脑塞进去,模型确实能读完,但它不知道该重点挖什么。一个小时的投资访谈里有闲聊、有铺垫、有核心论点、有数据佐证,信息密度分布极不均匀,让模型一遍扫完就出摘要,结果往往是"看起来完整"但重点模糊,关键论据被稀释在大量上下文里。


说实话,长视频摘要是个挺小众的需求,Glarity早就停更了,市面上也没有其他工具认真做过。不是技术上完全不可能,而是投入产出比太低,没人愿意啃。一开始我们也掉进了同一个坑里。


Qwen3.7-Max最初的方案是把字幕一次性发给大模型生成摘要,但输出格式不稳定,不同语言返回的格式五花八门,经常解析失败。它很快判断出问题在格式不受控,于是切换到用结构化模板强制约束输出,格式问题解决了。但新的问题随之浮出来:字幕太长一次塞不完,一个小时的视频只能覆盖前20分钟。它又加了自适应逻辑,根据视频长短动态调整章节数量和层级结构,覆盖范围有所改善,但一个小时的访谈被硬塞进固定数量的章节里,每个章节只能分到一两句话的篇幅,重点和细节都被压没了。


三轮优化下来,每一轮都解决了上一轮的问题,但改善越来越小。因为这三轮都在同一个思路里打转——"让模型一次搞定"。不管是更好的提示词、更智能的模板还是更动态的参数,本质上都是在问同一个问题:"怎么让一次调用处理更多内容?"


真正的突破发生在Qwen3.7-Max换了一个问题:"为什么要坚持一次搞定?"


它提出了一个Two-pass(两遍扫描)的方案。第一遍做轻扫:把完整字幕交给模型,只要求它做一件事——识别视频的结构,把内容切成八到二十个时间段,标出每段的边界和标题,不做深度分析。第二遍做深挖:对每个时间段单独截取对应的字幕片段,独立生成摘要和带时间戳的要点,所有段落同时并行处理。


Qwen3.7-Max重新定义问题


效果是质的飞跃。同一个1小时22分钟的视频,Glarity只能产出一份笼统的摘要,覆盖不了完整时长;而Qwen3.7-Max采用的Two-pass(两遍扫描)方案产出了完整的结构化章节,每个章节有精确时间戳,点击直接跳转到视频对应位置。


Two-pass方案的实际产出:结构化章节 + 带时间戳的详细要点


这个过程和前面的字幕获取展示的是两种不同的迭代能力。字幕获取那六次碰壁,Qwen3.7-Max是在不同路径之间横向切换;摘要生成这里,它是在同一条路上纵向撞了三次天花板之后,选择了升维——不再优化"一次搞定"这个思路本身,而是跳出这个思路。


它真正做对的地方,不是一次写出最终方案,而是在几轮修补之后意识到:该换的不是参数,是整个框架。


好的Agent不只会换方案,还会在碰壁足够多次之后意识到:该换的不是方案,是思路。


回到ITBench-AA:判断力比执行力更重要


讲到这里,可以回到开头那个榜单了。


我做Skim AI的经历和ITBench-AA考察的场景,表面上完全不相干——一个是浏览器插件开发,一个是服务器集群故障排查。但底层考察的其实是同一种能力:在真实系统的约束下,面对一连串事先不知道的障碍,能不能自主推进下去。


服务器集群排障时,模型需要读日志、追踪服务之间的依赖、判断哪些异常是真正的根因。浏览器插件开发时,模型需要应对一个接一个的安全限制和环境约束。


两种场景里,障碍都不是模型事先知道的。都不可能靠"一次漂亮的推理"解决。都需要模型反复试探、准确判断失败原因、在正确的时机切换策略。


ITBench-AA从评测维度证明了"精准高效 > 盲目探索"——37轮拿42.5%好过83轮拿30%。Skim AI的开发过程从实践维度印证了同样的道理——最终解决字幕获取问题的不是第8种更聪明的方案,而是"复用已有代码"这个看似最不 "Agent" 的决定。


2026年,AI Agent正在从"帮你补全代码"变成"给了权限之后能自己跑一整条工作流的协作者"。但正因为权限在变大、自主性在变强,"判断力"就变得比"执行力"更关键。一个能自主操作浏览器、自主调用上千次工具的Agent,如果缺乏判断力,只会更快地走上错误的路。


这也是Qwen3.7-Max带给我惊喜的地方。它在ITBench-AA上用37.6轮拿到42.5%,在Skim AI开发中7次迭代字幕获取方案、最终选择复用而非重写,在官方的35小时内核优化测试中跑了30小时还在发现新的优化方向——这些表现指向的都不是"能力强",而是"判断准"。更让我在意的是,我在OpenCode里用它、别人在Claude Code或Hermes里用它,表现高度一致。它学会的不是"怎么在某个特定工具链里解题",而是"怎么解题"本身。


ITBench-AA这类评测的出现,标志着行业终于开始用对的标尺衡量对的能力。以前的benchmark考"你知不知道答案",现在考"你能不能在真实系统里把事情查清楚、做完整"。


而一个Agent在真实系统里能走多远,最终取决的不是知识量或推理速度,是它碰壁之后的反应——能不能准确判断失败原因,能不能及时换路,能不能在对的时候停下来借力,能不能在调了三版参数之后意识到应该换架构。


最好的Agent不是最勤快的,是最会迭代的。

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: