扫码打开虎嗅APP
本文来自微信公众号: MacTalk ,作者:池建强,原文标题:《Opus 4.8 发布,可惜主菜不是模型,A 厂估值达到惊人的 9650 亿美元》
早上起来发现Anthropic发布了Claude Opus 4.8。看了下我自己的AI lab和AI Voice信息源,大多都喊4.8便宜了,但并非代际跃迁。Anthropic给出的的描述是:判断力更锐利,对自身进展更诚实,能够更长时间独立工作。

我又翻了翻Claude Blog,感觉这次的主菜可能不是模型。只看模型参数和benchmark,Opus 4.8就是一次“常规打磨”,但是如果真的比4.7甚至4.6更节省Token,那也是一次巨大的进步,另外值得关注的是,Claude Code推出了动态工作流。
这个功能目前还处在research preview阶段,面对复杂任务,Claude可以进行动态规划,写出编排脚本,把任务拆成几十到几百个并行子agent,在一个session里分别执行,再交叉验证结果,最后汇总给用户。
典型场景是大型代码迁移、跨代码库bug搜索、安全审计、框架替换、API废弃迁移。这些任务过去靠一个agent一步步推进,经常会遇到上下文膨胀、方向漂移、验证不足的问题。动态工作流的思路,是把“一个模型努力想很久”变成“一组agent分头做事,再互相校验”。
有个典型案例:Anthropic收购的开源框架Bun近期做了一次从Zig到Rust的迁移,使用动态工作流完成了数十万行Rust代码,已有测试套件99.8%通过,从首次提交到合并用了11天。
显然,Opus 4.8可以更好地支持动态工作流任务。
有意思的是,Anthropic这次特别强调了Opus 4.8的诚实。
AI常见的问题是,在不太会不太确定的时候表现得太会了。写代码时,它可能声称修好了前端问题,但后端API压根就没有;做分析时,它说“已经验证”,可能只是推断;长任务推进到一半,它可能把半成品当成结论。
Opus 4.8这次呢,更倾向于标注工作中的不确定性,也更少提出缺乏支撑的断言。相比前代,它写出的代码缺陷率更低了。
在Chat的场景里,幻觉是非常烦人的错误。在企业任务、法律分析、金融文档、代码迁移和长期agent工作流里,过度自信会直接变成成本。模型的诚实度,从这个角度看,也就变成生产力了。
当然了,市场反应并不一致。
一些用户会喜欢这个方向,因为Opus 4.8更适合长任务和复杂工作流。Thariq这类早期使用者对动态工作流评价很高,认为它用一种更温暖、更协作的方式释放了Opus 4.8的能力,甚至用了“上瘾”这个词。
另一边,AI行业观察者Bindu Reddy认为,Opus 4.8在benchmark上只是勉强超过4.7,与GPT 5.5仍有差距。考虑到最近两次发布,Anthropic似乎遇到了一些技术瓶颈。OpenAI随着GPT 5.6即将发布,将拥有巨大的机会。
我的感觉是,大模型市场正在加速场景化。
一个模型很难通吃所有场景。前端、后端、知识工作、法律、金融、代码迁移、低价高频调用、浏览器agent,各自需要不同的能力组合。到了2026年,所谓“最强模型”这个说法越来越粗糙。更实际的问题是:完成当前任务,用哪个模型更合适。
Opus 4.8发布当天,Anthropic宣布完成650亿美元H轮融资,投后估值达到9650亿美元。官方称,本轮由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital领投。公司年化收入在本月早些时候已超过470亿美元。
显然,A厂的叙事有模型和收入做支撑,资本还是愿意买单的。
至于4.8,相对前代是“modest but tangible”的踏实改进。与此同时,公司正在推进更高智能等级的Mythos-class模型,并表示会在未来几周让更广泛客户使用。
当模型能力差距逐渐缩小,平台和工具会成为新的护城河,也就是说,最终还会落到应用为王上。谁能把模型封装成可靠的工作流,谁能让agent分工合作,谁能把复杂任务完成的更好,谁就会占据下一阶段的入口。
我之前因为Opus 4.7太耗Token,退回到了4.6,早上用4.8做了个feature,感觉还不错。