2026-05-29 10:04

Opus4.8发布，可惜主菜不是模型，A 厂估值达到惊人的9650亿美元

速览

本文来自微信公众号： MacTalk ，作者：池建强，原文标题：《Opus 4.8 发布，可惜主菜不是模型，A 厂估值达到惊人的 9650 亿美元》

早上起来发现Anthropic发布了Claude Opus 4.8。看了下我自己的AI lab和AI Voice信息源，大多都喊4.8便宜了，但并非代际跃迁。Anthropic给出的的描述是：判断力更锐利，对自身进展更诚实，能够更长时间独立工作。

1

我又翻了翻Claude Blog，感觉这次的主菜可能不是模型。只看模型参数和benchmark，Opus 4.8就是一次“常规打磨”，但是如果真的比4.7甚至4.6更节省Token，那也是一次巨大的进步，另外值得关注的是，Claude Code推出了动态工作流。

这个功能目前还处在research preview阶段，面对复杂任务，Claude可以进行动态规划，写出编排脚本，把任务拆成几十到几百个并行子agent，在一个session里分别执行，再交叉验证结果，最后汇总给用户。

典型场景是大型代码迁移、跨代码库bug搜索、安全审计、框架替换、API废弃迁移。这些任务过去靠一个agent一步步推进，经常会遇到上下文膨胀、方向漂移、验证不足的问题。动态工作流的思路，是把“一个模型努力想很久”变成“一组agent分头做事，再互相校验”。

有个典型案例：Anthropic收购的开源框架Bun近期做了一次从Zig到Rust的迁移，使用动态工作流完成了数十万行Rust代码，已有测试套件99.8%通过，从首次提交到合并用了11天。

显然，Opus 4.8可以更好地支持动态工作流任务。

有意思的是，Anthropic这次特别强调了Opus 4.8的诚实。

AI常见的问题是，在不太会不太确定的时候表现得太会了。写代码时，它可能声称修好了前端问题，但后端API压根就没有；做分析时，它说“已经验证”，可能只是推断；长任务推进到一半，它可能把半成品当成结论。

Opus 4.8这次呢，更倾向于标注工作中的不确定性，也更少提出缺乏支撑的断言。相比前代，它写出的代码缺陷率更低了。

在Chat的场景里，幻觉是非常烦人的错误。在企业任务、法律分析、金融文档、代码迁移和长期agent工作流里，过度自信会直接变成成本。模型的诚实度，从这个角度看，也就变成生产力了。

当然了，市场反应并不一致。

一些用户会喜欢这个方向，因为Opus 4.8更适合长任务和复杂工作流。Thariq这类早期使用者对动态工作流评价很高，认为它用一种更温暖、更协作的方式释放了Opus 4.8的能力，甚至用了“上瘾”这个词。

另一边，AI行业观察者Bindu Reddy认为，Opus 4.8在benchmark上只是勉强超过4.7，与GPT 5.5仍有差距。考虑到最近两次发布，Anthropic似乎遇到了一些技术瓶颈。OpenAI随着GPT 5.6即将发布，将拥有巨大的机会。

我的感觉是，大模型市场正在加速场景化。

一个模型很难通吃所有场景。前端、后端、知识工作、法律、金融、代码迁移、低价高频调用、浏览器agent，各自需要不同的能力组合。到了2026年，所谓“最强模型”这个说法越来越粗糙。更实际的问题是：完成当前任务，用哪个模型更合适。

Opus 4.8发布当天，Anthropic宣布完成650亿美元H轮融资，投后估值达到9650亿美元。官方称，本轮由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital领投。公司年化收入在本月早些时候已超过470亿美元。

显然，A厂的叙事有模型和收入做支撑，资本还是愿意买单的。

至于4.8，相对前代是“modest but tangible”的踏实改进。与此同时，公司正在推进更高智能等级的Mythos-class模型，并表示会在未来几周让更广泛客户使用。

当模型能力差距逐渐缩小，平台和工具会成为新的护城河，也就是说，最终还会落到应用为王上。谁能把模型封装成可靠的工作流，谁能让agent分工合作，谁能把复杂任务完成的更好，谁就会占据下一阶段的入口。

我之前因为Opus 4.7太耗Token，退回到了4.6，早上用4.8做了个feature，感觉还不错。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。