扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
本文介绍Anthropic发布的Claude Opus 4.8及企业动态,分析大模型行业当前发展趋势。 ## 1. Opus 4.8模型常规迭代优化 本次发布属于Opus系列常规打磨,未实现代际跃迁,相比前代更节省Token,判断力提升,可支持更长时间独立工作。模型诚实度改进明显,更愿意标注不确定性,更少输出无支撑断言,代码缺陷率降低,减少过度自信带来的业务成本。 ## 2. Claude Code推出动态工作流新功能 该功能目前处于研究预览阶段,可对复杂任务动态规划,拆分为几十到数百个并行子agent分头执行,再交叉验证汇总结果,解决单agent推进长任务时上下文膨胀、方向漂移、验证不足的问题。Anthropic旗下Bun框架使用该功能完成数十万行从Zig到Rust的代码迁移,已有测试通过率达99.8%,从提交到合并仅用时11天。 ## 3. 业内对本次发布评价分化 早期使用者对动态工作流评价很高,认为其协作性优秀、体验让人上瘾。行业观察者认为Opus 4.8基准测试仅略超4.7,和GPT 5.5仍有差距,Anthropic连续两次小更可能遭遇技术瓶颈,OpenAI的GPT 5.6将获得市场机会。 ## 4. Anthropropic完成融资,大模型进入场景化竞争阶段 Anthropic完成650亿美元H轮融资,投后估值达9650亿美元,年化收入已超470亿美元,目前正在推进更高等级的Mythos-class模型,未来几周将向更多客户开放。大模型市场正加速场景化,单一模型无法通吃所有场景,未来平台、工作流封装和多agent协作能力将成为新的竞争护城河。
2026-05-29 10:04

Opus4.8发布,可惜主菜不是模型,A 厂估值达到惊人的9650亿美元

本文来自微信公众号: MacTalk ,作者:池建强,原文标题:《Opus 4.8 发布,可惜主菜不是模型,A 厂估值达到惊人的 9650 亿美元》


早上起来发现Anthropic发布了Claude Opus 4.8。看了下我自己的AI lab和AI Voice信息源,大多都喊4.8便宜了,但并非代际跃迁。Anthropic给出的的描述是:判断力更锐利,对自身进展更诚实,能够更长时间独立工作。



1


我又翻了翻Claude Blog,感觉这次的主菜可能不是模型。只看模型参数和benchmark,Opus 4.8就是一次“常规打磨”,但是如果真的比4.7甚至4.6更节省Token,那也是一次巨大的进步,另外值得关注的是,Claude Code推出了动态工作流。


这个功能目前还处在research preview阶段,面对复杂任务,Claude可以进行动态规划,写出编排脚本,把任务拆成几十到几百个并行子agent,在一个session里分别执行,再交叉验证结果,最后汇总给用户。


典型场景是大型代码迁移、跨代码库bug搜索、安全审计、框架替换、API废弃迁移。这些任务过去靠一个agent一步步推进,经常会遇到上下文膨胀、方向漂移、验证不足的问题。动态工作流的思路,是把“一个模型努力想很久”变成“一组agent分头做事,再互相校验”。


有个典型案例:Anthropic收购的开源框架Bun近期做了一次从Zig到Rust的迁移,使用动态工作流完成了数十万行Rust代码,已有测试套件99.8%通过,从首次提交到合并用了11天。


显然,Opus 4.8可以更好地支持动态工作流任务。


2


有意思的是,Anthropic这次特别强调了Opus 4.8的诚实。


AI常见的问题是,在不太会不太确定的时候表现得太会了。写代码时,它可能声称修好了前端问题,但后端API压根就没有;做分析时,它说“已经验证”,可能只是推断;长任务推进到一半,它可能把半成品当成结论。


Opus 4.8这次呢,更倾向于标注工作中的不确定性,也更少提出缺乏支撑的断言。相比前代,它写出的代码缺陷率更低了。


在Chat的场景里,幻觉是非常烦人的错误。在企业任务、法律分析、金融文档、代码迁移和长期agent工作流里,过度自信会直接变成成本。模型的诚实度,从这个角度看,也就变成生产力了。


3


当然了,市场反应并不一致。


一些用户会喜欢这个方向,因为Opus 4.8更适合长任务和复杂工作流。Thariq这类早期使用者对动态工作流评价很高,认为它用一种更温暖、更协作的方式释放了Opus 4.8的能力,甚至用了“上瘾”这个词。


另一边,AI行业观察者Bindu Reddy认为,Opus 4.8在benchmark上只是勉强超过4.7,与GPT 5.5仍有差距。考虑到最近两次发布,Anthropic似乎遇到了一些技术瓶颈。OpenAI随着GPT 5.6即将发布,将拥有巨大的机会。


我的感觉是,大模型市场正在加速场景化。


一个模型很难通吃所有场景。前端、后端、知识工作、法律、金融、代码迁移、低价高频调用、浏览器agent,各自需要不同的能力组合。到了2026年,所谓“最强模型”这个说法越来越粗糙。更实际的问题是:完成当前任务,用哪个模型更合适。


4


Opus 4.8发布当天,Anthropic宣布完成650亿美元H轮融资,投后估值达到9650亿美元。官方称,本轮由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital领投。公司年化收入在本月早些时候已超过470亿美元。


显然,A厂的叙事有模型和收入做支撑,资本还是愿意买单的。


至于4.8,相对前代是“modest but tangible”的踏实改进。与此同时,公司正在推进更高智能等级的Mythos-class模型,并表示会在未来几周让更广泛客户使用。


当模型能力差距逐渐缩小,平台和工具会成为新的护城河,也就是说,最终还会落到应用为王上。谁能把模型封装成可靠的工作流,谁能让agent分工合作,谁能把复杂任务完成的更好,谁就会占据下一阶段的入口。


我之前因为Opus 4.7太耗Token,退回到了4.6,早上用4.8做了个feature,感觉还不错。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜