2026-04-17 11:05

Opus4.7压根没想做“最强模型”：各位吹Claude的速度都跟不上Anthropic 的节奏了

硅星人

本文来自微信公众号：硅星人Pro ，作者：Opus 4.7，原文标题：《Opus 4.7 压根没想做“最强模型”：各位吹Claude的速度都跟不上Anthropic 的节奏了》

2026年4月16日，Anthropic正式发布Claude Opus 4.7，距离上一代Opus 4.6发布仅两个多月。

在最近一阵密集而疯狂的产品与模型更新后，抛出新模型的Anthropic自然给人一种放大招的感觉。想必你也已经看到很多第一时间的模型报告梳理，各个把Opus 4.7称为“最强模型”，那些“人类完了”、“失业预警”等等再次刷屏。

但还是要看看Anthropic自己发了啥吧。

这次发布的基调其实不太寻常。

Anthropic在公告里直接写道：Opus 4.7的能力不如Claude Mythos Preview——而Mythos只对Apple、Google、Microsoft、Nvidia等少数合作伙伴开放，普通开发者和用户无法使用。

同时，比它的这种说辞更值得关注的，是它不只是比传说中的Mythos更弱，它其实比上一代模型，也在关键的一些能力上更弱。

Opus 4.7本身那份跑分表里的一个异常数字：长上下文基准MRCR v2@1M从Opus 4.6的78.3%跌到32.2%，46个百分点的暴跌。

很少有旗舰模型迭代会把自家王牌能力砍掉一半。

而且这是它主动做出的选择。

所以，当各位继续无脑惯性吹它的每一个模型是“最强”的时候，其实已经跟不上Anthropic自己的节奏了！

它甚至都不care去改进一下这个洗车问题

Opus 4.7是一次根本没有想做成“最强模型”的发布，它是一次有明确取舍的，“精准刀法”式的发布，与以往头部模型厂商的各种发布思路都不同，也是今天头部厂商在明确感受到模型本身的“大跃进”不再可持续后，会集体转向的新方向——Anthropic某种程度上已经在向苹果、微软等公司在他们非常成熟的产品商业化阶段的发布策略靠拢。

这可能才是4.7的真正重要的地方。

一、编程能力：数字背后的真实改善

要更好理解这些变化，最好的方式自然是先仔细看一下它这次到底发了什么。

以下是Opus 4.7这次发布的完整信息梳理——哪里进步了、哪里摆烂了、开发者一手反馈是什么、该不该迁移。

官方公告：https://www.anthropic.com/news/claude-opus-4-7

Opus 4.7的编程成绩是这次发布的主轴。

SWE-bench Verified（500个真实GitHub issue，模型需写出能通过测试的补丁）从Opus 4.6的80.8%升至87.6%，接近7个百分点的提升，是目前公开可用模型中的第一名。对比Gemini 3.1 Pro的80.6%，差距明显。

SWE-bench Pro是更难的版本，覆盖四种编程语言的完整工程流水线。Opus 4.7从53.4%升至64.3%，11个百分点的跳升。对比GPT-5.4的57.7%、Gemini 3.1 Pro的54.2%，Opus 4.7在这项基准上明显领先。

CursorBench是来自Cursor的实战基准，专门衡量模型在真实IDE环境中的编程辅助质量。Opus 4.6是58%，Opus 4.7跳到了70%，12个百分点的提升。Cursor联合创始人Michael Truell在官方公告中说："这是能力上的有意义跳跃，在解决难题时有更强的创造性推理。"

合作伙伴实测数据：

Rakuten：Opus 4.7解决的生产任务数量是Opus 4.6的3倍，代码质量和测试质量评分都有两位数提升
Factory：任务成功率提升10-15%，模型中途停下来的情况明显减少
Cognition（Devin背后的公司）：模型"可以连续工作数小时而不掉线"
CodeRabbit：召回率提升超过10%，"比GPT-5.4 xhigh模式略快"
Bolt：在较长的应用构建任务上，Opus 4.7比Opus 4.6 "最好情况下提升10%，没有过去那种退步问题"
Terminal-Bench 2.0：Opus 4.7解决了三个之前没有任何Claude模型（或竞争对手）能处理的任务，其中一个是需要跨复杂代码库多文件推理才能修复的竞争条件（race condition）

这些数据集中指向一个方向：Opus 4.7在长周期、跨文件、需要保持上下文连贯的复杂编程任务上有明显改善。这正是Opus 4.6用户在过去两个月吐槽最多的点——任务执行到一半就自动放弃、遇到多文件bug就迷失。

二、视觉能力：这次发布最被低估的改进

视觉精准度基准XBOW从54.5%跳到98.5%。这不是渐进式改进，是重建级别的跃迁。

具体规格变化：

最大图像分辨率从约115万像素（长边1,568像素）提升至约375万像素（长边2,576像素），是前代的3倍多
模型坐标与实际像素实现1:1对应，此前computer use任务需要手动换算缩放系数，现在这个步骤消失
CharXiv视觉推理基准：不带工具82.1%，带工具91.0%

这对哪些场景有实质影响？

对computer use产品团队来说，这次升级可能是决定性的。Opus 4.6时代的computer use处于"能做demo但不敢上生产"的状态——误点率太高，难以预测。98.5%的视觉精准度意味着这个功能第一次具备了可靠部署的门槛。多家技术博客在评测里直接写道：如果你因为Opus 4.6误点频率太高而搁置了computer use产品计划，4.7清除了这个障碍。

Reddit上的一手反馈（r/ClaudeAI）：有用户提到，"视觉能力的提升太关键了，我之前做了很多边缘项目，尝试让模型在视觉反馈循环里迭代改进输出，效果一直很混乱，很期待4.7能怎么处理这个问题。"

除computer use外，受益的场景还包括：扫描文档分析（能读取更小字体、识别更精细的图表细节）、截图理解、仪表盘类应用、复杂PDF处理。

需要注意的成本问题：更高分辨率的图像会消耗更多token。如果你的应用场景对图片细节要求不高，建议在传入前先降采样。

三、最大的退步：长上下文崩了

MRCR v2@1M（百万token长上下文记忆测试）：

4.6：78.3%
4.7：32.2%

暴跌46个百分点，从接近80%直接掉到三分之一。

这个跌幅在旗舰模型迭代史上几乎没有先例。MRCR v2是Anthropic自己在Opus 4.6时代被重点宣传的能力——当时Anthropic的原话是"在一个模型实际能用的上下文量级上发生了质变"。到4.7，这个"质变"直接消失了。

为什么会这样？Tokenizer换了。

Opus 4.7使用新的tokenizer，同样的输入文本会产生约1.0-1.35倍的token数量，具体倍数因内容类型而异。

直接连锁反应是：

名义上200K/1M的上下文窗口还在，但同样的文字能装的量少了
长任务agent工作流的实际token消耗增加约35%
定价没变（输入$5、输出$25每百万token），但实际使用成本上升

Anthropic的官方说法是新tokenizer"提升了文本处理效率"，但benchmark数据显示在长上下文场景下是明显退步的。

搜索能力也退步了：

BrowseComp（网络深度信息检索）：Opus 4.6的83.7%→Opus 4.7的79.3%
GPT-5.4 Pro在这项上得分89.3%，Gemini 3.1 Pro得85.9%，Opus 4.7目前在主要竞争模型中垫底

搜索和长文本，恰恰是很多企业用户最常用的场景。

Hacker News上开发者的一手反馈（帖子275赞、215评论，来源：HN讨论）：

"关掉adaptive thinking、把effort手动拉到最高，才让我回到基线表现。'我们内部评测看起来不错'这种说法现在已经不够了，大家都看到一样的问题。""4.7默认不再在输出里包含人类可读的推理token摘要，必须在API请求里加display:summarized才能拿回来。"

这些都是实际使用者反映的问题。但这也是Anthropic自己主动做出的选择。

四、新的行为特征：自我验证与更字面化的指令跟随

Opus 4.7官方公告里有一句值得单独拎出来：模型在上报结果之前会核验自己的输出。

Hex的技术团队在测试中给出了一个具体案例：当数据缺失时，Opus 4.7会如实报告"数据不存在"，而不是给出一个看上去合理但实际是编造的答案——而后者正是Opus 4.6会踩的坑。金融科技平台Block对此的评价是："它在规划阶段就能发现自己的逻辑错误，加速了执行速度，比之前的Claude模型有明显超越。"

但自我验证带来了另一个连带的行为变化：Opus 4.7对指令的解读更字面化。

这是一个重要的迁移风险。如果你为Opus 4.6精心调过prompt，4.7可能不会像4.6那样"读出言外之意"，而是严格按照你写的字面意思执行。Anthropic在官方迁移指南里明确提到了这一点，建议上线4.7前对关键prompt做回归测试。

一个实用参照数字来自Hex的CTO：低effort档的Opus 4.7，性能大约等于中effort档的Opus 4.6。

五、推理控制机制：xhigh、task budgets和/ultrareview

Opus 4.6发生过一件影响用户信任的事：2月9日切换到自适应思考默认模式，3月3日官方又把Claude Code的默认推理深度从最高档调至medium，理由是"在智能、延迟、成本之间取得平衡"。这件事被用户称为"降智门"，AMD一位高级总监在GitHub的质疑帖被广泛转发。

Opus 4.7给出的回应是，把推理深度的控制权更显式地交给用户。

xhigh effort档：新增的推理强度级别，位于原有的high和max之间。Claude Code现在已经把所有计划的默认档位更新为xhigh。

但开发者社区对xhigh有一个直接疑问，Reddit用户的原话是："Opus 4.6默认是medium，4.7默认是xhigh。我想知道这个决策背后的考虑，因为effort档提高显然会带来更多的token消耗。"

换句话说：用户看到的是一次"把控制权交还给用户"的修复，但实际上默认档被拉高了，意味着同样的任务要烧更多token。叠加tokenizer变更，这是双重的成本提升。

task budgets（公测中）：针对长任务的token预算控制机制。开发者设置一个总token预算（最低20K），模型在执行过程中能实时看到剩余额度，据此分配资源，避免跑到一半因为token超支停下来，也防止不必要的计算浪费。

Claude Code新增/ultrareview命令：专项代码审查会话，运行一次专注于bug排查和设计问题的深度审查，Pro和Max用户每月赠送3次免费使用。

auto模式对Max用户开放：此前只在Enterprise计划里有，现在Max用户也能用。Claude在auto模式下可以自主做决策、减少中途询问用户的次数。Claude Code团队负责人Boris Cherny的原话是："给Claude一个任务，让它跑，回来看已经核验过的结果。"

六、跑分全景：哪里赢了，哪里输了

以下是目前已公布的主要基准数据（来源：Anthropic官方system card及合作伙伴评测）。

编程与工程类（Opus 4.7领先）

视觉与多模态（Opus 4.7大幅领先）

知识工作（Opus 4.7领先）

综合评测（Opus 4.7明显上台阶）

通用推理（三家基本打平）

这个基准已趋于饱和，不再是有效的竞争分水岭。

研究类任务（GPT-5.4领先，Opus 4.7退步）

长上下文（Opus 4.7大幅退步）

总结选型逻辑：编程、工程agent、视觉、金融法律知识工作四块Opus 4.7有明确优势；研究密集型任务和开放式网络检索GPT-5.4更强；长上下文场景下Opus 4.7比自己的前代还差一大截，这是最值得警惕的点。

七、安全护栏：Mythos的铺路石

这部分容易被当作发布稿里的"安全例行声明"跳过，但它是理解Anthropic当前战略的关键。

4月7日，Anthropic宣布了Project Glasswing：把Claude Mythos Preview开放给Apple、Google、Microsoft、Nvidia、Amazon、Cisco、CrowdStrike、JPMorgan Chase和Broadcom九家合作伙伴，专门用于防御性网络安全场景。

Mythos是Anthropic迄今能力最强的模型，根据The Hacker News的报道，它能自主发现零日漏洞，在主要操作系统和浏览器里找出了数千个此前未知的漏洞。但正因为这个能力，它也被判定为带有重大滥用风险，所以不公开发布。

Opus 4.7在这条线上是第一个测试样本。Anthropic在训练阶段主动削减了模型的网络安全攻击能力（同时尽量保留防御能力），并上线了自动检测和拦截高风险网络安全请求的实时护栏系统。公告原文："我们将通过Opus 4.7的实际部署来学习这套护栏是否有效，再决定是否把它推广到Mythos级别的模型上。"

换句话说，每个用Opus 4.7的开发者都在帮Anthropic标定安全护栏的边界。

Gizmodo的评价：这次发布采用了"大胆的营销策略——主动宣传自家新模型'通用能力不如别的选择'"，这在旗舰发布里极其罕见。

安全从业者如果需要将Opus 4.7用于合法的渗透测试、漏洞研究或红队测试，需要申请加入Cyber Verification Program。

八、价格与迁移：名义不变，实际涨了

定价：输入$5/百万token，输出$25/百万token，与Opus 4.6相同。API模型ID为claude-opus-4-7。可用平台包括Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry，GitHub Copilot也已同步上线。

但正如前面提到的，tokenizer变更让同样输入产生约1.0-1.35倍的token数，叠加更高默认effort档位下的思考token，对于长任务agent工作流，实际成本可能是Opus 4.6同等设置下的2-3倍。

Anthropic同时把Claude Code的缓存TTL从一小时缩短到五分钟——这意味着如果你离开电脑超过五分钟再回来，上下文缓存失效，得重新加载，token消耗会更快。Reddit社区已经有不少用户吐槽"额度烧得比瀑布还快"。

对现有Opus 4.6用户的破坏性变更清单：

Extended Thinking Budgets参数已移除，传入会返回400错误，需改用adaptive thinking模式
温度（temperature）、top_p、top_k等采样参数已移除，需用prompting控制输出行为
更严格的字面化指令跟随——为Opus 4.6调好的prompt需要重新测试，不能直接换模型ID上线
tokenizer变更导致token计数变化，建议先在真实流量上跑样本，再做完整迁移
默认输出不再包含推理token摘要，需要显式设置display:summarized才能拿回

实用建议：Anthropic官方迁移指南建议，正式切换前用代表性的生产流量跑Opus 4.7，对比token消耗和任务质量再做决定。

可以放出精准的刀法，最为恐怖

Opus 4.7是一次有清晰靶向的升级，也是一次有明显代价的升级。而且这些都是Anthropic自己设计好的，且很大程度上你必须为它买单。

这个模型进步的一面：

SWE-bench Verified的87.6%、SWE-bench Pro的64.3%、CursorBench的70%、Rakuten的3倍生产任务——这些是生产环境里能感知到的编程能力提升
视觉能力重建（XBOW 54.5%→98.5%、分辨率翻3倍、像素1:1对应），让computer use第一次具备可靠部署的门槛
xhigh档位、task budgets、/ultrareview，是对"降智门"的显式回应
BigLaw 90.9%、Finance Agent 64.4%，在金融法律这类专业知识工作上明确领先

放弃的一面：

MRCR v2@1M从78.3%跌到32.2%，长上下文能力几乎砍半
BrowseComp从83.7%跌到79.3%，搜索能力被GPT-5.4和Gemini 3.1 Pro双双反超
tokenizer变更+默认effort拉高+缓存TTL缩短=三重隐性涨价
Mythos压着不放，意味着Anthropic手里还有更强的牌但出不来

这次发布最真实的样子，不是"最强模型"也不是"最强公开模型"，而是：一次有明确取舍的迭代。

最新的消息是，Claude Code在2月的年化收入已经达到25亿美元。Opus 4.7就是这条线上的下一个赌注。

编程和视觉是加法，长上下文和搜索是减法，价格名义不变但账单在涨。Anthropic正在用Opus 4.7做一次平衡——既要修复Opus 4.6遗留的信任损伤，又要为Mythos级模型将来的更大范围开放做安全护栏的实战演练。以及更重要的，它要充分利用好今天自己所处的领先位置，把用户对它产品的喜欢，转化为对一代一代产品哪怕有缺陷却依然离不开的惯性，然后建立起像苹果等公司已经进入成熟期才有的那种又爱又恨的用户粘性，和真正有商业价值的生态。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技