2026-06-13 10:22

交白卷也排第一？Fable5二百题全部拒答，却登顶最严AI编程基准

本文来自微信公众号：机器之心，编辑：Panda，作者：机器之心，原文标题：《交白卷也排第一？Fable 5二百题全部拒答，却登顶最严AI编程基准》

太离谱了！

是的，本文的主角还是前些天刚发布了Claude Fable 5的Anthropic。

Fable 5发布时的排面是真的足。SWE-Bench Pro得分80.3%，把第二名甩出11个百分点；Andrej Karpathy直接喊出「deserves a major version bump」；Stripe拿它在5000万行Ruby代码库里跑了一整天的迁移，顶上了原本需要整个团队两个月才能完成的工作量。势头之猛，让人一度以为AI编程进入了新纪元。

然而，Fable 5刚开香槟，就被自己的「安全护栏」绊了个大跟头。

其系统卡中明确表示，Fable 5被设计成：一旦检测到用户正在从事前沿AI研发工作（比如训练流水线、分布式训练基础设施、ML加速器设计），模型会悄悄降低自己的回答质量——而且不通知用户。也就是说，你花着Fable 5的钱，收到的可能是Opus 4.8级别的活，还没有任何提示。

Anthropic为此用了提示词修改、转向向量等技术手段，让模型在特定查询下悄悄变笨，整个过程对用户完全不透明。

然后，更尴尬的来了。

也正因为Fable 5现在的降智操作变得「透明」了，一些有趣的情况随之浮出水面。

其中最让人无语的，就是Fable 5在ProgramBench基准测试上的「表现」。

那么，Fable 5成绩如何呢？

不是0分。是拒绝作答：200道题，全部拒绝！

ProgramBench之所以没有Fable 5的成绩，是因为「重建编译后的二进制文件」这一操作触发了Fable 5的网络安全分类器。说白了，Fable 5看到这道题，判定其涉及「二进制逆向」，打了个安全警报，直接拒绝作答。而且200道，一道不落。

有趣的是，Fable 5在其他编程基准上可是一点不含糊的，都能好好答题。

Fable 5在不同基准上的成绩和排名

然而，就在这份弃考成绩单提交之后，ProgramBench排行榜做了一个让人目瞪口呆的决定：综合其他基准表现，仍然将Fable 5列在了榜首。

一个字都没答的考生，坐了第一名的座位。这大概是AI评测史上头一遭：弃考也能登顶榜单。

当然，这操作很快引来了四面八方的异议。有人直接发问：正经考试怎么交了白卷还能得第一名？应该直接给零分才对。

这也让很多网友吐槽其护栏太高，以至于难以实际应用：

顺带一提，有网友还发现，Fable 5在英文输出中依然会偶发性地夹杂汉字，这个老毛病到了这一代还没彻底根治。

事实上，Fable 5的「过度拒绝」问题并非首次出现在Claude家族。

早在Claude 3 Opus时代，研究人员就发现该模型在面对安全测试题目时，会在解题进行到一半时突然罢工，以「伦理顾虑」为由拒绝继续作答。Claude 3.5 Sonnet也曾被记录到在结构化bash任务中以「制作payload涉及执行命令」为由直接拒绝。

Fable 5的问题究竟出在哪里？

回到Fable 5本身。根据目前披露的信息，它的「护栏系统」采用了两级架构：一个探针实时监控模型的内部激活状态，对所有流量进行扫描；一旦触发警报，请求会被上报给一个独立训练的LLM分类器做最终裁决。

https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

这套系统拦截的领域，涵盖网络安全、生物化学，以及前面提到的前沿AI研发。以Terminal-Bench 2.1为例，约20.9%的测试用例触发了安全拒绝并回退到Opus 4.8。

ProgramBench的「二进制重建」任务，在分类器眼里，大概和「逆向工程恶意软件」没有太大区别，于是200道题统统被挡在了门外。

Vals AI在实测中也发现，Fable 5在生物和网络安全相关问题上的拒绝率明显偏高，以至于他们不得不将Opus 4.8配置为默认兜底模型。也就是说，Fable 5拒绝的任务，就让Opus 4.8来接。

技术上这套系统当然有其合理性。Fable 5的前身Mythos级模型，在漏洞利用、进攻性网络操作等任务上展现出了让各国政府都坐不住的能力，这也是Anthropic一直将其列为受限模型的核心原因。给这样的模型套上严格的安全枷锁，似乎也有一点道理。

但问题在于，当安全护栏的判断标准过于粗糙，「二进制逆向」这个本属于正常编程教学和安全研究的基础操作，就会被一视同仁地拦截。开发者为此付出的代价是真实的：要么换模型，要么改提示词，要么接受一个「什么都懂、很多都不说」的超能助手。

顺便，还有另一份成绩单也值得一看

Fable 5发布后不久，UC Berkeley RDI实验室（负责人Dawn Song教授）的团队完成了对它的评测，用的是他们自己做的新基准：Agents'Last Exam（ALE）。

论文地址：https://arxiv.org/abs/2606.05405

这个基准的出发点有点意思：它不考「AI能不能在HumanEval里写出两行代码」，而是直接对齐真实劳动力市场，覆盖55个职业方向、1500+道真实工作场景题目，由来自100余家机构的300余位行业专家贡献，全部按可验证的结果计分。说白了，就是让AI agent去考一场「职场模拟高考」。论文发布当天就登上了Hugging Face Daily Papers第一名。

评测结果如何？Fable 5的得分是22.0%，排在GPT-5.5（Codex）的24.0%之后，位列第二。听起来差距不大，但成本项就有点扎眼了：Fable 5平均每道题花费约15.70美元，GPT-5.5只需3.80美元，另一个模型Composer 2.5更是只要1.33美元。换句话说，Fable 5每解一道题的成本，大约是GPT-5.5的四倍。