扫码打开虎嗅APP
本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《刚刚,ChatGPT 和 Claude 同时大更新,不会给 AI 当老板的打工人要被淘汰》
就在刚刚,硅谷AI圈上演了一出「火星撞地球」。
OpenAI和Anthropic像约好了一样,同时甩出了自家的重磅更新:Claude Opus 4.6和GPT-5.3-Codex。
如果说昨晚之前,我们还在讨论怎么写好Prompt辅助工作;那么今天过后,我们可能需要学会如何作为老板去管理AI员工。
AI造AI,顺便接管你的电脑
就在昨天,Sam Altman刚在X平台上凡尔赛了一把Codex的「百万活跃用户」里程碑。短短一天后,OpenAI再次乘胜追击,扔出王炸——
GPT-5.3-Codex。
技术文档里藏着一句极具分量的话:「这是我们第一个在创造自己的过程中,发挥了关键作用的模型。」
说人话就是:AI已经学会了自己写代码、自己找Bug,甚至开始自己训练下一代的AI了。这种自我进化能力,也直接体现在了一连串跑分数据上。
还记得那个模拟人类操作电脑的OSWorld-Verified基准测试吗?前代模型只有38.2%的准确率,连及格线都够不上。但这次,GPT-5.3-Codex直接跳涨到了64.7%。

要知道,人类的平均水平也就72%。这意味着,AI距离像你一样熟练地甩鼠标、切屏、操作软件,只剩下一层窗户纸的距离。
而在Terminal-Bench 2.0(命令行操作基准测试)中,它更是拿下了77.3%的高分,把GPT-5.2(62.2%)远远甩在身后。

在覆盖四种编程语言,不仅抗污染,还全是真实世界的硬核工程难题的SWE-Bench Pro基准测试中,GPT-5.3-Codex也表现出了SOTA水准,而且用的Token比以往任何模型都少。

OpenAI甚至展示了它独立构建的能力:
在几天内,它从零构建了一款包含多张地图的赛车游戏v2,顺手还搞定了一款管理氧气系统的深海潜水游戏。
最让我印象深刻的是GPT-5.3-Codex对模糊意图的理解。
在构建落地页时,它自动把年度计划换算成了打折后的月付价格,甚至还贴心地自动补充了用户评价轮播——这一切,都不需要你下指令。

OpenAI的野心已经写在脸上了:以前微软常说AI将会成为人类的副驾驶(Copilot),但现在AI更想做那个能掌控方向盘、甚至能自己修车的司机。
对了,还有一个有趣的细节。
此前外界盛传OpenAI对英伟达的AI芯片颇有微词,但这次官方博客特地强调:GPT-5.3-Codex的设计、训练和部署都在NVIDIA GB200 NVL72系统上完成。
这一波高情商的「感谢英伟达」,属实是给足了黄仁勋面子。

告别「金鱼记忆」Claude迎来绝地反击
在GPT-5.3-Codex发布的前后脚,Anthropic也端出了自己的春节大礼包。
坏消息是,大家期待的Claude「中杯」Sonnet模型没有更新;但好消息是,Anthropic直接端出了「超大杯」——Claude Opus 4.6。
相比于OpenAI在行动力上的激进,Anthropic今天发布的Claude Opus 4.6则是在思考力和可靠性上死磕。

很多企业用户都有一个名为Context Rot(上下文腐蚀)的痛点:号称支持200k上下文,但塞进去的数据一多,AI就开始顾头不顾尾。
这次,Claude Opus 4.6拿出的数据简直是「降维打击」。
在MRCR v2(长文本大海捞针)测试中,Claude Opus 4.6的召回率高达76%。
作为对比,上一代Sonnet 4.5只有惨不忍睹的18.5%。从某种程度上说,这是一个从基本不可用到高可靠的质变。
这是因为Claude Opus 4.6首次引入了真正可用的1M上下文窗口。


这意味着什么?意味着你可以把几百页的财报、几十万字的代码库直接扔给它,它不仅能读完,还能精准地告诉你第342页脚注里的那个数字有问题。
此外,它现在还支持最高128k的输出Token。什么概念?你可以让它一次性写完长篇研报或复杂的代码库,而不用因为字数限制被迫截断。
除了记性好,Opus 4.6这次还在智商上实现了碾压:
在GDPval-AA(一项针对金融、法律等高经济价值任务的评估)中,Opus 4.6的Elo得分比业界第二(OpenAI的GPT-5.2)高出了整整144分,比前代更是高出190分。
在复杂的多学科推理测试Humanity's Last Exam中,它领先所有前沿模型。
在测试寻找互联网「难找信息」能力的BrowseComp中,它同样表现最优。

通过这些数据,Anthropic似乎在传递一个信号:如果你要写代码,去隔壁找OpenAI;如果你要处理复杂的商业决策、法律文书或金融分析,Claude才是唯一的选择。
更让打工人眼前一亮的是它的生产力功能。
一方面,Anthropic这回直接把Claude塞进了Excel和PowerPoint。它能根据Excel数据直接生成PPT,不仅保留排版风格,连字体和模板都能对齐。在Claude Cowork协作环境中,它甚至能进行自主多任务处理。

另一方面,Anthropic顺势在Claude Code中推出了实验性的Agent Teams功能,让普通开发者也能体验这种「指挥千军万马」的感觉:
角色分工:你可以指定一个Claude Session担任Team Lead(组长),它不干脏活累活,专门负责拆解任务、分配工单、合并代码;其他的Session则是队友(Teammates),各自领任务去干。
独立作战:每个队友都有独立的上下文窗口(不用担心Token爆炸),它们甚至能背着你互相发消息(Inter-agent messaging),讨论技术细节,最后只把结果汇报给组长。
并行赛马:这东西有什么用?想象一下查一个顽固Bug,你可以生成5个Agent,分别验证5种不同的假设,像「赛马」一样并行排雷;或者在Code Review时,让一个队友扮「安全专家」查漏洞,一个扮「架构师」看性能,互不干扰。
为了展示Opus 4.6的极限,Anthropic的研究员Nicholas Carlini搞了个疯狂的实验:Agent Teams(智能体团队)。
他没有亲自写代码,而是扔了2万美元的API额度,让16个Claude Opus 4.6组成一个「全自动软件开发团队」。
结果在短短两周内,这群AI自主进行了2000多个编程会话,从零手写了一个10万行代码的C语言编译器(基于Rust)。

这个AI写的编译器,还成功编译了Linux 6.9内核(涵盖x86、ARM和RISC-V架构),甚至跑通了Doom游戏。
虽然它还不够完美(比如生成的代码效率不如GCC),但这个案例也表明我们不再是和AI一起编程,而是看着一个AI团队自主协作、查错、推进项目。
此外,它还学会了Adaptive Thinking(自适应推理),能根据难度自己决定「想多久」。加上新增的「智能强度」控制,你可以在Low到Max四档之间切换。
定价方面,Anthropic这次很良心,维持在每百万Token$5/$25的基础定价。看来是为了抢占企业级市场,铁了心要和OpenAI卷到底。

一个是激进天才,一个是靠谱老牛
知名AI评测人Dan Shipper在第一时间搞了个「盲测」(Vibe Check),他的评价非常精准:
Claude Opus 4.6是「高上限,高方差」(High Ceiling,High Variance)。
它像是一个才华横溢但偶尔跳脱的天才。在测试中,它直接解决了一个让iOS团队卡了两个月的功能难题;在LFG Benchmark中拿到了9.25/10的高分。
但它偶尔也会「过度自信」,一本正经地胡说八道。如果你需要突破性的灵感,选它。
GPT-5.3-Codex则是「高可靠,低方差」(High Reliability,Low Variance)。
它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升25%,几乎不犯低级错误,稳健得让人心安。
虽然在创造性任务上略逊一筹(LFG得分7.5/10),但在日常的Coding和运维任务中,它是最高效的老黄牛。
当然,比起选择哪款模型,更重要的是,当ChatGPT可以自主修Bug甚至操作你的终端,当Claude可以一次性吞吐海量文档并精准定位细节时,Prompt Engineering(提示词工程)的重要性正在下降,而Agent Management(智能体管理)的能力开始浮出水面。
我们不再需要像教小学生一样,把指令拆解得碎碎念。相反,我们需要做的,是学会如何以管理者的身份,去定义目标、审核结果、以及决定在什么时候,把什么任务交给哪位AI员工。
这就是2026年的新职场。你的团队里混入了一群硅基天才,而你是唯一的碳基老板。