扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-03-09 08:15

世界还在为“龙虾”狂欢,“AI操作系统”战争已悄然打响

本文来自微信公众号: 锦缎 ,作者:思齐,头图来自:AI生成


OpenAI明里暗里预热了很久的GPT-5.4,终于在上周五正式亮相了。它的能力提升自不必说,但有意思的是,这次发布的新版本,和当下爆火的应用“龙虾”(OpenClaw),有着剪不断的关联。而这一切的核心,就藏在OpenAI官方介绍中反复强调的一个关键能力上:“Computer-Use”(计算机使用)。


在展开之前,我们先亮出核心观点,也是本文想要传达的主旨:透过GPT-5.4,我们可以看到,OpenAI正在打造的,早已不是一个更聪明的聊天模型,而是一个全新的“AI操作系统”(AI OS)。


从长上下文、工具调用到原生操控电脑,这一切都是在为这个“操作系统”铺路。当世界还在为OpenClaw的爆火而欢呼,为Agent的概念而兴奋时,OpenAI已经将Agent的核心能力(Computer-Use)内建于模型底层。


世界或许还浑然不知,但我们正站在一个新时代的起点:AI即将从“产品应用”蜕变为“操作平台”。


操作系统”的内核:推理+编码+工作流


相比Google的Gemini精通于世界知识,OpenAI的ChatGPT系列经常会被定义为“理科生”。


虽然自升级到GPT-5以后,它给人提供情绪价值的能力略有减弱,但编程和数学能力仍然极为出色。


这一次,为了让能力溢出的AI能够在Agent时代顺利落地到具体应用上,GPT-5.4实现了一项核心技术突破:


将推理、编码、智能体工作流三方面能力整合至单一模型架构之中。


简单来说,GPT-5.4更全能了,而且在特定领域的能力也更强了,它不再是一个单一功能的工具,而是一个具备通用能力的“操作系统内核”。


在推理层面,为了更好地落实到应用层面、让模型具备执行复杂任务的能力,OpenAI特意强化了GPT-5.4的上下文理解能力。


面对100万token量级的复杂任务(相当于可以一次性处理整套项目文档或长时财务记录),模型能够整合海量的数据并正确进行信息去重。对于单条事实声称的错误率相比GPT-5.2降低了33%,在高专业度场景下的输出更加可信。


除此之外,GPT-5.4已经可以在CodeX中设置支持1M的上下文窗口,不过需要用户在config.toml中手动设置,否则默认仍为256k。



具体到知识工作,在面向44种职业的GDPval基准测试中,GPT-5.4能够在83%以上的场景中达到甚至超越行业专家水平。


相比于GPT-5.2的70.9%水平,这一提升幅度已经十分显著。不过令人有些疑惑的是,GPT-5.4的Pro版本模型反而表现略逊于GPT-5.4。(官方解释为Pro版本更侧重于极端复杂任务的稳定性,而非通用场景的平均分)


为了更好地让GPT-5.4融入人们的实际工作场景,OpenAI在官方介绍中直观展现了新版本模型在电子表格、文档和幻灯片三个场景的专业级表现:





除此之外,GPT-5.4取得的显著进步,在金融和法律等高专业度领域也发挥了至关重要的作用。


多家国际机构的反馈显示,新模型在财务建模、合同分析、长周期任务执行中准确率提升的同时,用户与AI的交互频次也减少了很多,显著缩短了任务完成时间。



针对最受开发者关注的编码场景,GPT-5.4保持了与GPT-5.3-Codex生成同等质量代码的能力,没有显著的提升。不过,新增加的“/fast”模式能够实现约1.5倍的token生成速度。


智能体方面,工具调用能力是智能体完成任务的核心,新引入的“工具搜索(Tool Search)”机制让模型能够在数万个工具的大型生态中按需调用能力,在准确率保持不变的情况下token消耗量惊人地下降了47%。


这正是“操作系统”调度底层资源的方式,高效且精准。


原生计算机操作:从理解到执行,这就是“操作系统”的界面


AI的形态已经从大语言模型演进到了智能体,想要实现产品的商业化就必须让AI能真正帮人们做事。


于是,全球的AI企业不约而同地将目光放到了用户PC的控制权上。


但是,各种桌面端代理发布一段时间后,下载率和留存率其实都不理想。哪怕是对于ChatGPT的9.56亿月活用户而言,也有很多人不愿意单独下载一个桌面端代理软件。


大家早已习惯和AI(大语言模型)聊天,却还没适应让AI(智能体代理)接管电脑。


于是,OpenAI想出了一个天才般的点子:让用户每天都在用的大模型操控电脑,不用专门下载安装。


于是,GPT-5.4顺理成章地成为了第一个具备原生计算机操作能力的通用模型。


原理其实并不复杂,它能够根据屏幕截图发出鼠标键盘指令,也可以通过Playwright等库编写代码来直接操作软件系统。


相比于需要专门训练才能使用的PC端代理助手不同,GPT-5.4选择将操控电脑的能力直接内建于通用架构之中,开发者在同一模型中即可无缝切换推理、编码或执行任务。正如“操作系统”天然拥有底层硬件(键鼠、屏幕)的驱动一样。


一提到操控电脑,那安全问题就不可回避。


GPT-5.4的行为可通过开发者的输入进行精细化调节,以此适应不同应用场景的需求。


为了确保安全,开发者可以配置自定义的安全确认策略,根据任务风险等级设置不同的操作确认机制。


数据查询、代码编写等低风险任务设置成自动执行,资金操作、文件删改则必须人工确认,既能保证系统安全,又能提升工作流的执行效率。



在OSWorld-Verified基准测试中,GPT-5.4实现了75%的成功率,超越人类基准(72.4%)的同时,大幅领先于前代GPT-5.2的47.3%水平,足以证明新模型在PC端任务场景中的实用和可靠。


而在浏览器自动化方面,GPT-5.4在WebArena-Verified和Online-Mind2Web测试中,依靠截图为主的方法分别得到67.3%和92.8%的成功率。


这就意味着,模型即便不访问网页底层架构,仅凭视觉信息即可完成复杂的网页交互任务,这主要归功于底层视觉感知能力的系统性提升。


传统多模态领域的提升相对较小,MMMU-Pro视觉理解与推理测试中,模型的准确率从79.5%提升至81.2%;但对于结构化信息的识别能力则显著提升,模型在OmniDocBench文档解析基准测试中的平均错误率从0.140降至0.109。


也就是说,模型更善于处理复杂的PDF、扫描文档等工作环境中常见的文件类型,不会像以前一样一遇到表格和插图就束手无策。


针对高密度的界面和精细操作的需求,GPT-5.4新增的“original”图像输入级别支持最高1024万像素的全保真感知。


根据用户反馈,模型在处理企业级ERP系统、财务报表或工程设计软件等复杂界面时,高分辨率模式下的界面元素定位准确率和点击操作成功率都有显著提升。


实际测试:操作系统之战,从一张昂贵入场券开始


在这份官方介绍中,OpenAI试图用大量基准测试的跑分结果和知名机构的专业评价来证明模型能力之强大。


尽管人们普遍不太信任基准测试的分数,但几项实际测试的结果却证明了OpenAI所言非虚。


首先是Artificial Analysis的评测榜单,如预想一般,智能程度、编码能力、代理能力同时登顶:





如果这还不足够具有说服力,那还可以看看X平台上的一项综合性测试:


原视频链接:https://x.com/angaisb_/status/2029635731585372598?s=46&t=E5aK_KpbsE6EAIfDJWZvzQ


这是X平台上用户@Angaisb_用GPT-5.4编写的Minecraft游戏,无论是主视角的行动逻辑(奔跑、跳跃、搭建),还是游戏中方块的材质和美观程度,几乎都无可挑剔。


一个demo中展示出的内容,已经与Minecraft初期版本的质量相差无几。


由此可见,GPT-5.4的功能是实打实的强大,也确实具备相当高的实际价值。


但俗话说得好,一分钱一分货,如此强大的功能自然意味着极其高昂的费用。



相比GPT-5.2,价格涨幅相当惊人,甚至有用户在模型刚发布后的几个小时内表示,仅仅是打了个招呼问了个问题,几百美元就不翼而飞了。


如此强大的能力和高昂的定价,似乎与OpenAI官方定义的“能力溢出”有些自相矛盾。


如今,OpenClaw带动了token成本极其低廉的国产大模型爆火,GPT系列产品已经跌出使用量排行榜的前十,为何OpenAI还敢给GPT-5.4定下如此高的价格?


算力资源的紧张自然不必多说,但更深层的答案或许藏在OpenAI近期商业化策略的微妙转向之中。


据悉,OpenAI正在缩减ChatGPT应用内的直接购买方案,不再将聊天界面作为闭环交易的核心场景,而是优先支持外部应用处理购买行为。


这表明,OpenAI正在从“直接面向消费者变现”转向“通过生态环境间接获利”。


OpenAI将GPT-5.4定位为专业的基础设施,通过能力溢价筛选出高价值的客户;而普通用户的变现需求,则交给Notion、Cursor等集成ChatGPT能力的第三方生态来承接,无需直接承担高昂的API成本即可通过合作伙伴的产品间接体验模型能力。


而熟悉桌面智能代理的朋友可能会注意到,GPT-5.4的原生计算机操作能力其实与OpenClaw的思路高度相似:AI需要看懂界面、操作软件、完成任务。


不过,GPT-5.4更进一步,让用户跳过下载安装和配置底层大模型等无法省略的步骤,直接体验“开箱即用”,试图取代当下这款最潮流的智能代理产品。


但这并非易事。若要取代OpenClaw,OpenAI要么解决Agent代理快速消耗token的问题,要么降低token成本。而目前看来,前者的希望会更大一些。


总体来看,OpenAI的选择已经十分清晰:用高定价筛选高价值客户,用生态合作和无门槛产品覆盖大众市场,用效率优化证明“贵有贵的道理”。


但对于普通用户来说,最好的策略仍然是:保持关注、理性评估、按需选择。不必急于直接购买高价API,极致的性价比才是Agent时代的方向。


然而,我们最不能忽视那个正在发生的、静悄悄的革命:OpenAI正在打造的,是一个以“Computer-Use”为核心,整合了长上下文、工具调用、推理与编码能力的“AI操作系统”。


当这个“操作系统”逐渐成熟,今天关于价格和OpenClaw的讨论,都将只是历史的注脚。世界还在为某一款应用的爆火而狂欢,但真正的操作系统之战,已经打响了。

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: