扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),原文标题:《OpenAI 最强竞品大更新!一句话模拟人类用电脑,AI 智能体觉醒前的重大突破》,题图来自:AI生成
天下苦OpenAI挤牙膏久矣。环顾宇内,能够与OpenAI抗衡的对手屈指可数,Anthropic旗下的Claude模型算是一个靠谱的劲敌。
盼星星,盼月亮,没有等到“超大杯”Opus的亮相,但好在也等来了全新升级的大杯Claude 3.5 Sonnet。
X网友@skirano梗图
简单总结这次更新的亮点:
拳打GPT-4o,脚踢Gemini 1.5 Pro,新版Claude 3.5 Sonnet表现遥遥领先
Claude 3.5 Haiku响应速度最快,性能媲美GPT-4o mini
构建API,教Claude怎么玩电脑
教Claude玩电脑,AI键盘侠来了?
这次更新的重头戏其实不是新模型,而是怎么教AI玩电脑。
Anthropic推出了一个公开测试的革命性功能“computer use”:通过API教Claude像个人一样操作电脑,能看屏幕、动光标、点按钮、打字……
简单说就是,Claude现在能用人类设计的标准工具和软件了。而开发者可以借此解放一些枯燥的重复性流程任务,甚至进行开放式任务,如研究。
为了让Claude具备这种技能,Anthropic专门打造了一个API,并使得Claude能够感知并与计算机界面产生交互。
具体来说,开发者在交互过程中集成这一API,让Claude将指令(比如:“用我电脑上的数据,结合网上信息填个表”)翻译成计算机指令(比如:检查个表格,动动鼠标打开个浏览器,导航到相关网页,然后用网上的数据把表格填满)。
OSWorld是一个用于测试多模态智能体在真实计算机环境中执行开放式任务的能力的基准测试平台,通常用来评估AI模型是否具备像人类一样使用计算机的能力。
Claude 3.5 Sonnet在仅用截图的测试类别中得分14.9%,远超第二名的7.8%。在允许使用更多步骤时,Claude的得分为22.0%。
一些公司的产品已经提前用上了这一功能。
例如,Replit正在利用Claude 3.5 Sonnet的计算机操作与界面导航能力,为其Replit智能体产品开发一项关键功能,用于评估正在构建中的应用程序。
当然,这种做法其实并不新鲜。
因为在此之前,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company已经开始探索这些可能性,执行需要几十甚至上百步的任务。
不过,理想很丰满,现实很骨感。
官方也坦诚,当前这一功能仍处于实验阶段,在操作计算机时速度较慢,并且经常会出现错误。一些简单的操作——比如滚动、拖动、缩放,看似人类一挥手就能搞定的事儿,对Claude来说依然是个不小的挑战。
在录制这些演示的过程中,我们遇到了一些有趣的插曲。有一次,Claude不小心终止了一个正在进行的长时间屏幕录制,结果所有的录像素材都丢失了。
之后,Claude在我们的编码演示间隙休息了一下,开始欣赏黄石国家公园的照片。
此外,Claude通过截取屏幕的静态图像,然后将这些图像组合起来,以理解屏幕上发生的事情,但也正因此,它可能无法捕捉到屏幕上的短暂动作或通知,比如弹出窗口或快速变化的图标。
官方也说了,之所以提前发布这项功能,是为了获取开发者的反馈,预计这功能随着时间会逐渐有所改进。
案例展示,由APPSO简单编译
Anthropic开发者关系主管Alex Albert还分享了一个有趣的经历。
在开发“computer use”功能时,他们组织了一次工程故障排查会,目的是找出API中所有潜在的问题。几位工程师聚在一个房间里工作了几个小时,但自然很快就饿了。
其中一位工程师发出的第一个“computer use”请求,就是让Claude导航到外卖平台DoorDash并订购足够的食物来喂饱大家。Claude思考了大约一分钟后,最后给工程师们订了几份披萨。
网友也很快挖出了computer use功能拒绝做的清单:
在社交媒体或其他平台上创建账户
发送电子邮件或消息
在社交媒体上发布评论
进行购买
访问私人信息
完成验证码(CAPTCHA)
生成、编辑或修改图片
打电话
访问受限内容
执行需要个人身份验证的操作
真·推理模型之王,新模型编码遥遥领先
再来看看升级版Claude 3.5 Sonnet交出的成绩单。
尽管现在大模型榜单的公信力已不如往日,但基于同一套考题的逻辑下,我们仍然能对新发布的模型有个初步了解。
拳打GPT-4o,脚踢Gemini 1.5 Pro,Claude 3.5 Sonnet在GPQA、MMLU Pro、HumanEVal等一系列基准测试中表现亮眼,可谓是遥遥领先。
特别是在编码领域,Claude 3.5 Sonnet更是进一步拉大了领先优势。或许你会好奇,为什么榜单里没有出现与OpenAI o1模型的对比。
别急,Anthropic预判了你的预判,官方给出的解释是:
我们的评估表格中之所以没有包含OpenAI的o1模型系列,是因为它们在响应前需要大量的计算时间,这与大多数模型不同。这种本质上的区别使得进行性能比较变得复杂。
翻译一下就是,我们想比但也不好比。
不过,在SWE-bench Verified的编码测试中,Claude 3.5 Sonnet的表现从33.4%提升到49.0%,超过了包括OpenAI o1-preview在内的推理模型,以及各种智能体编码系统。
此外,在TAU-bench智能体工具测试中,Claude 3.5 Sonnet也表现不俗。
TAU-bench主要提供一个更接近真实世界应用场景的评估环境。面对零售领域问题,Claude 3.5 Sonnet得分从62.6%提高至69.2%,而面对航空方面的问题,其成绩也从36.0%上升至46.0%。
更重要的是,这些改进并未提高价格或降低速度,Claude 3.5 Sonnet仍保持了与前代相同的性价比。
官方博客中提到,编码能力的改进是Claude 3.5 Sonnet的最大亮点。
GitLab测试发现其推理能力提升了10%,无额外延迟,非常适合多步骤的软件开发流程。
The Browser Company也指出,Claude 3.5 Sonnet在自动化网页工作流程方面的表现超越了他们之前测试的所有模型。
作为追求极高安全系数的模型公司,Anthropic自然也对Claude 3.5 Sonnet进行了灾难性风险评估,结果符合ASL-2标准。
ASL-2指的是显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。
简言之,Claude 3.5 Sonnet再强,也还没有到威胁人类的地步。
聊完性能最强的模型,接下来登场的是,响应速度最快的全新升级模型——Claude 3.5 Haiku。
光看纸面参数,中杯Claude 3.5 Haiku几乎不逊色于GPT-4o mini,甚至可以说,它已经可以小赢一把,整体表现也与前代Claude 3 Opus表现持平。
但价格没变,响应速度也没减,有种“加量不加价”的错位体验。
类似地,Claude 3.5 Haiku在编码任务的表现也尤为突出。
它在SWE-bench Verified上的得分为40.6%,超过了很多所谓的最先进智能体,包括Claude 3.5 Sonnet(旧版)和GPT-4o。
低延迟、改进的指令执行能力以及更精准的工具使用能力,这些特性都让Claude 3.5 Haiku尤其适用于需要个性化服务的场景中。
例如,根据你以前买东西的习惯来推荐商品,或者帮你决定商品的价格,甚至是帮你管理仓库里的存货。
最后,升级版的Claude 3.5 Sonnet现已面向所有用户开放。而Claude 3.5 Haiku将于本月晚些时候发布,初期只支持文本输入,图像输入功能随后推出。
实际上,如果你最近关注AI圈,你会发现行业里的几位重要人物都当起了“预言家”。
Demis Hassabis、Sam Altman和Anthropic的Dario Amodei,都宣称AGI将在未来几年或几千天内实现。
他们画了一张又一张堪比乌托邦的AGI蓝图,如治愈大多数疾病、解决气候问题、消除贫困等。
如果汇总那几篇长文的核心思想,AI几乎成了包治百病的神药。但话说回来,信心还得是靠实实在在的产品来证明。
在没有可靠、可持续的商业模式下,行业只能靠对AGI的“盲信”来维持高昂的投资和支出,就好像挂在驴前面的那根晃荡的萝卜。
换个角度说,今天发布的Claude模型等一系列产品功能也是在让我们重拾信心,而按照以往的产品发布节奏,OpenAI预计也快要出手了。
不同之处在于,OpenAI的武器库显然更丰富,靠近年底,下一个亮相的会是OpenAI o1的正式版,还是“期货”Sora呢?
接下来,我们就拭目以待,看OpenAI如何“亮剑”了。
本文来自微信公众号:APPSO (ID:appsolution)