扫码打开虎嗅APP
本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:Jessica,题图来自:AI生成
Claude又进化了,这次进化到能帮你操作电脑,不仅省了动脑,连动手指都省了。
直接上重点。
今天Anthropic公布了两项Claude 3.5的重大更新:
1. 升级版的Claude 3.5 Sonnet,性能全面提升,尤其在编程方面表现显著。还推出一项突破性新功能:计算机使用能力(computer use)。开发者可以指导Claude像人类一样使用电脑,如查看屏幕、移动鼠标、点击按钮、输入文字等。
2. 全新的Claude 3.5 Haiku,是Anthropic“最快速模型的下一代产品”。
一、像人一样操控电脑,编程能力再升级
先说第一个,新版Claude 3.5 Sonnet。
居然,AI能自己操作电脑了!
这不是以前见过的语音拍照、打电话或查日历那种简单的系统功能,而是一种真正的“电脑使用能力”。Claude可以理解复杂指令,进而自动完成一连串操作:浏览网页、查找信息、填写表格,甚至进行软件测试和开发。屏幕上就像有个真人在远程联机操控一样,而你只管看着就行,够玄幻的。
有多强呢,来看实例:
以下视频展示了Claude执行数据收集和表单填写的任务。用户需要填写供应商请求表单,而数据散落在多处文件和系统中,人工操作耗时耗力。接到命令后,Claude首先检查视窗内的电子表格,未找到相关信息后,自动切换至CRM系统,搜索并提取目标设备公司的详细信息,随即将这些数据填写到表单中并提交,全过程无需手动干预。
接着是自动完成网页构建。Claude按照要求在浏览器中打开cloud.ai,“自己指挥自己”编写代码,生成了一个90年代风格个人主页。
随后,用户希望对网站进行本地修改。Claude下载文件后自动在VS Code中打开,分析、发现问题和修复,成功启动服务器。
最后,用户注意到网站有错误,Claude通过阅读终端输出,找到并删除了错误代码行,自动保存文件并重新运行网站。整个过程中,Claude自动处理了浏览器导航、文件下载、代码编辑、服务器启动以及错误修复,大大简化了用户的操作流程。
第三个例子则更为生活化。Claude帮用户规划了一次日出徒步旅行,先搜索旧金山适合观看金门大桥日出的地点,然后查找了从用户家到徒步地点的距离和明天的日出时间,最后自动将这些信息添加到日历中,最终完成旅行的时间安排和提醒。
Anthropic称,新版Claude 3.5 Sonnet是首个在公测阶段提供“计算机使用能力”的前沿AI模型。
他们实际上采取了一种全新思路:不是为Claude开发专门完成单个任务的工具,而是教会它通用的计算机技能,使其能够使用各种为人类设计的标准工具和软件程序。
怎么理解?
以前的做法就像给AI一把把"专用钥匙",为每个特定任务开发一个专门的接口。比如要发邮件就开发邮件API,要处理文档就开发文档API。而Anthropic现在的做法相当于教会了AI "用手"。就像人类学会用手之后,不需要专门的工具也能完成各种操作:可以用Word写文档,用Excel处理表格,用浏览器搜索信息,用各种软件完成不同任务。
他们构建了一个API,使Claude能够感知和交互计算机界面。通过这个API,Claude可以将自然语言提示转化为各种电脑操作指令。供开发者来自动化重复性的任务、进行测试和质量保证,以及开放式研究。
工作原理大概经过以下四个步骤:
1. 启动阶段
这个阶段主要是准备工作。你需要给Claude配置好计算机操作工具,并告诉它具体任务,比如让它帮你保存图片或处理文件等指令。
2. Claude决策阶段
Claude会查看自己可用的工具库,评估是否有工具可以帮助解决用户命令。如果有,它会生成一个正确格式的工具使用请求。此时,API响应中的stop_reason会显示为tool_use,表示Claude有使用工具的意图。
3. 执行工具操作阶段
系统收到Claude请求后,会在安全的环境(容器或虚拟机)中执行相应的操作。执行完成后,会把结果反馈给Claude,让它知道操作是否成功。
4. Claude持续调用工具直到任务完成
Claude会检查工具操作的结果,决定是否需要进一步操作。如果一次操作不够,它会继续请求调用其它工具;如果任务已完成,Claude就会给用户一个最终的文本回复。
(Doc文档地址在这里,感兴趣的可以查看)
需要注意的是,目前computer use正处于测试阶段,能力还不完善。一些对人类来说轻而易举的操作,像鼠标滚动、拖拽、缩放等仍具有挑战性。
研发团队也称在录制演示时出现过几次小bug。比如Claude不小心停止了一个长时间运行的屏幕录制,导致所有录像都丢失,以及在编程演示中途开始浏览黄石国家公园图片。
科技博主Rowan Cheung指出了该功能尚存在的一些限制:
1. 还不能在内部数据上训练该功能。
2. 它可以执行大概15分钟的操作,但受限于上下文窗口等问题。
在他与Anthropic团队交流时,对方也表示,现在Claude的计算机使用水平只处于类似“GPT-3时代”的早期阶段,未来还有很大提升空间。接下来的几个月内就会迎来能力的大幅跃升。
Rowan进一步畅想道,“不仅仅是编程,写作、优化设计、学习新技能....未来的每一代人都会有智能代理来提升他们所做的一切,全面改变我们对‘工作’的定义。”
你出去吃个饭的功夫,AI已经帮你把今天下午要做的工作完成了。或者....远的不说,之前干趴全美的微软蓝屏事件是不是完全可以避免?
除了引入革命性的computer use外,新版Claude 3.5 Sonnet的综合性能也比老版本更强。各项行业基准测试表现全面提升,特别是在编程和工具使用任务上,刷新了行业最高水平。
在SWE-bench Verified测试中,它的编程分数从33.4%提升到了49.0%,超越所有公开可用的模型——包括OpenAI o1-preview等推理模型和专门设计的主动编程系统。在TAU-bench(一个主动工具使用任务)测试中,零售领域的表现从62.6%提升到69.2%,难度更高的航空领域则从36.0%提升到46.0%。
升级版在保持原有价格和速度的同时,获得了早期用户的高度评价。包括GitLab和The Browser Company等企业都证实,升级后的Claude 3.5 Sonnet在多步骤开发和网页工作流中的表现超越了他们之前测试过的所有模型。(Cursor快接入吧,你将更能打。)
二、Claude3.5Haiku:一样便宜一样快,但更强
最后再来说说这次新推出的Claude 3.5 Haiku。
作为Claude 3.5系列中性价比最高的模型,它在保持与Claude 3 Haiku相同成本和类似速度的同时,实现了各项技能点提升。在许多基准测试中,甚至超越了上一代最大的模型Claude 3 Opus。尤其是编程任务,Claude 3.5 Haiku的SWE测试得分为40.6%,已超过包括原版Claude 3.5 Sonnet和GPT-4在内的多个前沿公开模型。
此外,Claude 3.5 Haiku具备低延迟、改进的指令执行能力以及更精确的工具使用能力,非常适合面向用户的产品、专门的子代理任务,以及从海量数据中(如购买历史、定价或库存记录)生成个性化体验的应用场景。
Claude 3.5 Haiku将于本月晚些时候在官方API、Amazon Bedrock和Google Cloud的Vertex AI上推出,最初仅支持文本功能,后续将添加图像输入功能。
三、写在最后
说实话,如今的大模型更新已经很难给人们带来兴奋的感觉。而Anthropic却一次又一次拿出“真家伙”点燃技术社区。
AI的发展已经跨越了许多重要的里程碑,从能够看、听、说的多模态系统到OpenAI o1这样具备复杂逻辑推理能力的模型。Anthropic则把下一个前沿领域押注在了计算机使用能力:AI模型无需再通过定制工具与环境交互,而是可以像人类一样按指示操作任何软件,适应我们日常使用的计算机环境。
这也让我们产生一些思考:
1. 从某个时间点开始,OpenAI似乎一直在追赶Anthropic。无论是早期推出小模型,还是强化编程能力,甚至最新类似于Anthropic Artifacts的Canvas,OpenAI曾经在口碑和实力上稳居顶端,但现在这种地位正在被挑战。而Anthropic似乎更像那个一直走在生成式AI前沿,引领真正具有前瞻性和可行性方向的公司。
2. 曾经引起轰动的高级语音模式,如今似乎渐渐被普通用户淡忘。然而,这类技术可能会在结合API的应用中找到真正价值,就像Anthropic现在将computer use提前开放给开发者一样。作为最懂得如何挖掘AI潜力并扩大其应用的群体,开发者将推动这些技术走向更广泛的应用场景。
3. 有网友在今天的Claude更新发布后感叹,“前方是令人惊叹的时代,人类意图与机器执行之间的界限变得更加模糊。”当AI能够代表你采取行动时,它已经不再仅仅是工具,而是进入了一个人类无需亲自操作的新领域。这或许就是未来AI代理自动化任务执行的终极形态?
在近期Anthropic CEO Dario Amodei发表的万字长文中,展望了AGI对世界的影响。他预言“强大的AI”将在2026年降临,AI将把一个世纪的科研进展压缩到5-10年,人类寿命有望延长至150岁。
Dario Amodei的预言可能不仅仅是大胆而已,在Anthropic的to do list上,或许一切正在徐徐展开。