扫码打开虎嗅APP
本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:Jessica,原文标题:《Claude 3.5 Sonnet发布,不仅超过了GPT-4o,还在交互上有大更新》,题图:Anthropic联合创始人&CEO,来自:视觉中国
今天,OpenAI劲敌Anthropic忽然丢炸弹,发布下一代旗舰大模型Claude 3.5 Sonnet。
3个月前Claude 3曾艳压全场,首次让大批用户有了超越GPT-4的推背体验。这次作为最新升级,也是即将推出的Claude 3.5全系列中首个版本,Anthropic更是自豪地称Claude 3.5 Sonnet已领跑全行业智能水准,不仅在广泛评估中胜过GPT-4o等一众竞争对手,也保持了中端模型Sonnet的最优性价比。
价格上,Claude 3.5 Sonnet每百万输入3美元,每百万输出15美元,只有上一代超大杯Opus的1/5,运行速度却是它的两倍,并拥有20万token上下文窗口。
现在所有用户都可以登录Claude.ai和移动客户端免费体验新模型,订阅用户将获得更高访问权限(官方称比免费版5倍好用)。也可以通过Anthropic API、Amazon Bedrock等平台获得。
一向眼疾手快的Poe表示,已经安排上了。
一、速度翻倍,写作更自然、编程更智能
具体来看性能表现。Claude 3.5 Sonnet在研究生级推理能力(GPQA)、本科生级知识(MMLU)和编程能力(HumanEval)方面树立了新的行业基准。在把握语义的细微差别、幽默和复杂指令上有显著改进,能以更自然、亲和的语气输出高质量的写作内容。
代码方面表现优异。在团队考察AI能否根据文字需求改进代码的内部编程测试中,Claude 3.5 Sonnet成功解决了64%的问题,而Claude 3 Opus只解决了38%。研究人员发现,只要给Claude 3.5 Sonnet清晰的指令和必要工具,它就能独立编写、编辑和执行代码,并具备复杂推理和故障排除能力。并能轻松处理代码翻译,特别适合更新遗留应用程序和迁移代码库。
Anthropic开发者关系工程师Alex Albert表示,Claude在编写代码和自主修复pull requests方面变得非常出色。“显然,一年之后,大部分代码将由大语言模型编写。”
他在日常工作中发现,代码测试和修复通常比编写本身更花时间。此时Cloud 3.5 Sonnet可以充当一个成熟的编程代理。Albert在视频中展示了如何在最少输入和没有互联网访问的沙盒环境下,借助Claude将一个裁切圆形头像的bug函数修复,并转变为一个包括单元测试在内的功能齐全的实现。
二、最强视觉模型,解放生产力
此次3.5 Sonnet在视觉能力上也实现了巨大突破,是Anthropic迄今为止最强大的视觉模型。
它在解释图表、图形等视觉推理任务中改进明显。可以准确地从粗略图像中转录文本,并输出更多洞察,这也是零售、物流和金融服务等领域的核心能力。
示例视频中,用户表示要做一个人类基因组的班级演讲。给出一张测序里程碑时间线图片和一个测序成本随时间变化的图表,要求Claude 3.5 Sonnet把图中数据转录成JSON格式。Claude 3.5 Sonnet马上从图中抓取数据,创建了两个主要数组的JSON结构。接着根据进一步指令,将两个数组相结合创建了一个交互式Plotly.js图表。最后继续出大招,把完整的演讲demo给搞定了。
图像信息提取和转录、数据结构化、上下文理解、用户协作……Claude 3.5 Sonnet完美示范了什么叫解放生产力。再加上速度提升和成本效益,使它成为处理例如上下文敏感的客户支持、协调多步骤工作流程等复杂任务的理想选择。
三、引入新功能Artifacts,实时查看任务的小监视器
此外另一个亮点是在Claude.ai上引入Artifacts预览版。
这也是此前一直强调模型安全和底层研究的Anthropic,在产品交互上的一次大更新。
这是一项扩展用户与Claude互动方式的新功能。当要求Claude生成代码、文本或网站设计等内容时,Artifacts会出现在对话旁边的专用窗口中,供用户实时查看、编辑和构建Claude的创作。相当于形成了一个动态工作空间,将AI生成的内容更无缝集成到自己的项目和工作流程中。
Anthropic称,这项功能标志着Claude从对话式AI向协作工作环境的演变。这只是Claude.ai更广泛愿景的开始,不久的将来将扩展到支持团队协作。最终甚至整个组织都能够在同一个共享空间中安全地集中他们的知识、文档和正在进行的工作,Claude将作为一个随时待命的队友。
这乍听有点像微软的团队助手Team Copilot。但Team Copilot管理会议、分配任务、记录笔记等的定位类似一个项目经理;Claude则听起来更像把团队请进一间屋子舒服地坐着,动动手指,一起观看Claude“为打工人打工”。
四、Anthropic:我每隔几个月就会厉害一次
作为一家主打安全的AI公司,Anthropic当然也用大量篇幅强调新一代模型经过了严格的安全测试。
抱着每隔几个月就大幅改善智能、速度和成本之间的权衡曲线的目标,Anthropic还表示将在今年晚些时候发布同系列的另两个成员:Claude 3.5 Haiku和Claude 3.5 Opus。除此以外,公司也在开发新的模态和功能,以支持更多的企业用例。
自从今年3月初发布Claude 3系列以来,Anthropic久未有大动作。上次被社区热议还是Jan Leike和Sam Altman闹翻,从OpenAI激情离职加入“我方阵营”的时候。
Jan Leike在社交平台表示,自己已加入Anthropic继续大模型可解释性和超级对齐研究。
此次Claude 3.5 Sonnet发布,Jan Leike也继宣告入职消息后首次发文站台。
“我喜欢新的Sonnet。我经常让它为我解释机器学习论文。虽然不总是百分百准确,但可能比我粗略阅读要好,而且速度快得多。自动化的对齐研究正在越来越接近现实……”
鉴于昨天Ilya Sutskever宣布成立新公司的消息,也有八卦的网友问,“是什么让你选择加入Anthropic而不是SSI?”
一位用户实测让Claude 3.5 Sonnet创建一个能在短时间内玩的原创游戏。它随即设计了“Color Cascade”,一个需要从一系列掉落的形状中抓住正确颜色的游戏。这名用户表示,感受到了AGI的味儿。
Perplexity CEO Aravind Srinivas也发文说,Claude 3.5 Sonnet现已对平台订阅用户开放。在Perplexity内部评估中,它取得了比GPT-4o更高的分数。
不过也有人发现了华点:
当然,这凑巧只是某位Anthropic测试员工的名字。但典中典已成,另外一位在Anthropic做AI对齐的Sam Bowman回复说:“我想我们整代人中大约有三分之一都叫Sam。Anthropic至少有十几个叫这个名字的,包括联合创始人在内。”
原来世界是一个巨大的Sam。