扫码打开虎嗅APP
本文来自微信公众号:APPSO(ID:appsolution),作者:用 AI 发电的 APPSO,原文标题:《GPT-4o 不再是最强!Claude 3.5 深夜发布,还免费可用 | 附体验链接》,题图来自:视觉中国
蛰伏数月,Anthropic 带着他们最强的 AI 模型——Claude 3.5 Sonnet 来深夜炸街。
“中杯” Claude 3.5 Sonnet 是 Claude 3.5 系列中的“排头兵”,在大多数基准测试结果中更是优于 GPT-4o。
而这还只是开胃菜,因为官方表示今年晚些时候还会陆续推出 Claude 3.5 Haiku 和 Claude 3.5 Opus 等不同版本,相信届时还将藏着更多惊喜。
Claude 3.5 Sonnet 的特点如下:
更通人性,更能理解细节和复杂指令,创作高质量内容
基准测试结果全方位碾压 Gemini 1.5 Pro 和 Llama-400b,大部分优于 GPT-4o。
速度是 Claude 3 Opus 的两倍,成本仅为后者的五分之一
在自主编码和视觉处理等复杂任务中表现出色
简言之,在 OpenAI 新模型未发布之 时,全世界又将再次迎接 Claude 时代的到来。
力压 GPT-4o,新皇 Claude 3.5 Sonnet 免费可用
青出于蓝而胜于蓝,全新推出的 Claude 3.5 Sonnet 再次遥遥领先。
从基准测试结果来看,与前代超大杯 Claude 3 Opus 相比,Claude 3.5 Sonnet 以近乎碾压的姿态,轻轻松松就把前浪拍在沙滩上。
Anthropic 表示,Claude 3.5 Sonnet 现在更通人性,更有人味了,在理解细节和复杂指令上做到信手拈来;而且,其在幽默和创作高质量内容方面也有显著进步。
写起文章来就像你的贴心笔友,字字句句都暖到心坎里。
编码能力是 Claude 3.5 Sonnet 进化的重要亮点之一。
在内部的编码评估中,Claude 3.5 Sonnet 可不简单,解决了 64% 的问题。相比之下,老大哥 Claude 3 Opus 只解决了 38%,差距不止一点点。
据 Anthropic 介绍,该编码评估旨在测试模型根据对所需改进的自然语言描述,修复错误或为开源代码库增添新功能的能力。
在接到指令并配备相关工具后,Claude 3.5 Sonnet 就能自己“捣鼓”代码,编写,调试、执行,具备高级的推理和问题解决能力,一套动作下来行云流水。
尤其在软件开发和维护方面,Claude 3.5 Sonnet 不仅效率强,而且可能比人类专家更有效率、更精准。
重点来了,这么能干的模型除了响应速度快,使用成本也很低。
每输入百万 token 只要 3 美元,输出每百万 token 只需 15 美元,故而成本也仅为 Claude 3 Opus 的五分之一。低廉的成本加上 Claude 3.5 Sonnet 在处理多步骤工作任务方面的能力,使其成为这些复杂场景下的首选工具。
Claude 3.5 Sonnet 瞄准的是全球第一 AI 大模型的宝座。
即便和 OpenAI 的 GPT-4o 较劲,Claude 3.5 Sonnet 在纸面参数上也是一点都不虚。
在 GPQA、MGSM 等基准测试上,Claude 3.5 Sonnet 成绩亮眼,将 GPT-4o 甩在后面。而在 MMLU、MATH 等榜单中,Claude 3.5 Sonnet 也只是稍逊或打平于 GPT-4o。
至于面对 Gemini 1.5 Pro 和 Llama-400b 等“老前辈”,Claude 3.5 Sonnet 则是毫无意外地碾压。
前代版本 Claude 3 引入的重要更新就是支持了多模态的能力,而 Claude 3.5 Sonnet 在这方面也是个狠角色。
作为 Anthropic 迄今为止最强大的视觉模型,Claude 3.5 Sonnet 的图像理解能力尤为突出。
上至解读图表图形、下至转录渣画质图像中的文字,通通都是小 case。这种能力也恰恰是零售、物流和金融服务领域稀缺的关键能力。
毕竟零售行业经常需要从商品的包装、标签或收据上读取信息。又比如物流行业需要处理大量的货物标签和运输文件,而这些信息通常是以图像的形式存在。
Anthropic 可不想让 Claude 当个安安静静的 AI 聊天机器人,而是要把 Claude 打造成你工作时的得力干将。
因此,Claude 网页端推出了一个名为“Artfacts”的新功能。
简单来说,用户想要 Claude 生成代码片段、文本或网站设计等内容时,Claude 会直接扔个“Artfacts”窗口给你。
你可以在这些独立窗口中边聊边看边改,将 AI 生成的内容无缝地融入到项目和工作中。
另外,团队协作功能也已经在路上了,未来各团队乃至整个组织将能够在一个共享空间中集中管理工作。也就是说,届时 Claude 将彻底化身你的工作搭子。
Anthropic 透露,除了研发下一代模型系列,他们正在开发新的模式和功能,以满足企业更多的应用场景,包括与企业应用程序的整合。
并且,他们还在研究如 Memory(记忆)这样的功能,让 Claude 根据用户指定记住用户的偏好和交互历史,化身你的私人助理。
Claude 3.5 Sonnet 刚登场,就被网友玩坏了
在 Claude 3.5 Sonnet 登场前,Anthropic 特意在社交平台 X 提前打了个哑谜,吊足了公众的胃口。
谜底也随后揭开,Claude 3.5 Sonnet 就这样来到了我们的面前。对于新模型的到来,网友激动之情溢于言表。
OpenAI 前安全主管 Jan Leike 也为 Claude 3.5 Sonnet 背书,言辞间充满赞赏。
X 用户 @genie0309 迫不及待地体验了 Claude 3.5 Sonnet,半分钟的时间,就搭建起一个网站雏形。
网友 @emollick 用 Claude 3.5 Sonnet 做了一个有趣且支持实时编辑的小游戏。
网友让 Claude 3.5 Sonnet 绘制独角兽 SVG 图像,尽管略显抽象,却也别具一格。
Claude 3.5 Sonnet 还在短短 3 分钟内,仅通过几何形状就构建出了一个马里奥的克隆版本,并添加了动画效果。
比 GPT-4o 更强,还更安全
聊到 Anthropic,我们的第一印象是其实力能和 ChatGPT 华山论剑,但又比 OpenAI 更牢牢地将安全二字刻在 AI 里。
Anthropic 透露,Claude 3.5 Sonnet 既“聪明”,也很安全可靠。最终评估结果显示,其安全级别仍维持在 ASL-2 级别。
简单科普一下,ASL-2 是人工智能安全级别(AI Safety Level)体系中的第二级。达到 ASL-2 的 AI 系统具有广泛的风险,但这些风险尚处于可控范围,系统还没有展现出能够造成真正危险的能力。
此外,Anthropic 还请来了一帮外部安全专家,对最新模型的安全机制进行了测试和完善。里里外外都查了个遍后,Anthropic 也都参考了反馈以确保模型的安全。
谈到用户最为关心的隐私问题,Anthropic 则表示,除非用户明确授权,否则其不会使用用户提交的数据来训练生成模型。
“截至目前,我们尚未使用任何客户或用户提交的数据来训练我们的生成模型。”
实际上,这几天,关于 AI 安全的话题在整个 AI 圈卷起了“沙尘暴”。
昨日凌晨,Ilya 官宣成立新公司 SSI,只专注于安全超级智能。至此,最原始的 OpenAI 也因不同理念分裂,现在大有 Anthropic、OpenAI、SSI 三国鼎立的架势。
在这波涛汹涌中,Anthropic 带着 Claude 3.5 Sonnet 淡定登场。能和 GPT-4o 较量的性能,更安全的 AI,更低的使用成本,新模型性价比高得让人直呼“真香”。
AI 大模型也跟回合制似的,没有永远的王者,只有不断涌现的王者。
发展到今天,GPT-4 刚出道时的震撼已经成了过去式。几乎每一次 Claude 和 ChatGPT 的较量,都总是咬得紧紧的。
至于或许能一锤定音的 GPT-4.5/5,网友们是既期待又无奈。流转的爆料消息,也从“今年夏天”一路“跳票”到年尾,OpenAI 的“鸽王”称号都快坐实了。
对比之下,业界清流 Claude 3.5 Sonnet 也给 OpenAI 上了一堂课,原来新品发布是真的可以“现货发售”的。
说来说去,要不 OpenAI 早点推送 GPT-4o 的语音功能?让大家解解馋,也是极好的嘛。
本文来自微信公众号:APPSO(ID:appsolution),作者:用 AI 发电的 APPSO