正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-06-21 20:03

一手测评Claude 3.5,它真比GPT-4o强吗?

本文来自微信公众号:机器之能(ID:almosthuman2017),作者:杨文,原文标题:《一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?》题图来自:视觉中国

文章摘要
文章介绍了新推出的Claude 3.5 Sonnet和GPT-4o的对决,从玩梗、做菜谱、做数学题、解读名画到看病,对比它们的各种表现。

• 💡 Claude 3.5 Sonnet和GPT-4o在网络热梗和数学题方面表现出色

• 🌟 Claude 3.5 Sonnet对年龄推断更为精准

• 🎨 两个大模型在解读名画方面能力相当

它来了,它来了,它带着 Claude 3.5 Sonnet 来了!


蛰伏三个月,就在昨晚,OpenAI 的“劲敌”Anthropic 上新了,推出新一代模型 ——Claude 3.5 Sonnet。



这款大模型有啥独到之处?


首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。


它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。



此外,它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。


总之,按官方介绍,Claude 3.5 Sonnet 是迄今为止最智能的模型,在多个方面吊打 GPT-4o。


话说到这份上,那我们就不客气了,直接让 Claude 3.5 Sonnet 和 GPT-4o 对决,孰优孰劣实力说话。


第一局:心眼子练习


日常生活中,总会遇到一些尴尬的场面。


例如,饭局上,你帮领导盛饭,领导接过后,说:“盛这么多,喂猪呢?” 这种情况下,高情商者会如何应对?


我们把这个问题丢给这两个大模型。


Claude 3.5 Sonnet:



GPT-4o:



行吧,它俩是懂得拍马屁的。


Claude 3.5 一口气给了 5 个示例,不过第 2 句“我眼神不好使,把您当成我们单位的顶梁柱了”,这是拍马蹄子上了吧。


GPT-4o 就更懂“人情世故”了,“看您身材保持得这么好,我可得向您请教减肥秘籍”,这马屁拍的是恰到好处啊。


值得一提的是,Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。



用户可直接在原始提示词上进行编辑修改,而不用一遍遍复制粘贴。


第二局:根据菜肴生成菜谱


我们上传了一张“西红柿炒鸡蛋”的图片,分别让这俩大模型介绍一下制作流程。


Claude 3.5 Sonnet:



GPT-4o:



它们对于这道经典的中国菜颇有心得,从配料到步骤一应俱全,最有意思的是,它俩懂得中国人做菜的精髓“少许”,也都强调加点糖平衡酸度。


论“做菜”,两个大模型不相上下。


第三局:做数学题


官方给出的评估表中,GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 是 71.1%。



我们从 2024 年新高考 I 卷中摘录了两道题目,一道是选择题,一道是解答题,分别以图片的形式“投喂”给这两个大模型。


第一道是送分题,正确答案是 A。



Claude 3.5 Sonnet:



GPT-4o:



这两个大模型“心有灵犀”,不仅给出了正确答案,还给出了详细的解题步骤。


我们又将解答题第一题交给他们,还让它们给出解题过程。



正确答案是:B=3/π。


Claude 3.5 Sonnet:



GPT-4o:



其实,这道题目算是最基础的题目,但俩大模型“一顿操作猛如虎”,最后给出了错误答案。


更搞笑的是,这错误答案也不是凭空出来的,而是经过了一连串的推理,连犯的错都一个样。


对于数学能力,这俩大模型半斤八两。


第四局:玩网络热梗


今年,AI 视频领域遍地开花,不仅闯入新的“踢馆者”—— 可灵、Luma、即梦等,曾经的 AI 视频“扛把子”Runway 也“王者归来”。


由此,网友制作了这张梗图,来调侃如今各大 AI 视频应用的江湖地位。



我们分别向两家大模型上传这张梗图,并输入提示词“这张图是什么意思”,以此来测试它们的图片解读能力。


Claude 3.5 Sonnet:



GPT-4o:



Claude 3.5 Sonnet 从画面角色、场景以及氛围等方面进行详细描述,不过它似乎没搞懂这张梗图的内涵,也不认识这几个 AI 视频应用,只是含混其辞地表示“这是对在线社区、人工智能系统或虚拟世界中权力结构的评论”。


GPT-4o 一瞅就明白其中深意,“这张图片可能象征着 Runway 在人工智能和创意工具领域的公认优势或领导地位,与提到的其他应用相比,Runway 受到高度重视”。


显而易见,这一局,GPT-4o 完胜。


第五局:读懂世界名画


我们拿出皮埃尔・奥古斯特・库特在 1873 年画的《春光》一图,让它们识别画作并进行赏析。


Claude 3.5 Sonnet:



GPT-4o:



这两个大模型堪称艺术界的“行家里手”,均认出了这幅画作,基础信息也表达无误,同时从不同的角度进行赏析。


它们都提到市场价值,不过,Claude 3.5 Sonnet 拒绝置评,只提醒“艺术品估价需要专家评估,考虑多种因素,而且价格可能会随着时间的推移而大幅波动”。


GPT-4o 则认为该画可能会拍出数百万美元的价格,这是不是太小看这幅经典画作了?


这一局,两个大模型算是打成平手。


第六局:AI 看病


最近网友们玩起了用 AI 大模型来看病。我们找了一张 6 岁孩子牙齿的 X 光照片,让大模型们通过牙齿推断年龄,以及有哪些问题。


Claude 3.5 Sonnet:



GPT-4o:



Claude 3.5 Sonnet 基于乳牙和恒牙的发育情况,得出结论:这是一个 6-7 岁左右孩子的牙齿,下颌牙齿有些拥挤,恒牙似乎受到阻生,牙齿上较暗的区域或许有腐烂。


GPT-4o 则认为这是 7-9 岁孩子的牙齿,主要的牙齿问题包括恒牙拥挤和潜在的嵌塞。


同时,它们都提到这需要专业的牙医检查。


两相比较,Claude 3.5 Sonnet 对于年龄的判断更为精准一些。


这一局,Claude 3.5 略胜一筹。


此外,不少网友还在线整活儿,捣鼓出不少有趣的玩法。


比如说,EverArt 创始人 Pietro Schirano 在 Claude 3.5 Sonnet 的帮助下,使用几何形状克隆了马里奥游戏,整个过程仅持续 3 分钟。



他表示,“最疯狂的部分是它还为角色提供了动画,而且这些形状看起来很新颖。”


本文来自微信公众号:机器之能(ID:almosthuman2017),作者:杨文

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: