扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-02-06 09:27

谷歌放大招,Gemini 2.0全家桶来了

本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,原文标题:《DeepSeek逼急Gemini放大招,ChatGPT搜索功能免费开放,AI掀起让利战》,题图来自:视觉中国

文章摘要
谷歌推出Gemini 2.0系列,提升AI性能与性价比。

• 🚀 Gemini 2.0系列模型性能卓越,成本低。

• 🎨 支持多模态输入,功能全面,适用场景广泛。

• 🏆 引发AI市场竞争,推动技术与价格创新。

去年底,Google Deedmind推出了面向智能体时代的Gemini 2.0 Flash模型,一只脚迈入了2.0时代,时隔两个月,Gemini 2.0系列全家桶终于正式上新。


在DeepSeek“鲶鱼效应”的催化下,这次发布与往常不太一样,不仅在性能上有进一步的提升,还挥舞起AI性价比的大旗,同时也拥抱多模态能力。


在最新的大模型竞技场中,Gemini 2.0 Pro在所有类别中排名第1,Gemini 2.0 Flash排名第3,Flash-lite则以出色的性价比跻身前十。



Deepmind CEO Demis Hassabis发文称:


令人兴奋的进展!我们在不断提升质量的同时,努力降低成本。Gemini 2.0系列是性价比和性能方面的领先模型。


通过今天的发布,大家都可以利用它们强大的推理和多模态能力,这也为我们的智能工作奠定了基础。



Gemini 2.0系列模型主要特点如下:


  • 2.0 Pro Experimental:主打编码性能和处理复杂提示能力,在知识理解和逻辑推理方面表现出色。


  • 2.0 Flash:专门面向开发者提供API接口,支持快速构建App。


  • 2.0 Flash Thinking Experimental:已在Gemini App中开放使用,供用户体验。


  • 2.0 Flash-Lite:在保持高性能的同时实现了更优的成本效益和响应速度。


不到1美元能干啥?Google新模型能给4万张图片配标题


具体来说,Gemini 2.0系列全家桶模型各具特色。


其中,已全面发布的Gemini 2.0 Flash支持多模态输入和文本输出,具备100万tokens的上下文窗口,并支持结构化输出、函数调用和代码执行等功能。


值得注意的是,其多模态实时API目前仍处于“beta”阶段,图像和音频输出功能也将在后续推出。



该模型的定价方案也已确定,文本、图像和视频输入每百万tokens收费0.10美元,音频输入则为0.70美元,(2月20日起正式生效)。文本输出每百万tokens收费0.40美元。


各类缓存费用也都维持在较低水平。文本/图像/视频缓存费用为每百万token收费0.025美元,音频缓存费用为0.175美元。


在此基础上,Google还推出了更具性价比的“轻量版”——Gemini 2.0 Flash-Lite。


虽然这款模型在功能上做了一定取舍,暂不支持多模态实时API、搜索工具和代码执行,但它保留了100万tokens的上下文窗口,以及多模态输入、文本输出和函数调用等核心功能。



其定价更为亲民,文本、图像和视频输入每百万tokens仅需0.075美元,几乎比标准版便宜了三分之一。音频输入也为0.075美元,文本输出为0.30美元,文本/图像/视频缓存为每百万tokens仅需0.01875美元,音频缓存为0.175美元。


作为对比,DeepSeek-V3模型现在在击中缓存的情况下每百万tokens需要0.014美元。2月8日起,其价格将恢复到每百万tokens 0.07美元的水平。这一调整或许也是促使Google制定当前价格策略的重要因素之一。




据Google介绍,使用该模型为4万张独特图片生成标题的成本仅需不到1美元。


产品线的顶端则是Gemini 2.0 Pro Experimental版本。这款模型拥有200万tokens的超大上下文窗口,相当于可以一次性处理约150万个单词,能同时消化整个《哈利·波特》系列的七本书还绰绰有余。


在功能上,它也是最为全能的选手,不仅支持多模态输入和文本输出,还具备结构化输出、函数调用、搜索工具和代码执行等全方位能力。



在性能测试方面,Gemini 2.0系列表现可圈可点。


在MMLU-Pro测试中,2.0 Pro Experimental以79.1%的得分领先,而2.0 Flash Lite Preview和2.0 Flash GA分别获得71.6%和77.6%的成绩。


在代码生成、数学和多语言能力等方面,2.0 Pro Experimental同样表现优异,在数学(91.8%)和多语言能力(86.5%)方面的成绩尤为突出。


遗憾的是,即便是最强的Gemini 2.0 Pro Experimental版本也要远远落后于OpenAI o3模型,并未完成外界期待的“弯道超车”。



不过也有网友认为,由于Gemini 2.0 Pro并非典型的CoT模型,当前的性能对比可能并不完全合理。



这些模型的主要优势在于其快速响应能力和较低的成本,特别适用于命名实体识别或分类等特定任务。随着图像生成和文本到语音等新功能的即将推出,Gemini 2.0系列的应用场景将进一步扩展。


现在,这些新模型现已在Google AI Studio和Vertex AI平台上向开发者开放,Gemini高级用户也可以在其设备上选用。


贪吃蛇大战、跳跃球,Gemini 2.0还能这样玩


谁说AI只会干巴巴地回答问题,随着Gemini 2.0全家桶的上线,网友迫不及待地将其玩出了新花样。


比方说,想看贪吃蛇大战吗?让Gemini 2.0自行操刀设计一个贪吃蛇游戏。



或者,Gemini 2.0 Flash Thinking模型是首个能够访问YouTube的推理模型,它还支持Google搜索和地图功能。



在图像渲染方面,有开发者要求模型使用p5.js编写脚本,生成了一个包含100个动态弹跳黄球的三维场景。并且,球体内的黄球还要能够正确地相互碰撞,球体缓慢旋转,以及始终保持在球体内。



我们也在Google AI Studio中简单体验了此次上新的几款新模型。这几款新模型响应的速度倒是挺快的,至于效果嘛,Emmm,就属实有点难评了。




在Gemini大展拳脚之际,惯常狙击的OpenAI也在持续发力。


今天,OpenAI凌晨宣布Deep Research功能向所有Pro用户全面开放,包括英国、欧盟、挪威、冰岛、列支敦士登和瑞士等地区。Plus用户流下了羡慕的泪水。



并且,ChatGPT的搜索功能现已向所有用户开放,无需注册即可使用,这进一步降低了用户的使用门槛。



不过,在卷模型之前,不妨先卷一下AI模型的起名,无论是Gemini系列,还是OpenAI的GPT/o系列,随着新模型接踵而至,各类版本号和命名规则也是让人眼花缭乱。



去年当OpenAI CEO Sam Altman被问及公司产品的命名策略时,他也坦言相当头疼。


包括Anthropic CEO Amodei曾表示,虽然Claude的命名方式在早期看起来不错,但随着模型的快速迭代和更新,沿用的命名体系同样变得捉襟见肘。


他指出,目前没有任何AI公司真正“搞定命名”这一问题,大家都在努力寻找更简单、更清晰的命名方式。这或许也是AI巨头们少有达成的共识。


本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: