正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-09-25 10:52

OpenAI突然推送高级语音模式,又抢了谷歌风头

本文来自微信公众号:极客公园 (ID:geekpark),作者:Li Yuan,原文标题:《OpenAI 突然推送推送高级语音模式“Her”,又抢了谷歌风头》,题图来自:AI生成

文章摘要
OpenAI推高级语音模式“Her”,抢谷歌Gemini新模型风头。

• 🚀 OpenAI推高级语音模式,强调个性化指令和语音反应

• 💡 Google发布两款Gemini新模型,提升性能和降低价格

• 🔥 AI巨头发布竞速,OpenAI卡点推出新功能与谷歌竞争

9月25日早,Google发布两款新模型Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。


在谷歌的系列模型中,Gemini Pro属于中号模型,付费用户可以使用。而Gemini Flash则由Gemini Pro蒸馏而来,在今年5月的Google I/O上第一次亮相,目前用户可以免费在Gemini中使用,开发者也有一定免费的API使用配额。


模型升级的重点主要为1.5 Pro价格降低>50%、1.5 Flash的速率限制提高了2倍,1.5 Pro的速率限制提高了约3倍、输出速度提高2倍,延迟降低3倍;过滤器切换为选择加入。


不过,似乎Google今天的宣传节点再一次被OpenAI提前知晓。OpenAI同日宣布,OpenAI的高级语音模式,将今日起开始对Plus和Team用户推出。


5月,Google发布Gemini模型的大更新前,OpenAI就曾提前抢开发布会,宣布很快会带来高级语音模式,登上媒体头条“个人助理Her就要来了吗?”


接下来半年,高级语音模式的发布一再推迟,直至今日Google更新模型,OpenAI立刻表示,本周内将推出语音模型。


除了之前已经剧透过的语音模式与人类在对话中的反应时间相近、会变换语调之外,还增加了个性化指令功能——可以直接指令模型说话说慢点,或者用一个特定的口音,同时可以记住你的名字和提前提供的信息给出更个性化的回复。


X上有用户不禁感叹,OpenAI已经养成了一个新爱好。等着Google发布一个更新,几个小时后马上发布一个更新。



Google Gemini Pro价格下降一半


从Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的名字也可以看出,此次Google Gemini的更新,不是一个大版本的更新,更多的是一次整体模型的升级。


降低价格是一个重要的更新重点。


Gemini 1.5 Pro的输入token价格降低64%,输出token价格降低52%,增量缓存token价格降低64%,适用于小于128K token的提示语,自2024年10月1日起生效。再加上上下文缓存,这将继续降低使用Gemini构建应用的成本。


此外,1.5 Flash的速率限制从1000 RPM提高到2000 RPM,1.5 Pro的速率限制从360 RPM提高到1000 RPM。在接下来的几周内生效。


Google 1.5 Flash得到了2倍输出速度和3倍更低延迟。


同时,Google表示,发布的Gemini模型,默认不会有应用过滤器,开发者可以根据其用例自行决定最佳的配置。Gemini将继续提供一系列安全过滤器,开发者可以根据需要为Google的模型应用这些过滤器。


Google还表示,此次模型在数学、长上下文窗口和视觉方面取得了一定的进步。


在更具挑战性的MMLU-Pro基准测试中,看到大约7%的性能提升。而在数学和HiddenMath(一个内部保留的数学竞赛问题集)基准测试中,两个模型都取得了约20%的显著进步。对于视觉和代码使用场景,两个模型在评估视觉理解和Python代码生成的测试中表现也更好,提升范围在约2—7%之间。



8月份发布的Gemini-1.5-Flash-8B实验模型也得到了新的更新。


Gemini模型本身的亮点包括长上下文和多模态功能。由于Gemini Flash对开发者有部分免费额度,新更新可能对于开发某些应用有着很好的效果。


X上的AshutoshSrivastava就表示,他使用Google Flash构建了一个应用,能够在1分钟内转写13分钟的长音频,且准确度很高(且免费)。在另一个应用中,他表示目标探测功能的表现也很不错。



OpenAI高级语音功能今日起推出


转头看OpenAI这边。


凌晨两点,OpenAI宣布高级语音模式今日起开始向订阅用户推出,周内会全量进行推送。


根据OpenAI的宣传片,与标准语音模式进行区分(黑色旋转球),高级语音将以蓝色旋转球表示,并增加5个新语音。


此次发布的一个重要亮点是,OpenAI表示,高级语音模式可以提供个性化定义。


在视频中,OpenAI的研究员表示,用户可以自定义指令,以让模型以某种口音发音、记住事件以及用户想要如何被称呼等。




“你可以让模型用特定的语速说话,也许是非常清晰地发音,慢慢地说话,用你的名字或你喜欢的称呼来称呼你。”研究员表示。


另一位研究员提供了一个例子,对模型输入名字和所在城市,在向模型寻求周末的计划时,模型会根据所在城市,进行更个性化的规划。


高级语音对话目前仅适用于ChatGPT Plus和Team帐户的用户。免费用户仍然可以访问标准语音模式。


不过,Plus和Team用户每天仍然有高级语音的使用限制,并且每日限制可能会发生变化。当一天的高级语音还剩15分钟时,OpenAI会向用户发出通知。


同时,使用高级语音模式无法使用GPTs,即用户设计的OpenAI的智能体。


高级语音模式因为对语音反应时间更敏感,在某些嘈杂的场景下,也更容易被打断。


最后,OpenAI还用高级语音模式搞了一个活,表示ChatGPT目前可以用五十多种语言表示“对不起,我迟到了,我不是故意让你等这么久的。”


一起来听听中文的效果。




一个很有趣的点是,此次Gemini的发布,是由Google的Logan Kilpatrick主要负责对外沟通交流。


而Logan Kilpatrick,正是OpenAI前开发者关系负责人。2024年跳槽Google。


而转头,此次Google发布新模型,OpenAI就卡点发布高级语音模式。


OpenAI此次宣布的时间点或许还有另外一个意义——此前外媒报道称,Meta公司本周将在Meta AI中推出名人语调的音频对话功能。


在硅谷,AI的战争还在热火朝天的继续。


本文来自微信公众号:极客公园 (ID:geekpark),作者:Li Yuan

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: