正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-08-14 17:19

对标GPT-4o的谷歌Gemini Live,翻车了?

本文来自微信公众号:量子位 (ID:QbitAI),作者:金磊,原文标题:《谷歌版Her大翻车:试了3次且换手机才成功…网友:我手动只需10秒》,题图来自:视觉中国

文章摘要
谷歌Gemini Live发布会演示频频出错,引发质疑。

• 😬 发布会现场演示三次出错,换手机才成功

• 📅 网友称手动10秒可完成的日历查询功能

• 🤖 Gemini Live被评价对话能力提升,功能反而退步

翻车,大翻车。


就在今天凌晨,谷歌版Her——Gemini Live正式发布。


毕竟明显是对标OpenAI家的GPT-4o,可以说是吸足了科技圈的眼球。


在官网发布的demo中,拍照问答功能的效果是这样的:



它大致实现的功能,是用手机拍摄演唱会的海报,并让Gemini查看用户的日历,看看行程是否适合参加。


以及还可以基于此进行一系列后续的操作,包括定时间查票价等等。


然而……当来到发布会现场演示环节的时候,画风却180°大变样。


请看VCR:




第一次:失败了。


第二次:失败了。


第三次:换手机,成功了。


嗯……小哥表情,肉眼可见的有点慌。



就连知名科技媒体TechCrunch都配上了这样的emoji:



甚至还有网友开启了辣评模式:


我10秒钟就能搜索我的日历。



当然,这只是今天Made by Google的一个小插曲。


关于Gemini Live的更多内容,我们继续往下看。


谷歌版Her的全貌


正如我们刚才提到的,Gemini Live和GPT-4o的功能十分相似。


除了“拍照问答”之外,它也可以做到实时对话,甚至在Gemini回复过程中进行打断。


据了解,目前Gemini Live的功能已经在安卓系统中向Advanced订阅者开放(仅限英语)


未来几周,这个功能会陆续扩展到更多语言并且向iOS开放。


对话声音方面,Gemini Live推出了10种新的声音供选择,效果是这样的:




操作方面,由于Gemini已经完全集成到了系统中,所以只需长按电源按钮或说“Hey Google”,就可以调用了。


例如在写邮件的过程中,让Gemini帮你生成配图,效果如下:



不过对于这项功能,外媒们的评价却是褒贬不一。


例如The Verge的一位作者在亲测后给出的标题是:


Gemini Live比Google快,但更尴尬。



具体原因是作者在一次为期三天的公路旅行中,汽车的音频系统突然失效。


使用原先的谷歌助手寻找解决方案花费了至少五分钟,而Gemini Live仅耗时15秒。


但对话过程中的Gemini Live的持续发言和需要用户主动打断的交互方式,却让作者感到尴尬。


他认为:


声音和说话方式过于人性化,以至于在打断它时感到不自在。


与Gemini Live的互动中投入了更多情感,而不是将其作为解决问题的工具。


无独有偶,对于Gemini Live在云端运行这个点,华尔街日报也给出了犀利的评价:


对话上的进步,功能上的退步。



具体到技术层面,GPT-4o是一个端到端的系统,但从谷歌发布的内容来看,Gemini Live则并非如此。


而是将STT、VAD、LLM和TTS系统做了集成:



除此之外,谷歌所发布的新Pixel系列手机中,也出现了Gemini Live的身影。


包括Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro和Pixel 9 Pro XL。


可以用增强现实(AR)和AI技术,可以把两张不同照片中的人物“塞”到一起。



谷歌为什么追不上OpenAI?


虽然谷歌这次发布Gemini Live,算是对OpenAI GPT-4o的一种应战,但自从大模型时代拉开序幕以来,我们可以看到一个非常明显的一种趋势:


谷歌,跟不上OpenAI的脚步。


首先是在最为关键的ChatGPT发布的这个节点上,OpenAI成为了开拓者,但谷歌随后发布的Bard,和这次Gemini Live很相似,后续出现了翻车情况。


而后近一年半多的时间来,似乎所有重磅模型、重磅应用的发布,都是OpenAI在引领。


反观谷歌这边,不仅是技术呈现出步步慢的状态;甚至在舆论上,还出现了被OpenAI用一个人事变动(Ilya离职)消息盖过谷歌年度最大活动(I/O大会)热度的情况。


那么谷歌在大模型时代为什么不行了?


对此,前谷歌CEOEric Schmidt(2001年至2011年任职)在斯坦福最新的演讲中表达了他的观点:


谷歌非常重视工作与生活的平衡,例如允许员工居家办公。


但创业公司,他们工作真的很拼。




甚至还有网友爆料称:


我兄弟是谷歌顶级AI程序员,他有3个全职工作,每天只在谷歌这边花2个小时。



参考链接:
[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[2]https://x.com/GoogleDeepMind/status/1823409674739437915
[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event
[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: