扫码打开虎嗅APP
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,原文标题:《GPT-4o演示科幻级语音助理,还要再看下凌晨谷歌的。苹果联手OpenAI欲出》,题图来自:视觉中国
GPT-4o的小美女CTO穆拉蒂,先是宣布推出的GPT-4o的大模型,然后带着两个小哥,用一个插着线缆的手机和一台电脑,演示了ChatGPT的多模态功能,前后仅仅26分钟,把无数那些辛苦了一年、刚刚宣布赶上了GPT-4(Turbo)的公司,又都整不会了。
人与机器的交流,可以更像人与人之间的交流那么自然了。语言交流中可以随时插话,可以实时翻译,可以改变语调,可以表达情绪,可以察言观色,可以观察场景,所有这些,就像人与人面对面交流一样。
此外,还有实时翻译,它还帮你看代码,教你学外语,给你讲故事......它不正是每个人所需要的助理吗?
甚至机器与机器之间也可以互相交流,一部手机向另外一部手机描述它观察到的人物与环境,还有发生的事情。
这一切不是科幻小说,而是科幻电影中的机器人Her和Jarvis正在变成现实。
GPT-4o的这些魔法,准确描述应该是实时跨音频、视觉和文本的推理(reason across audio, vision, and text in real time)。输入文本、声音和视觉的组合,输出也是它们的组合,而且这个端到端的过程,由同一个神经网络训练处理。
OpenAI一如既往地没有公布技术细节,它只是承认,这是其首个把多种模态的模型整合到一起的模型,还存在着不少局限性和麻烦事。它并没有立即推出语音功能。实际上,OpenAI曾经于3月底时非常低调地发布了强大的语音模拟和生成技术:Voice Engine。直到今天,它都只是请用户预听,而不敢发布,毕竟太容易用来造假了。
这次OpenAI同样非常谨慎。在惊艳的演示之后,它称这次只推出文本与图像功能,而不会推出语音功能。之后几周只让“值得信任的”少数人试用。之前很多公司推出的产品演示存在猫腻,这次OpenAI的小哥一坐下,就拿起手机上的线缆,解释这是为了更稳定的网络连接(consistent internet)。
这更像是OpenAI借演示多模态功能而精心策划的一场营销活动。它想传递三个重要信息:多模态,更有效率的推理,与苹果的合作。
其实,后两个信息,实际意义更加重要。
OpenAI宣布,它除了是一家研究公司之外,开始把重心放到大模型的实际用途。OpenAI过去的一年用户数量停滞不前,ChatGPT体验没有明显改善,导致其用户留存率不高。最重要的原因是推理的成本太高,速度太慢。
这次OpenAI说,过去的两年,倾注了很多努力,提升大模型的效率。这体现在GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。它比GPT-4快4倍,便宜两倍——这是对英语,而其他50种语言,由于分词器(tokenizer)技术的改进,速度加上价格最高可能提升9倍。
与苹果公司的合作,也是一个重要考虑,甚至可能是最重要的考虑。苹果与OpenAI的合作,谈判已经进入最后阶段,苹果即将于6月初举办的WWDC大会上宣布其AI战略,用户最关心之一是Siri是不是会变得更加聪明。如果像GPT-4o这样,它就真的像个助理了。
OpenAI即将揭开其在端侧设备的部署,它首选了PC。这次展示了ChatGPT集成到macOS上,它可以实时共享PC屏幕,可以把正在进行的工作流,拿到ChatGPT那里处理,有了GPT-4o的加持。以后码农可以动动嘴就可以听到对代码的解析了。
苹果+OpenAI,对于微软Copilot和谷歌向设备端的部署,造成了极大的压力。苹果在芯片、操作系统和设备一体化集成OpenAI的技术,可能会创造出真正的AI用户体验。这可能是一个比微软Copilot更好的体验,macOS和Windows是一对冤家,可能要争着尝鲜新出炉的GPT-4o了。
从这一点来说,OpenAI与苹果的合作,将会极大加快大模型向个人设备的部署,也成为今年大模型最大的应用场景。
OpenAI只是先推出了文本与图片功能,除了担心语音功能可能并不完善,也动了点心思,想看下谷歌I/O的演示之后再说。
OpenAI选择发布的时机非常讲究。预计与谷歌发布的是几乎同一种产品,OpenAI抢的时间点,正是谷歌I/O大会前一天。它首先要看谷歌明天放出来的产品是什么样子的,然后决定后面GPT-4o产品功能释放的节奏。
谷歌较早就发布了关于统一多模态的模型框架,还最先推出了真正的多模态大模型Gemini。谷歌搜索和地图,识别和感知的场景数据,应该比OpenAI的更加丰富。而且谷歌已经推出了视觉搜索产品,如与三星手机合作推出的Circle and Search。
这是一种交互泛化的新境界,它与自然语言、语音、视觉、情绪、3D等相对单一的功能相比,能把所有这些统一到一个大模型中,说明它具备了超越模态的泛化能力。
统一多模态大模型,标志着人类与机器之间的交互,在从自然语言交互之后,向着自然交互跨越。
谷歌明天的发布,也非常值得期待。
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究