OpenAI发布GPT-4o，“秀肌肉”给谁看？-虎嗅网

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究，原文标题：《GPT-4o演示科幻级语音助理，还要再看下凌晨谷歌的。苹果联手OpenAI欲出》，题图来自：视觉中国

文章摘要

本文介绍了OpenAI发布的GPT-4o，展示了其多模态功能，同时探讨了与苹果的合作。文章强调了GPT-4o的推理能力和速度提升，以及对个人设备部署的重要性。

• 💬 GPT-4o展示了多模态功能，实现了语音、视觉和文本的实时推理

• 🤖 OpenAI与苹果合作，可能带来更智能的Siri助理体验

• 💻 GPT-4o集成到macOS上，可能为个人设备带来更智能的AI用户体验

GPT-4o的小美女CTO穆拉蒂，先是宣布推出的GPT-4o的大模型，然后带着两个小哥，用一个插着线缆的手机和一台电脑，演示了ChatGPT的多模态功能，前后仅仅26分钟，把无数那些辛苦了一年、刚刚宣布赶上了GPT-4（Turbo）的公司，又都整不会了。

人与机器的交流，可以更像人与人之间的交流那么自然了。语言交流中可以随时插话，可以实时翻译，可以改变语调，可以表达情绪，可以察言观色，可以观察场景，所有这些，就像人与人面对面交流一样。

此外，还有实时翻译，它还帮你看代码，教你学外语，给你讲故事......它不正是每个人所需要的助理吗？

甚至机器与机器之间也可以互相交流，一部手机向另外一部手机描述它观察到的人物与环境，还有发生的事情。

这一切不是科幻小说，而是科幻电影中的机器人Her和Jarvis正在变成现实。

GPT-4o的这些魔法，准确描述应该是实时跨音频、视觉和文本的推理（reason across audio， vision， and text in real time）。输入文本、声音和视觉的组合，输出也是它们的组合，而且这个端到端的过程，由同一个神经网络训练处理。

OpenAI一如既往地没有公布技术细节，它只是承认，这是其首个把多种模态的模型整合到一起的模型，还存在着不少局限性和麻烦事。它并没有立即推出语音功能。实际上，OpenAI曾经于3月底时非常低调地发布了强大的语音模拟和生成技术：Voice Engine。直到今天，它都只是请用户预听，而不敢发布，毕竟太容易用来造假了。

这次OpenAI同样非常谨慎。在惊艳的演示之后，它称这次只推出文本与图像功能，而不会推出语音功能。之后几周只让“值得信任的”少数人试用。之前很多公司推出的产品演示存在猫腻，这次OpenAI的小哥一坐下，就拿起手机上的线缆，解释这是为了更稳定的网络连接（consistent internet）。

这更像是OpenAI借演示多模态功能而精心策划的一场营销活动。它想传递三个重要信息：多模态，更有效率的推理，与苹果的合作。

其实，后两个信息，实际意义更加重要。

OpenAI宣布，它除了是一家研究公司之外，开始把重心放到大模型的实际用途。OpenAI过去的一年用户数量停滞不前，ChatGPT体验没有明显改善，导致其用户留存率不高。最重要的原因是推理的成本太高，速度太慢。

这次OpenAI说，过去的两年，倾注了很多努力，提升大模型的效率。这体现在GPT-4o的推理能力有明显的提升，速度快了，价格也下降了。它比GPT-4快4倍，便宜两倍——这是对英语，而其他50种语言，由于分词器（tokenizer）技术的改进，速度加上价格最高可能提升9倍。

与苹果公司的合作，也是一个重要考虑，甚至可能是最重要的考虑。苹果与OpenAI的合作，谈判已经进入最后阶段，苹果即将于6月初举办的WWDC大会上宣布其AI战略，用户最关心之一是Siri是不是会变得更加聪明。如果像GPT-4o这样，它就真的像个助理了。

OpenAI即将揭开其在端侧设备的部署，它首选了PC。这次展示了ChatGPT集成到macOS上，它可以实时共享PC屏幕，可以把正在进行的工作流，拿到ChatGPT那里处理，有了GPT-4o的加持。以后码农可以动动嘴就可以听到对代码的解析了。

苹果+OpenAI，对于微软Copilot和谷歌向设备端的部署，造成了极大的压力。苹果在芯片、操作系统和设备一体化集成OpenAI的技术，可能会创造出真正的AI用户体验。这可能是一个比微软Copilot更好的体验，macOS和Windows是一对冤家，可能要争着尝鲜新出炉的GPT-4o了。

从这一点来说，OpenAI与苹果的合作，将会极大加快大模型向个人设备的部署，也成为今年大模型最大的应用场景。

OpenAI只是先推出了文本与图片功能，除了担心语音功能可能并不完善，也动了点心思，想看下谷歌I/O的演示之后再说。

OpenAI选择发布的时机非常讲究。预计与谷歌发布的是几乎同一种产品，OpenAI抢的时间点，正是谷歌I/O大会前一天。它首先要看谷歌明天放出来的产品是什么样子的，然后决定后面GPT-4o产品功能释放的节奏。

谷歌较早就发布了关于统一多模态的模型框架，还最先推出了真正的多模态大模型Gemini。谷歌搜索和地图，识别和感知的场景数据，应该比OpenAI的更加丰富。而且谷歌已经推出了视觉搜索产品，如与三星手机合作推出的Circle and Search。

这是一种交互泛化的新境界，它与自然语言、语音、视觉、情绪、3D等相对单一的功能相比，能把所有这些统一到一个大模型中，说明它具备了超越模态的泛化能力。

统一多模态大模型，标志着人类与机器之间的交互，在从自然语言交互之后，向着自然交互跨越。

谷歌明天的发布，也非常值得期待。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

OpenAI发布GPT-4o，“秀肌肉”给谁看？

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜