免费！GPT-4o正式发布-虎嗅网

深夜发布
GPT-4o 的强大在于，可以接受任何文本、音频和图像的组合作为输入，并直接生成上述这几种媒介输出。这意味着人机交互将更接近人与人的自然交流。
包罗万象的O
比起此前要么是图文模式要么是语音模式的GPT-4，它更擅长打组合拳，可以接受文字、音频、图像的任意组合输入，然后无缝衔接图文音频的多种形式输出。
遥遥领先
GPT-4o的响应音频输入的最短时长为232毫秒，几乎与人类相似，没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒（GPT-4)。
更像人了
在交流过程中，ChatGPT不再等待若干秒才响应，而是实时回复，还能被随时打断。OpenAI的CEO山姆·奥特曼（Sam Altman）将之称为“人类级别的响应”。
“AI助理”
苹果或将在 iOS 18 中引入由 ChatGPT 提供支持的“聊天机器人”，这将对苹果的个人语音助理 Siri 带来颠覆性影响。
从惊艳到失落
GPT-4o 在理解视频时都只是通过部分图像来“断章取义”，但视频中另一重要组成“声音”却未被利用起来。
产品焦虑
彼时，OpenAI对自己的定位是一家为开发人员和企业构建工具的公司，因此，OpenAI要面临的核心挑战，是ChatGPT的使用门槛是否足够低，以至于能让完全不懂技术的人用起来。
联手苹果？
这更像是OpenAI借演示多模态功能而精心策划的一场营销活动。它想传递三个重要信息：多模态，更有效率的推理，与苹果的合作。
我也是有底线的

已有10个评论，等待你的发声打开虎嗅APP