深夜发布
GPT-4o 的强大在于,可以接受任何文本、音频和图像的组合作为输入,并直接生成上述这几种媒介输出。 这意味着人机交互将更接近人与人的自然交流。包罗万象的O
比起此前要么是图文模式要么是语音模式的GPT-4,它更擅长打组合拳,可以接受文字、音频、图像的任意组合输入,然后无缝衔接图文音频的多种形式输出。遥遥领先
GPT-4o的响应音频输入的最短时长为232毫秒,几乎与人类相似,没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒(GPT-4)。更像人了
在交流过程中,ChatGPT不再等待若干秒才响应,而是实时回复,还能被随时打断。OpenAI的CEO山姆·奥特曼(Sam Altman)将之称为“人类级别的响应”。“AI助理”
苹果或将在 iOS 18 中引入由 ChatGPT 提供支持的“聊天机器人”,这将对苹果的个人语音助理 Siri 带来颠覆性影响。从惊艳到失落
GPT-4o 在理解视频时都只是通过部分图像来“断章取义”,但视频中另一重要组成“声音”却未被利用起来。产品焦虑
彼时,OpenAI对自己的定位是一家为开发人员和企业构建工具的公司,因此,OpenAI要面临的核心挑战,是ChatGPT的使用门槛是否足够低,以至于能让完全不懂技术的人用起来。联手苹果?
这更像是OpenAI借演示多模态功能而精心策划的一场营销活动。它想传递三个重要信息:多模态,更有效率的推理,与苹果的合作。- 我也是有底线的
已有10个评论,等待你的发声
打开虎嗅APP
从思考到创造