2024-12-24

AI 破壳儿 AI 应用及行业观察

详细笔记：OpenAI 发布会上的关键信息（下）

主理人：

AI破壳儿

本文篇幅较长，读完预计需要 20 分钟，建议先收藏再细读。

OpenAI 连开 12 场的发布会“马拉松”终于结束了。

接着上次的笔记，本文继续分享后半程（第 7-12 天）发布会的观影笔记。

本文旨在客观记录，未添加个人观点，类似于“会议纪要”。如果没时间观看视频，可以把这篇文章作为平替。

本文来自微信公众号：AI 破壳儿，原文标题：《详细笔记：OpenAI 发布会上的关键信息（下）》

第七天

✅ 重点：Projects（项目）功能上线，资料、对话可自定义整合。

这一功能类似于智能文件夹，允许用户自主创建新项目，将相关的对话、文件和指令整合在一起，以便于管理不同的任务和主题。

用户可以为每个项目上传相关文件（例如文档、表格）并设定特定的指令，使 ChatGPT 的回复更贴合项目主题。

“项目”可以作为智能文件夹来组织和管理相关的对话。用户可以将现有对话添加到项目，也在项目内开启新的对话。

同时，“项目”功能还能和 ChatGPT 的现有功能，如搜索、画布（Canvas）无缝衔接。

发布会上还举了三个使用“项目”功能的具体例子，这里我们挑两个详细记录：

演示案例一：AI 家电管家。

用户把家用电器的说明书、维修记录等全部上传到一个“项目”中，日常就可以在这个项目下跟 ChatGPT 对话，比如可以问“是否需要更换冰箱滤水器”等问题，AI 就可以准确回答，还能根据说明书提供更换滤水器的详细步骤。该功能将文档和对话结合，帮助用户高效管理家庭事务。

演示案例二：网站开发 Copilot。

用户想迭代个人网站，他找到了一个喜欢的 Astro 模板（一种不太常见的模板格式），并在 ChatGPT 中创建了一个新项目，还给这个项目上传了简历、社交链接、评价、模板规范和基础代码文件（baseline.astro），并添加了自定义指令。

然后，他在项目中使用画布功能，要求 ChatGPT 根据需求修改网站代码；紧接着又要求 ChatGPT 检索更多内容并添加到模板；最后，用户对网站的部分内容提出了修订需求，于是 ChatGPT 继续在画布中迭代代码。用户只需要不断将代码进行复制和网页预览即可。

整个过程充分利用了“项目”的文件管理、个性化指令、功能协同（Canvas、搜索）和迭代开发的特点，使得用户能够高效地改进网站，同时在一个项目下将所有文件和对话集中管理，使开发流程井然有序。

最后需要注意的是，“项目”功能首先向Plus、Pro和团队用户推出。因此，免费用户目前还无法使用。

第八天

✅ 重点：搜索功能开放免费使用，信息源和地图索引更方便。

ChatGPT 的搜索功能不再局限于付费用户，现在所有用户都可以免费使用。

搜索结果的呈现也更加直观，包括丰富的视觉图像、列表和来源链接，让用户能够直接查看原始信息。

移动端的体验经过优化，尤其是地图显示的改进，让用户能够轻松找到附近的商家信息。

Plus 用户还能通过高级语音模式，进行“边说边搜”，更加自然方便。

第九天

✅ 重点一：o1 模型 API 正式版推出。

在 API 发布的同时，o1 还增加了多个面向开发者的核心能力。包括：

1. 函数调用：允许模型与你的后端 API 交互，获取并处理外部数据，从而扩展模型的能力。

2. 结构化输出：指定模型输出的 JSON 格式，方便你直接提取和使用数据，无需额外解析。

3. 开发者消息：通过自定义指令来控制模型的行为，引导模型按照你的预期方式进行响应。

4. 推理强度控制：调节模型思考的时间和计算资源，让你在简单问题上节省时间和成本，在复杂问题上获得更精确的答案。

5. 视觉输入：允许模型处理图像信息，例如分析表格中的数据，识别图片中的内容。

✅ 重点二：支持 WebRTC，实时语音应用开发更便捷。

WebRTC 是一组功能强大的标准接口，用于构建实时应用程序。OpenAI Realtime API 支持通过 WebRTC 对等连接连接到实时模型。

这样，开发者可以更方便地用 AI 模型来构建实时语音交互应用。可能的场景包括：

1. 构建类 ChatGPT 的高级语音模式，开发者可以构建自己的 AI 助手，具备实时语音交互能力。

2. 集成到可穿戴设备，如眼镜等，实现口语表达捕捉，通过上下文提供实时交互功能。

3. 集成到智能家居设备，如智能玩具，实现语音控制和对话交互。

⬇️ 下面是 OpenAI 发布会现场接入实时 API 后，一群人和毛绒玩具进行对话互动的场面：

OpenAI 在发布 WebRTC 支持的同时，也降低了实时 API 的成本，GPT-4o 音频 tokens 的价格降低了 60%。这使得更多的开发者能够经济地使用这项技术。

✅ 重点三：推出适用于 GPT-4 模型的 Preference Fine-tuning（偏好微调），让 AI 更好地理解用户的主观期望。

在传统的监督微调中，开发者需要提供模型的精确输入和输出对，即“标准答案”。

而在偏好微调中，开发者则需要提供一组针对用户问题的两个回复，并指出其中哪个响应更符合期望。模型会学习哪些因素导致了用户更喜欢某个响应，并据此调整其参数，而不是简单地模仿给定的输出。

如果看过发布会的前半程，可能你还记得 OpenAI 曾提到一个“强化微调”的概念。

需要注意的是，“强化微调”跟“偏好微调”在很多方面都截然不同。同时，前者适用于 o1 模型，后者适用于 GPT-4 模型。可以直接看一下 ChatGPT 的总结对比：

第十天

✅ 重点一：美国用户可直接打电话给 ChatGPT，每月免费通话 15 分钟。

ChatGPT 进一步走进用户的联络设备。

在美国，用户可以拨打 1-800-CHATGPT 直接与 ChatGPT 进行电话聊天，每月有 15 分钟的免费通话时间，注册应用可以获得更长通话时间。即使是老式翻盖手机或电话座机也可以。☎️

✅ 重点二：全球用户均可通过 WhatsApp 与 ChatGPT 对话，无需注册。

在全球范围内，用户可以通过 WhatsApp 发送消息与 ChatGPT 对话，无需注册账户即可使用，通过扫描下图中的二维码快速进入对话。

发布会现场演示的场景包括旅行时查询景点、学习外语、获取食谱等。

第十一天

这一场主要围绕着增强 ChatGPT 的 Mac 端应用能力，使 ChatGPT 更加有助于个人工作提效。

✅ 重点一：Work with Apps（与 App 协同工作）功能上线，与 Mac 上的其他应用无缝协同。

Work with Apps 的核心目标是打破 ChatGPT 与其他 App 之间的信息壁垒，让 AI 直接参与到工作流程中：

1. 代码编辑：直接读取代码编辑器（如 Xcode、VS Code）的内容，不再需要繁琐的复制粘贴，辅助代码编写、调试和优化，化身专属编程拍档。

2. 文档处理：读取文档编辑器（如 Apple Notes、Notion、Quip）中的内容，帮助用户润色文字、整理思路、甚至提供写作灵感，告别写作瓶颈。

3. 数据分析：读取终端应用（如 Terminal、iTerm、Warp）中的数据，帮用户提取关键信息、生成图表，进行数据分析。

4. 语音交互：结合高级语音模式，实现更自然流畅的人机交互，可以用语音指令直接与用户的文档或代码进行互动，效率翻倍。

下面用一个现场演示案例，来说明 Work with Apps 的效果：

用户正在使用 Notion 撰写一份旧金山步行导览稿，主要内容是介绍旧金山历史人物“诺顿皇帝”。他希望 AI 能够基于自己整理的要点进行扩充，并且保持一定的写作风格。

用户首先打开了 Notion 和 ChatGPT 的桌面应用程序。然后，他使用快捷键唤出 ChatGPT 聊天窗口。他注意到在聊天窗口的上方出现了一个横幅，显示 ChatGPT 已经与 Notion 成功配对，进行协同工作。

于是，他在 Notion 中选中了关于“诺顿皇帝”的部分内容，然后在聊天窗口中输入了简单的指令：“补充这些谈话要点”。

为了确保信息的准确性，他开启了搜索功能。这使得 ChatGPT 在回答问题时会搜索网络，并将找到的信息来源引用出来。

但是，他发现 ChatGPT 提供的文字风格比较正式，不符合其他导览稿的风格，于是他又关闭了搜索功能，并要求 ChatGPT“使其匹配导览稿其余部分的风格，并保持在两段之内”。

需要注意的是，这个功能目前是 Beta 版，只有少数 App支持与 ChatGPT 配对。⬇️

✅ 重点二：全新的快捷方式，协同工作一键启动。

Mac 端支持新的快捷方式：Option + Shift + 1。可以快速启动 ChatGPT，并自动与最上层的应用配对。

第十二天

这是最后一场发布会，OpenAI 抛出了最新的模型 o3 和 o3 mini。本次是预演，正式发布时间预计是下个月。

✅ 重点一：最强的 o3 系列模型亮相。

o3模型在多个技术基准测试中表现优异，包括代码编写、高精尖数学和推理测试，下面这些成绩可以直观感受 o3 的实力：

1. 在代码测试 SWE-bench中，准确率高达71.7%；

2. 在数学竞赛 AMC 中，准确率达到了96.7%；

3. Epic AI 是当前最难的数学基准测试，由全新、未公开且极具挑战性的问题组成，即使是数学家也需要花费数小时甚至数天才能解决。其他 AI 模型的准确率基本不会超过 2%，但是 OpenAI o3 取得了超过 25% 的成绩。

4. ARC-AGI 测试是一个旨在评估人工智能模型推理能力的基准测试。它不依赖于模型已有的知识储备，而是通过一系列需要全新学习和解决的难题来考察模型的快速学习和推理能力。在 ARC-AGI 测试中，o3 不仅超过 Claude 3.5 Sonnet 和 Gemini 1.5，甚至超过了人类的平均水平。