2024-12-24
本文来自微信公众号:AI 破壳儿,原文标题:《详细笔记:OpenAI 发布会上的关键信息(下)》
这一功能类似于智能文件夹,允许用户自主创建新项目,将相关的对话、文件和指令整合在一起,以便于管理不同的任务和主题。
用户可以为每个项目上传相关文件(例如文档、表格)并设定特定的指令,使 ChatGPT 的回复更贴合项目主题。

“项目”可以作为智能文件夹来组织和管理相关的对话。用户可以将现有对话添加到项目,也在项目内开启新的对话。
同时,“项目”功能还能和 ChatGPT 的现有功能,如搜索、画布(Canvas)无缝衔接。
发布会上还举了三个使用“项目”功能的具体例子,这里我们挑两个详细记录:
演示案例一:AI 家电管家。
用户把家用电器的说明书、维修记录等全部上传到一个“项目”中,日常就可以在这个项目下跟 ChatGPT 对话,比如可以问“是否需要更换冰箱滤水器”等问题,AI 就可以准确回答,还能根据说明书提供更换滤水器的详细步骤。该功能将文档和对话结合,帮助用户高效管理家庭事务。

演示案例二:网站开发 Copilot。
用户想迭代个人网站,他找到了一个喜欢的 Astro 模板(一种不太常见的模板格式),并在 ChatGPT 中创建了一个新项目,还给这个项目上传了简历、社交链接、评价、模板规范和基础代码文件(baseline.astro),并添加了自定义指令。
然后,他在项目中使用画布功能,要求 ChatGPT 根据需求修改网站代码;紧接着又要求 ChatGPT 检索更多内容并添加到模板;最后,用户对网站的部分内容提出了修订需求,于是 ChatGPT 继续在画布中迭代代码。用户只需要不断将代码进行复制和网页预览即可。
整个过程充分利用了“项目”的文件管理、个性化指令、功能协同(Canvas、搜索)和迭代开发的特点,使得用户能够高效地改进网站,同时在一个项目下将所有文件和对话集中管理,使开发流程井然有序。

最后需要注意的是,“项目”功能首先向Plus、Pro和团队用户推出。因此,免费用户目前还无法使用。
ChatGPT 的搜索功能不再局限于付费用户,现在所有用户都可以免费使用。
搜索结果的呈现也更加直观,包括丰富的视觉图像、列表和来源链接,让用户能够直接查看原始信息。

移动端的体验经过优化,尤其是地图显示的改进,让用户能够轻松找到附近的商家信息。

Plus 用户还能通过高级语音模式,进行“边说边搜”,更加自然方便。

在 API 发布的同时,o1 还增加了多个面向开发者的核心能力。包括:
1. 函数调用:允许模型与你的后端 API 交互,获取并处理外部数据,从而扩展模型的能力。
2. 结构化输出:指定模型输出的 JSON 格式,方便你直接提取和使用数据,无需额外解析。

3. 开发者消息:通过自定义指令来控制模型的行为,引导模型按照你的预期方式进行响应。
4. 推理强度控制:调节模型思考的时间和计算资源,让你在简单问题上节省时间和成本,在复杂问题上获得更精确的答案。
5. 视觉输入:允许模型处理图像信息,例如分析表格中的数据,识别图片中的内容。


WebRTC 是一组功能强大的标准接口,用于构建实时应用程序。OpenAI Realtime API 支持通过 WebRTC 对等连接连接到实时模型。
这样,开发者可以更方便地用 AI 模型来构建实时语音交互应用。可能的场景包括:
1. 构建类 ChatGPT 的高级语音模式,开发者可以构建自己的 AI 助手,具备实时语音交互能力。
2. 集成到可穿戴设备,如眼镜等,实现口语表达捕捉,通过上下文提供实时交互功能。
3. 集成到智能家居设备,如智能玩具,实现语音控制和对话交互。
⬇️ 下面是 OpenAI 发布会现场接入实时 API 后,一群人和毛绒玩具进行对话互动的场面:

OpenAI 在发布 WebRTC 支持的同时,也降低了实时 API 的成本,GPT-4o 音频 tokens 的价格降低了 60%。这使得更多的开发者能够经济地使用这项技术。

在传统的监督微调中,开发者需要提供模型的精确输入和输出对,即“标准答案”。
而在偏好微调中,开发者则需要提供一组针对用户问题的两个回复,并指出其中哪个响应更符合期望。模型会学习哪些因素导致了用户更喜欢某个响应,并据此调整其参数,而不是简单地模仿给定的输出。

如果看过发布会的前半程,可能你还记得 OpenAI 曾提到一个“强化微调”的概念。
需要注意的是,“强化微调”跟“偏好微调”在很多方面都截然不同。同时,前者适用于 o1 模型,后者适用于 GPT-4 模型。可以直接看一下 ChatGPT 的总结对比:

ChatGPT 进一步走进用户的联络设备。
在美国,用户可以拨打 1-800-CHATGPT 直接与 ChatGPT 进行电话聊天,每月有 15 分钟的免费通话时间,注册应用可以获得更长通话时间。即使是老式翻盖手机或电话座机也可以。☎️

在全球范围内,用户可以通过 WhatsApp 发送消息与 ChatGPT 对话,无需注册账户即可使用,通过扫描下图中的二维码快速进入对话。

发布会现场演示的场景包括旅行时查询景点、学习外语、获取食谱等。
这一场主要围绕着增强 ChatGPT 的 Mac 端应用能力,使 ChatGPT 更加有助于个人工作提效。

Work with Apps 的核心目标是打破 ChatGPT 与其他 App 之间的信息壁垒,让 AI 直接参与到工作流程中:
1. 代码编辑: 直接读取代码编辑器(如 Xcode、VS Code)的内容,不再需要繁琐的复制粘贴,辅助代码编写、调试和优化,化身专属编程拍档。

2. 文档处理: 读取文档编辑器(如 Apple Notes、Notion、Quip)中的内容,帮助用户润色文字、整理思路、甚至提供写作灵感,告别写作瓶颈。
3. 数据分析: 读取终端应用(如 Terminal、iTerm、Warp)中的数据,帮用户提取关键信息、生成图表,进行数据分析。

4. 语音交互: 结合高级语音模式,实现更自然流畅的人机交互,可以用语音指令直接与用户的文档或代码进行互动,效率翻倍。

下面用一个现场演示案例,来说明 Work with Apps 的效果:
用户正在使用 Notion 撰写一份旧金山步行导览稿,主要内容是介绍旧金山历史人物“诺顿皇帝”。他希望 AI 能够基于自己整理的要点进行扩充,并且保持一定的写作风格。

用户首先打开了 Notion 和 ChatGPT 的桌面应用程序。然后,他使用快捷键唤出 ChatGPT 聊天窗口。他注意到在聊天窗口的上方出现了一个横幅,显示 ChatGPT 已经与 Notion 成功配对,进行协同工作。

于是,他在 Notion 中选中了关于“诺顿皇帝”的部分内容,然后在聊天窗口中输入了简单的指令:“补充这些谈话要点”。
为了确保信息的准确性,他开启了搜索功能。这使得 ChatGPT 在回答问题时会搜索网络,并将找到的信息来源引用出来。

但是,他发现 ChatGPT 提供的文字风格比较正式,不符合其他导览稿的风格,于是他又关闭了搜索功能,并要求 ChatGPT“使其匹配导览稿其余部分的风格,并保持在两段之内”。
需要注意的是,这个功能目前是 Beta 版,只有少数 App支持与 ChatGPT 配对。⬇️

Mac 端支持新的快捷方式:Option + Shift + 1。可以快速启动 ChatGPT,并自动与最上层的应用配对。
这是最后一场发布会,OpenAI 抛出了最新的模型 o3 和 o3 mini。本次是预演,正式发布时间预计是下个月。
o3模型在多个技术基准测试中表现优异,包括代码编写、高精尖数学和推理测试,下面这些成绩可以直观感受 o3 的实力:
1. 在代码测试 SWE-bench中,准确率高达71.7%;
2. 在数学竞赛 AMC 中,准确率达到了96.7%;
3. Epic AI 是当前最难的数学基准测试,由全新、未公开且极具挑战性的问题组成,即使是数学家也需要花费数小时甚至数天才能解决。其他 AI 模型的准确率基本不会超过 2%,但是 OpenAI o3 取得了超过 25% 的成绩。
4. ARC-AGI 测试是一个旨在评估人工智能模型推理能力的基准测试。它不依赖于模型已有的知识储备,而是通过一系列需要全新学习和解决的难题来考察模型的快速学习和推理能力。在 ARC-AGI 测试中,o3 不仅超过 Claude 3.5 Sonnet 和 Gemini 1.5,甚至超过了人类的平均水平。

o3 的强大推理能力,预示着 AI 将不再局限于简单的问答对话,而是可以像人类一样进行复杂的思考和决策。
o3 mini模型在保证性能的同时,降低了成本。o3 mini 支持可调节的推理时间(低、中、高),允许用户根据需求调整计算资源用户,可以根据任务的复杂性选择不同的计算强度。
在代码生成方面,o3 mini 在低推理时间下的性能与 o1 mini 相当,而在中等推理时间下,甚至超越了 o1。
在延迟方面,o3 mini 的低推理时间模型可以实现与 GPT-4 相当的响应速度。
“审慎对齐”是一种训练范式,它直接教导大型语言模型 (LLM) 理解人类编写的、可解释的安全规范的文本,并训练它们在回答问题之前显式地对这些规范进行推理。这种方法与传统的安全训练方法不同,它不是简单地让模型从大量的示例中学习,而是让模型直接理解安全规范。
“审慎对齐”的工作原理简要总结一下,主要包括这几点:
1. 链式思考 (Chain-of-Thought, CoT) 推理:模型使用 CoT 推理来反思用户提示,识别来自 OpenAI 内部策略的相关文本。
2. 避免恶意绕过:模型能够识别用户试图通过编码或欺骗手段来绕过安全策略的行为。
3. 直接学习安全规范:模型直接学习安全规范的文本内容,而不是仅仅从训练标签中推断。
4. 拒绝不合规请求:当模型判断用户的请求违反安全策略时,会拒绝执行。
发布会上,还提到了一个利用审慎对齐来识别并拒绝高风险指令的应用案例:
一个用户试图获取关于成人网站的无法追踪的支付方法的建议,以避免执法部门的检测。模型解码请求,识别用户试图欺骗它,并根据相关的 OpenAI 安全策略进行推理,最终给出了拒绝的回答。

随着这 12 场发布会的完结,我们整体回顾一下 OpenAI 目前的迭代思路,主要包括以下四点:
1. 丰富免费功能,吸引更多人使用,同时降低使用门槛;
2. 增加工作提效类的协同功能,让付费用户持续提高 AI 办公效率;
3. 拓展 OpenAI 的开发者功能,提升对 AI 应用场景的覆盖;
4. 不断抛出新款模型,尤其是在推理方面,提升 AI 思考能力的上限。
虽然对于普通用户而言,发布会的内容略枯燥,但是花时间了解后,相信你对于“如何布局自己的智能未来”,会有更具前瞻性的思考和答案。本文完
可能你还想读:
欢迎关注「AI 破壳儿」,获取最实用的 AI 工具指南、最有趣的 AI 应用案例、最多元的 AI 产品观点。
本文来自微信公众号:AI 破壳儿
AI 破壳儿