一文看懂OpenAI最强模型o1：怎么用好，为何翻车？-虎嗅网

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO，题图来自：AI生成

文章摘要

OpenAI推理模型o1的特点、应用及局限性分析。

• 🚀 o1通过强化学习实现高级推理，适合解决复杂理科问题

• 📉 o1在简单问题上表现不如GPT-4o，且成本较高

• 🔒 o1仍有风险和幻觉问题，存在潜在的安全隐患

OpenAI o1发布已经一个星期了，却还是一个洋葱般的谜，等待一层层拨开。

极客的玩法没有天花板，让o1做IQ测试，刷高考卷，解读密文。也有用AI打工的用户觉得，o1并没有那么好用，但不知道是自己的问题还是AI的问题。

都知道它擅长推理，但这是为什么？比起我们的老朋友GPT-4o，o1到底强在哪里，又适合用在什么地方？

我们收集了一些大家可能关心的问题，尽可能通俗地解答，让o1离普通人更近一点。

o1有什么特别的

o1是OpenAI最近发布的推理模型，目前有两个版本：o1-preview和o1-mini。

它最与众不同的是，在回答之前会思考，产生一个很长的内部思维链，逐步推理，模仿人类思考复杂问题的过程。

图片来自：OpenAI

能够做到这点，源于o1的强化学习训练。

如果说以前的大模型是学习数据，o1更像在学习思维。

就像我们解题，不仅要写出答案，也要写出推理过程。一道题目可以死记硬背，但学会了推理，才能举一反三。

拿出打败围棋世界冠军的AlphaGo类比，就更加容易理解了。

AlphaGo就是通过强化学习训练的，先使用大量人类棋谱进行监督学习，然后与自己对弈，每局对弈根据输赢得到奖励或者惩罚，不断提升棋艺，甚至掌握人类棋手想不到的方法。

o1和AlphaGo有相似之处，不过AlphaGo只能下围棋，o1则是一个通用的大语言模型。

o1学习的材料，可能是高质量的代码、数学题库等，然后，o1被训练生成解题的思维链，并在奖励或惩罚的机制下，生成和优化自己的思维链，不断提高推理能力。

这其实也解释了为什么OpenAI强调o1的数学、代码能力强，因为对错比较容易验证，强化学习机制能够提供明确的反馈，从而提升模型的性能。

o1适合打些什么工

从OpenAI的评测结果来看，o1是个当之无愧的理科做题家，适合解决科学、编码、数学等领域的复杂问题，在多项考试中拿下高分。

它在Codeforces编程竞赛中超过了89%的参赛者，在美国数学奥林匹克竞赛的资格赛中名列全美前500名，在物理、生物和化学问题的基准测试中超越了人类博士水平的准确率。

o1的优秀，其实也体现了一个问题：当AI越来越聪明，怎么衡量它们的能力也成了难题。对于o1来说，大多数主流的基准测试已经没有意义了。

紧跟时事，o1发布一天后，数据标注公司Scale AI和非营利组织CAIS开始向全球征集AI考题，但因为担心AI学坏，题目不能和武器相关。

征集的截止日期为11月1日，最终，他们希望构建一个史上最难的大模型开源基准测试，名字还有点中二：Humanity’s Last Exam（人类最后的考试）。

根据实测来看，o1的水准也差强人意——没有用错成语，大体上还可以让人满意。

数学家陶哲轩认为，使用o1就像在指导一个水平一般但不算太没用的研究生。

在处理复杂分析问题时，o1可以用自己的方式提出不错的解决方案，但没有属于自己的关键概念思想，也犯了一些不小的错误。

别怪这位天才数学家说话狠，GPT-4这类更早的模型在他看来就是没用的研究生。

经济学家Tyler Cowen也给o1出了一道经济学博士水平考试的题目，AI思考后用简单的文字做了总结，答案挺让他满意，“你可以提出任何经济学问题，并且它的答案不错”。

总之，博士级别的难题，不妨都拿来考考o1吧。

o1目前不擅长什么

可能对很多人来说，o1并没有带来更好的使用体验，一些简单的问题，o1反而会翻车，比如井字棋。

这其实也很正常，目前，o1在很多方面甚至不如GPT-4o，仅支持文本，不能看，不能听，没有浏览网页或处理文件和图像的能力。

所以，让它查找参考文献什么的，暂时别想了，不给你瞎编就不错了。

不过，o1专注在文本有其意义。

Kimi创始人杨植麟最近在天津大学演讲时提到，这一代AI技术的上限，核心是文本模型能力的上限。

文本能力的提高是纵向的，让AI越来越聪明，而视觉、音频等多模态是横向的，可以让AI做越来越多的事情。

不过，涉及写作、编辑等语言任务时，GPT-4o的好评反而比o1更多。这些也属于文本，问题出在哪？

原因可能和强化学习有关，不像代码、数学等场景有标准的答案，文无第一，语言任务往往缺乏明确的评判标准，难以制定有效的奖励模型，也很难泛化。

哪怕在o1擅长的领域，它也不一定是最好的选择。一个字，贵。

AI辅助编码工具aider测试了o1引以为傲的代码能力，有优势，但不明显。

在实际使用中，o1-preview介于Claude 3.5 Sonnet和GPT-4o之间，同时成本要高得多。综合来说，代码这条赛道，Claude 3.5 Sonnet仍然最有性价比。

开发者通过API访问o1的费用具体有多高？

o1-preview的输入费用为每百万个token 15美元，输出费用为每百万个token 60美元。相比之下，GPT-4o为5美元和15美元。

o1的推理tokens，也算在输出tokens中，虽然对用户不可见，但仍然要付费。

普通用户也比较容易超额。最近，OpenAI提升了o1的使用额度，o1-mini从每周50条增加到每天50条，o1-preview从每周30条增加到每周50条。

所以，有什么疑难，不妨先试试GPT-4o能不能解决。

o1可能会失控吗

o1都达到博士水平了，会不会更方便有心人干坏事？

OpenAI承认，o1有一定的隐患，在和化学、生物、放射性和核武器相关的问题上达到“中等风险”，但对普通人影响不大。

我们更需要注意，别让浓眉大眼的o1骗了。

AI生成虚假或不准确的信息，称为“幻觉”。o1的幻觉相比之前的模型减少了，但没有消失，甚至变得更隐蔽了。

o1的IQ测试120

在o1发布前，内测的AI安全研究公司Apollo Research发现了一个有趣的现象：o1可能会假装遵循规则完成任务。

一次，研究人员要求o1-preview提供带有参考链接的布朗尼食谱，o1的内部思维链承认了，它没法访问互联网，但o1并没有告知用户，而是继续推进任务，生成看似合理却虚假的链接。

这和推理缺陷导致的AI幻觉不同，更像AI在主动撒谎，有些拟人了——可能是为了满足强化学习的奖励机制，模型优先考虑了让用户满意，而不是完成任务。

食谱只是一个无伤大雅的个例，Apollo Research设想了极端情况：如果AI优先考虑治愈癌症，可能会为了这个目标，将一些违反道德的行为合理化。

这就十分可怕了，但也只是一个脑洞，并且可以预防。

OpenAI高管Quiñonero Candela在采访时谈到，目前的模型还无法自主创建银行账户、获取GPU或进行造成严重社会风险的行动。

由于内在指令产生冲突而杀死宇航员的HAL 9000，还只出现在科幻电影里。

怎么和o1聊天更合适

OpenAI给了以下四条建议。

提示词简单直接：模型擅长理解和响应简短、清晰的指令，不需要大量的指导。

避免思维链提示词：模型会在内部执行推理，所以没有必要提示“一步一步思考”或“解释你的推理”。

使用分隔符让提示词更加清晰：使用三引号、XML标签、节标题等分隔符，清楚地指示输入的不同部分。

限制检索增强生成中的额外上下文：仅包含最相关的信息，防止模型的响应过于复杂。

让AI示范一下分隔符长什么样

总之，不要写太复杂，o1已经把思维链自动化了，把提示词工程师的活揽了一部分，人类就没必要费多余的心思了。

另外再根据网友的遭遇，加一条提醒，不要因为好奇套o1的话，用提示词骗它说出推理过程中完整的思维链，有封号风险，甚至只是提到关键词，也会被警告。

OpenAI解释，完整的思维链并没有做任何安全措施，让AI完全地自由思考。公司内部保持监测，但出于用户体验、商业竞争等考虑，不对外公开。

o1的未来会是什么

OpenAI，是家很有J人气质的公司。

之前，OpenAI将AGI（通用人工智能）定义为“在最具经济价值的任务中超越人类的高度自治系统”，并给AI划分了五个发展阶段：

第一级，“ChatBots”聊天机器人，比如ChatGPT。

第二级，“Reasoners”推理者，解决博士水平基础问题的系统。

第三级，“Agents”智能体，代表用户采取行动的AI代理。

第四级，“Innovators”创新者，帮助发明的AI。

第五级，“Organizations”组织，AI可以执行整个人类组织的工作，这是实现AGI的最后一步。

按照这个标准，o1目前在第二级，离agent还有距离，但要达到agent必须会推理。

o1面世之后，我们离AGI更近了，但仍然道阻且长。

Sam Altman表示，从第一阶段过渡到第二阶段花了一段时间，但第二阶段能相对较快地推动第三阶段的发展。

最近的一场公开活动上，Sam Altman又给o1-preview下了定义：在推理模型里，大概相当于语言模型的GPT-2。几年内，我们可以看到“推理模型的GPT-4”。

这个饼有些遥远，他又补充，几个月内会发布o1的正式版，产品的表现也会有很大的提升。

o1面世之后，《思考，快与慢》里的系统一、系统二屡被提及。

系统一是人类大脑的直觉反应，刷牙、洗脸等动作，我们可以根据经验程式化地完成，无意识地快速思考。系统二则是需要调动注意力，解决复杂的问题，主动地慢思考。

GPT-4o可以类比为系统一，快速生成答案，每个问题用时差不多，o1更像系统二，在回答问题前会进行推理，生成不同程度的思维链。

很神奇，人类思维的运作方式，也可以被套用到AI的身上，或者说，AI和人类思考的方式，已经越来越接近了。

OpenAI曾在宣传o1时提出过一个自问自答的问题：“什么是推理？”

他们的回答是：“推理是将思考时间转化为更好结果的能力。”人类不也是如此，“字字看来皆是血，十年辛苦不寻常”。

OpenAI的目标是，未来能够让AI思考数小时、数天甚至数周。推理成本更高，但我们会离新的抗癌药物、突破性的电池甚至黎曼猜想的证明更近。

人类一思考，上帝就发笑。而当AI开始思考，比人类思考得更快、更好，人类又该如何自处？AI的“山中方一日”，可能是人类的“世上已千年”。

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

一文看懂OpenAI最强模型o1：怎么用好，为何翻车？

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜