OpenAI 的绝密项目“草莓”，对我们到底意味着什么？-虎嗅网

本文来自微信公众号：APPSO （ID：appsolution），作者：Selina，头图来自：视觉中国

凭借一颗“草莓”，OpenAI 在周末抢下不少版面，成了一件不算新鲜的新鲜事。

新鲜体现在，这是一个高级别的保密项目，目标是“自主浏览互联网，执行深度研究”，不过，路透社没能挖到更多技术细节，只提到采取了“后训练”的方式——这就不算新鲜了。

两个月前，OpenAI创始人之一John Schulman在播客Dwarkensh上，就表示过，GPT-4的进步，很大程度上要归功于后训练技术。

“通过后训练，去创造一个能够具备人们所关心的功能的模型，是非常复杂的”John Schulman说，“这需要大量的投入，是大量研发工作的积累，在一定程度上就形成了壁垒。”

如果“Strawberry”的确是OpenAI的重点项目，那么可以想见，GPT-4的确让他们尝到了甜头。而厚实的家底又给了OpenAI底气，进一步加高技术壁垒。

沿着一条已经略有成果的技术路线，继续迭代，并不新鲜，到底为什么又成了大新闻呢？

一层一层，切开“草莓”

“Strawberry”的前身是“Q*”，一个在去年年底，就引起过轩然大波的神秘存在。

去年十一月，Sam Altman毫无征兆地被踢出了董事会，他自己甚至是在会议当时被通知的，震惊了全公司，也震惊了行业上下。

董事会当时给出的理由是，他和团队在安全和风险管理方面，无法达成一致。而这个风险，就跟当时的绝密项目“Q*”有关。

这个项目原先由Ilya Sutskever带领，现在他已经离开OpenAI创业，做的就是AI安全相关的业务。再联想到，马斯克曾经表示，这个项目“对人类构成了威胁”，很难不让人好奇这里头究竟有什么。

The Information和路透社想办法获得内部消息，最后也只能确认，数学运算能力是“Q*”的重点。

大模型擅“文”，能娴熟地处理语言文字，已经基本上跟人类打个平手了。但是数学运算却一直不太行。即便“Q*”曾经引发OpenAI的巨变，据路透社透露，当时它的表现大概是小学生的计算水平。

根据最新爆出的信息，OpenAI内部已经有项目能在数学运算方面，达到90%的准确，进步惊人。

强调一下：现在无法确认“Strawberry”究竟做到哪一步了。只能说，如果“Strawberry”作为“Q*”的升级版，大概率，它是一个继续在数学和计算方面寻求突破的项目。

“数学计算”和“推理”之间的关系，并不能直接划等号，但却透露着OpenAI的野心。

老说推理，究竟在说什么

那么，“推理”到底是什么？

这两个字在现实里，显然有着非常广阔的定义。今年年初，香港中文大学领衔的团队做过一个基于模型推理能力的全面整理。“推理”最根本的定义有三重：

认知推理：在不完整、不一致的知识中，得出有意义结论的能力。

这种推理最常见的是拼拼图，每一个小片都是巨大图画里的一角，随便就抓两片，肯定是对不上的。

你只能举着这些小碎片，拼拼凑凑，慢慢组成一幅完成的图。这个过程中，没有说明书和步骤图，经常是要凭手感、凭直觉。

逻辑推理：根据前提，以及这些前提间的关系，有条理地得出结论，且结论在逻辑上有隐含关系或成立。

数学解题就是典型逻辑推理，有已知条件，有待求的问题，根据这些，你就能一步步推算出结果。逻辑推理是目前大模型研发里“最硬的一块骨头”。

自然语言推理：这是一个整合多种知识的过程，可以是显性知识或者隐性知识，从而得出对于世界的新结论。

喜欢看探案故事、推理小说的朋友，应该很容易理解。这种推理，就像是碰上了一桩凶杀案故事，书里隐隐约约有一些暗示，一些不太明确的信息，必须结合各种不同的线索，推测出谁是凶手，犯罪过程是什么。

如果只是看路透社所获得的OpenAI内部文件，“Strawberry”的目标是，规划、访问互联网，以及执行深度研究。

这些看上去都更像是最后一种自然语言推理，无非是更强化了一下，算不算得上是推理能力的进步都不好说。

可是，OpenAI对于“推理”并不那么拘泥，而是有一套更宏大的愿景。

John Schulman心中，对“推理”的定义是这样的：

“推理意味着需要一些计算，或者是需要一些演绎。从这个定义来看，要能够在处理任务的当时进行计算和逐步计算。”

可以看到，在他的定义里，推理和计算行为高度绑定，而且希望机器的推理是实时进行——就像人类一样，接收信息的同时，就能做分析、判读。

但是，一个人即便数学不好，也不妨碍ta有逻辑地想事情，照样能完成各种类型的推理。为什么机器的数学能力，就如此重要？

可以这样理解：数学从来都不只是做运算，它本身也是一种对信息的表达方式。

数学是一种更依赖于符号形式和意义精确性的语言，1就是1，0就是0。

当使用计算符号和算式，去呈现信息时，其实比自然语言更低维。

换句话说，大模型之所以“能文”，就是建立在“会算”的基础上，将自然语言转换成了计算机语言。

这一点，早在19世界，就已经被历史最重要的数学家之一，乔治·布尔（就是创造了布尔变量的那个布尔），奠定了基础。

布尔是一个有虔诚宗教信仰的人，他甚至想通过数学推理，来解释上帝的存在。

先不管他最后的结论是什么吧，他最终留给世界的财富，也就是《思维规律的探究》一书里，开篇便阐释了他宏大的目标：用微积分的符号语言，来表达推理这一思维活动的基本规律。

这也解释了为什么，一旦谈及AI在数学运算上的表现，人们期待的眼光里就多了几分紧张：

攻破了数学语言，或许真的就离破解思维活动不远了。

AI推理，怎么就了不起？

现在距离AI理解思维活动，到底有多近？

这次路透社认为，“Strawberry”的理论先驱，应该是两年前，斯坦福大学团队发表的STaR技术。

STaR的开发者之一、斯坦福大学教授Noah Goodman接受路透社采访，表示他跟“Strawberry”没关系，但如果真的追平人类的推理能力，那是让人既兴奋、又恐惧的事。

STaR的特点是：具备特定条件下的推理能力。先拿一个已经训练过的模型，再准备一个小的数据集（里面包括推理步骤），喂进去训练。

有了这些，再让模型去生成解决问题的推理过程。如果出来是正确的、符合答案的，那么这次推理就判定为有效。

接着不断微调不断微调，不断让它自我学习。最后测试的结果是，这样的方式的确能够提升模型在数学运算方面的表现。

换句话说，特定条件和训练方式下，的确可以让模型效仿推理过程，从而实现具备一定的推理能力。

这样辛苦地挖掘和塑造AI的推理能力，对日常使用而言有什么意义？

路透社的线人说，OpenAI特别希望能够达成“CUA”，computer-using agent。模型能够根据文档和其他材料提供的信息，自主采取行动。

而这是OpenAI所提出的“五阶评级”中的第三阶：代行者，能够采取行动的系统。

现在的对话chatbot只是第一阶，“Strawberry”据称已经接近第二阶。

可以想见，推理能力是第三阶段的必要前提。只有具备了推理能力，通过各种信息，推演出用户意图，才有可能丝滑地完成服务调度，采取行动。

在APPSO之前的报道中，我们就提到了AI不应该只作为一种服务，而是要能糅合进操作系统里，共同存在。这恰恰也是来自于OpenAI创始人之一，Andrej Karpathy的设想。

这就是AI推理能力备受瞩目的原因之一，只要你拥有一台智能手机，就不妨畅想一种可能的未来，“AI作为智能手机新的操作系统，而大模型就是智能操作系统的核心”

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

OpenAI 的绝密项目“草莓”，对我们到底意味着什么？

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜