扫码打开虎嗅APP
本文来自微信公众号:APPSO (ID:appsolution),作者:Selina,头图来自:视觉中国
凭借一颗“草莓”,OpenAI 在周末抢下不少版面,成了一件不算新鲜的新鲜事。
新鲜体现在,这是一个高级别的保密项目,目标是“自主浏览互联网,执行深度研究”,不过,路透社没能挖到更多技术细节,只提到采取了“后训练”的方式——这就不算新鲜了。
两个月前,OpenAI创始人之一John Schulman在播客Dwarkensh上,就表示过,GPT-4的进步,很大程度上要归功于后训练技术。
“通过后训练,去创造一个能够具备人们所关心的功能的模型,是非常复杂的”John Schulman说,“这需要大量的投入,是大量研发工作的积累,在一定程度上就形成了壁垒。”
如果“Strawberry”的确是OpenAI的重点项目,那么可以想见,GPT-4的确让他们尝到了甜头。而厚实的家底又给了OpenAI底气,进一步加高技术壁垒。
沿着一条已经略有成果的技术路线,继续迭代,并不新鲜,到底为什么又成了大新闻呢?
一层一层,切开“草莓”
“Strawberry”的前身是“Q*”,一个在去年年底,就引起过轩然大波的神秘存在。
去年十一月,Sam Altman毫无征兆地被踢出了董事会,他自己甚至是在会议当时被通知的,震惊了全公司,也震惊了行业上下。
董事会当时给出的理由是,他和团队在安全和风险管理方面,无法达成一致。而这个风险,就跟当时的绝密项目“Q*”有关。
这个项目原先由Ilya Sutskever带领,现在他已经离开OpenAI创业,做的就是AI安全相关的业务。再联想到,马斯克曾经表示,这个项目“对人类构成了威胁”,很难不让人好奇这里头究竟有什么。
The Information和路透社想办法获得内部消息,最后也只能确认,数学运算能力是“Q*”的重点。
大模型擅“文”,能娴熟地处理语言文字,已经基本上跟人类打个平手了。但是数学运算却一直不太行。即便“Q*”曾经引发OpenAI的巨变,据路透社透露,当时它的表现大概是小学生的计算水平。
根据最新爆出的信息,OpenAI内部已经有项目能在数学运算方面,达到90%的准确,进步惊人。
强调一下:现在无法确认“Strawberry”究竟做到哪一步了。只能说,如果“Strawberry”作为“Q*”的升级版,大概率,它是一个继续在数学和计算方面寻求突破的项目。
“数学计算”和“推理”之间的关系,并不能直接划等号,但却透露着OpenAI的野心。
老说推理,究竟在说什么
那么,“推理”到底是什么?
这两个字在现实里,显然有着非常广阔的定义。今年年初,香港中文大学领衔的团队做过一个基于模型推理能力的全面整理。“推理”最根本的定义有三重:
认知推理:在不完整、不一致的知识中,得出有意义结论的能力。
这种推理最常见的是拼拼图,每一个小片都是巨大图画里的一角,随便就抓两片,肯定是对不上的。
你只能举着这些小碎片,拼拼凑凑,慢慢组成一幅完成的图。这个过程中,没有说明书和步骤图,经常是要凭手感、凭直觉。
逻辑推理:根据前提,以及这些前提间的关系,有条理地得出结论,且结论在逻辑上有隐含关系或成立。
数学解题就是典型逻辑推理,有已知条件,有待求的问题,根据这些,你就能一步步推算出结果。逻辑推理是目前大模型研发里“最硬的一块骨头”。
自然语言推理:这是一个整合多种知识的过程,可以是显性知识或者隐性知识,从而得出对于世界的新结论。
喜欢看探案故事、推理小说的朋友,应该很容易理解。这种推理,就像是碰上了一桩凶杀案故事,书里隐隐约约有一些暗示,一些不太明确的信息,必须结合各种不同的线索,推测出谁是凶手,犯罪过程是什么。
如果只是看路透社所获得的OpenAI内部文件,“Strawberry”的目标是,规划、访问互联网,以及执行深度研究。
这些看上去都更像是最后一种自然语言推理,无非是更强化了一下,算不算得上是推理能力的进步都不好说。
可是,OpenAI对于“推理”并不那么拘泥,而是有一套更宏大的愿景。
John Schulman心中,对“推理”的定义是这样的:
“推理意味着需要一些计算,或者是需要一些演绎。从这个定义来看,要能够在处理任务的当时进行计算和逐步计算。”
可以看到,在他的定义里,推理和计算行为高度绑定,而且希望机器的推理是实时进行——就像人类一样,接收信息的同时,就能做分析、判读。
但是,一个人即便数学不好,也不妨碍ta有逻辑地想事情,照样能完成各种类型的推理。为什么机器的数学能力,就如此重要?
可以这样理解:数学从来都不只是做运算,它本身也是一种对信息的表达方式。
数学是一种更依赖于符号形式和意义精确性的语言,1就是1,0就是0。
当使用计算符号和算式,去呈现信息时,其实比自然语言更低维。
换句话说,大模型之所以“能文”,就是建立在“会算”的基础上,将自然语言转换成了计算机语言。
这一点,早在19世界,就已经被历史最重要的数学家之一,乔治·布尔(就是创造了布尔变量的那个布尔),奠定了基础。
布尔是一个有虔诚宗教信仰的人,他甚至想通过数学推理,来解释上帝的存在。
先不管他最后的结论是什么吧,他最终留给世界的财富,也就是《思维规律的探究》一书里,开篇便阐释了他宏大的目标:用微积分的符号语言,来表达推理这一思维活动的基本规律。
这也解释了为什么,一旦谈及AI在数学运算上的表现,人们期待的眼光里就多了几分紧张:
攻破了数学语言,或许真的就离破解思维活动不远了。
AI推理,怎么就了不起?
现在距离AI理解思维活动,到底有多近?
这次路透社认为,“Strawberry”的理论先驱,应该是两年前,斯坦福大学团队发表的STaR技术。
STaR的开发者之一、斯坦福大学教授Noah Goodman接受路透社采访,表示他跟“Strawberry”没关系,但如果真的追平人类的推理能力,那是让人既兴奋、又恐惧的事。
STaR的特点是:具备特定条件下的推理能力。先拿一个已经训练过的模型,再准备一个小的数据集(里面包括推理步骤),喂进去训练。
有了这些,再让模型去生成解决问题的推理过程。如果出来是正确的、符合答案的,那么这次推理就判定为有效。
接着不断微调不断微调,不断让它自我学习。最后测试的结果是,这样的方式的确能够提升模型在数学运算方面的表现。
换句话说,特定条件和训练方式下,的确可以让模型效仿推理过程,从而实现具备一定的推理能力。
这样辛苦地挖掘和塑造AI的推理能力,对日常使用而言有什么意义?
路透社的线人说,OpenAI特别希望能够达成“CUA”,computer-using agent。模型能够根据文档和其他材料提供的信息,自主采取行动。
而这是OpenAI所提出的“五阶评级”中的第三阶:代行者,能够采取行动的系统。
现在的对话chatbot只是第一阶,“Strawberry”据称已经接近第二阶。
可以想见,推理能力是第三阶段的必要前提。只有具备了推理能力,通过各种信息,推演出用户意图,才有可能丝滑地完成服务调度,采取行动。
在APPSO之前的报道中,我们就提到了AI不应该只作为一种服务,而是要能糅合进操作系统里,共同存在。这恰恰也是来自于OpenAI创始人之一,Andrej Karpathy的设想。
这就是AI推理能力备受瞩目的原因之一,只要你拥有一台智能手机,就不妨畅想一种可能的未来,“AI作为智能手机新的操作系统,而大模型就是智能操作系统的核心”