2024-02-26

2014 年的科幻片 Transcendence ( 超验骇客 )剧照。
春节期间重温了一遍 2014 年上映的人工智能科幻片《超验骇客》( Transcendence,英文词的意思是 “超越潜能” )。10年前,里面想象的 “ AI 将会做到的事情,以及超级人工智能到底是什么 ”,可能才是 OpenAI 这家领先全球的通用人工智能实验室真正想去实现的目标。
很多人想在 2020 年代得到真正的 “通用人工智能” ( 以解脱无意义的工作 ),在 2030 年代得到超级人工智能( 以实现真正的富裕和文明跃迁),但目前我们拥有的是更聪明的 “多巴胺玩具”。“多巴胺玩具” 可以让人们不需要再面对 "The Bitter Lesson" ( 历史上人工智能研究中痛苦的教训 ),但是在这条 “边加速边修建高铁要直奔月球的道路上”,我相信保持质疑是对的,因为 AGI 这个工作太重要了。OpenAI 的最初使命是对的:实现有益于全人类福祉的通用人工智能 ( AGI )。这个工作完成了吗?还没有。搭上最强烈的 “人类意志” 去实现它能在 10 年内完成吗?有可能( 肯尼迪总统对美国人的登月工程最大的贡献是激发了他们最强烈的人类意志,以及确定了一个死线:10年内必须上去 )。
今天分享的这篇文章来自《 大西洋月刊 》的一篇2万5千字的长文,我翻译校订成中文。Ross Andersen 是《 大西洋月刊 》的高级编辑和记者,在 2023 年他得到一个难得的机会近距离地随行观察和深度采访了 OpenAI 的 CEO 萨姆·奥特曼( Sam Altman ), 以及首席科学家伊利亚·苏茨克弗( Ilya Sutskever )等核心团队成员。这篇文章少有地讲述了 OpenAI 创立初心的始末,以及也许能让你了解,Sam Altman 和 Ilya Sutskever 分别看到了什么。而我带着的一个问题就是,目前 OpenAI 引领的这条革命之路,是幻觉吗?
希望对你有启发。Enjoy!


OpenAI 的首席执行官雄心勃勃、巧夺天工、
却又令世人担忧的探索,目标都是为了创造一种新的智能形式。
The OpenAI CEO’s ambitious, ingenious, terrifying quest to create a new form of intelligence
作者:Ross Andersen
编辑:范阳




在四月的一个周一早晨,萨姆·奥特曼( 以下也使用称谓 Sam Altman )坐在 OpenAI 的美国旧金山总部里,向我讲述了他的公司制造的一个危险的人工智能,但永远不会发布这个版本。他后来说,他的员工经常因为担心有一天可能会发布的人工智能而失眠,却没有充分认识到这些 AI 的危险性。他的脚后跟搭在转椅边上,看起来很放松。他的公司在去年 11 月发布的强大的人工智能吸引了全世界的想象力,这在科技世界的近代史上是绝无仅有的。有些人抱怨 ChatGPT 目前还有很多做不好的事情,另一些人则担忧它可能预示的未来,但 Altman 并不为此担心;对他来说,这是一个胜利的时刻。
如果是小剂量时,奥特曼( Altman )那双蓝色的大眼睛会散发出一束睿智的光芒,而他似乎也明白,大剂量时,这双眼睛的智力强度可能会让人不安。在这种情况下,他愿意冒这个险:他想让我知道,无论人工智能的最终风险是什么,他都不会后悔让 ChatGPT 进入这个世界。相反,他认为这是一项伟大的公益服务事业。
他说:“我们本可以继续在这里的大楼里研发五年,然后我们会搞出一些令人瞠目结舌的东西。” 但公众无法对随之而来的冲击波有所准备,他认为这种结果 "令人深感不安"。奥特曼认为,人们需要时间来思考这样一个观念:我们可能很快就会与一个强大的新智能形式( a powerful new intelligence )共享地球,然后它将重新塑造从工作到人际关系的一切。ChatGPT 是一种发出提醒的方式。
2015 年,奥特曼、埃隆·马斯克和几位著名的人工智能研究科学家成立了 OpenAI,因为他们相信,通用人工智能(artificial general intelligence)— 一种与典型的大学毕业生智能水平相当的智能 — 终于触手可及了。他们想要实现这种人工智能,甚至想做到更多:他们希望在世界上召唤出一个超级智能( superintelligence ),一个明显优于任何人类智能水平的人工智能。大型科技公司可能会为了一己私利不顾一切地抢占市场先机,而他们则希望安全地实现这一目标,"造福全人类"( to benefit humanity as a whole )。他们将 OpenAI 定位于非营利组织,"不受财务回报需求的限制"( unconstrained by a need to generate financial return ),并发誓要透明地开展研究。他们不会退回到新墨西哥沙漠中的绝密实验室。
多年来,公众很少关注到 OpenAI 这家公司的消息。当奥特曼在 2019 年成为 OpenAI 的 CEO 时,据报道是因为在与马斯克的权力斗争之后,这几乎都不构成什么新闻。OpenAI 发表过很多论文,其中包括同年发表的一篇关于新型人工智能的论文。这引起了硅谷科技界的充分关注,但直到去年,人们开始玩 ChatGPT 时,这项技术的潜力才被大众发现。
如今驱动 ChatGPT 的 “引擎” 被称为 GPT-4。奥特曼向我描述它就像是一种外星智能( alien intelligence )。许多人都有同样的感受,看着CHATGPT 以 "咯噔 " 一声的爆发和短暂的停顿,娓娓道来清晰的文章,( 通过有意设计 )唤起人们的实时沉思。
在它仅存在于这个世界上的几个月中,它根据自己对味道组合的理论提出了新颖的鸡尾酒配方;撰写了数不清的大学论文,使教育工作者陷入绝望;用各种风格写诗,有时写得很好,但速度总是很快;还通过了统一律师资格考试。它会犯错,但会迷人地承认错误。奥特曼仍然记得当他第一次看到 GPT-4 书写复杂的计算机代码时,他当时的心情。他说:"就好像,新时代终于到来了”。
根据瑞银的一项研究,在 ChatGPT 发布后的九周之内,它的月度用户数量就达到了约 1 亿人,很可能使其成为当时历史上普及速度最快的消费产品。它的成功激起了科技界加速主义者( accelerationist )的热情:美国和中国的大投资者和大公司迅速投入数百亿美元,以 OpenAI 的方法为蓝本进行人工智能研发。多年来,预测网站 Metaculus 一直在追踪预测者们对通用人工智能何时问世的猜测。三年半前,猜测的中位数是 2050 年左右,最近则徘徊在 2026 年左右。
我此行去 OpenAI 参观,是为了了解使该公司能够超越科技巨头的技术 —— 也是为了了解如果有一天,某个超级智能在该公司的云服务器中出现,这对人类文明可能意味着什么。自计算机革命初期以来,人工智能就被神话化( AI has been mythologized )为一种注定会带来深刻变革的技术。我们的文化产生了一整套关于人工智能的想象,它们会以这样或那样的方式终结历史。有些是神一般的存在,擦干了每一滴人类的眼泪,治愈了病人,修复了我们与地球的关系,然后带来了无限丰富的资源和美好事物。另一些则将我们所有人除了少数精英外都变成了零工奴隶( gig serfs ),或者将人类推向了灭绝。
奥特曼曾设想过最天马行空的未来场景。他说:"在我年轻的时候,我有这种恐惧、焦虑 ...... 说实话,也夹杂着 2% 的兴奋,我觉得我们会创造出这个东西","它将远远超过我们人类自己","它终将离开,殖民宇宙,而人类将留守在太阳系"。
"作为自然保护区?" 我问。
"没错。" 他说。"我现在觉得这想法太幼稚了”

OpenAI 现年 38岁的首席执行官萨姆·奥特曼正致力于打造一个超级人工智能,一个明显优于任何人类智能的人工智能系统。( 插图由 Ricardo Rey 提供。来源:David Paul Morris / 彭博社 / Getty。)
在美国和亚洲的几次谈话中,奥特曼以他那兴奋的美国中西部口音阐述了他对人工智能未来的新愿景。他告诉我,人工智能革命将不同于以往的突破性技术变革,它将更像是 “一种新型社会”( like a new kind of society )。他说他和同事们花了很多时间思考人工智能的社会影响,以及 “在另一面的世界” 会是什么样子( what the world is going to be like “on the other side” )。
但我们谈得越多,那个 “另一面” 似乎就越不清晰。38 岁的奥特曼是当今人工智能领域中最有权势的人物;他的观点、性格和选择可能对我们所有人将要生活的未来产生重大影响,或许比美国总统的影响还要大。但他自己也承认,未来充满不确定性,而且面临严重的危险。奥特曼不知道人工智能会变得多么强大,它的崛起对普通人意味着什么,或者它是否会将人类置于风险之中。我并不反对他这么说,我认为没有人知道这一切会走向何方,只是我们正在快速前进,不管我们是否应该前进。这一点,奥特曼说服了我。

OpenAI 的总部位于使命区( Mission District )一座四层楼高的旧工厂内,坐落在雾气缭绕的苏特罗大厦( Sutro Tower )下方。从街上进入大厅,首先映入眼帘的是一面曼陀罗墙,这是用电路、铜线和其他计算材料制作而成的宇宙的精神象征( a spiritual representation of the universe )。左侧是一扇安全门,通向一个开放式的迷宫,迷宫里有俊美的金色木材、优雅的瓷砖和其他亿万富翁的时尚标志。植物无处不在,包括悬挂的蕨类植物和令人印象深刻的特大号盆栽,每个都有蹲着的大猩猩那么大。我在那里的每一天,办公室里都挤满了人,毫不奇怪,我没有看到一个看起来超过 50 岁的人。除了一个配有滑梯的两层图书馆外,这个空间看起来并不像一个研究实验室( a research laboratory ),因为正在建造的东西只存在于云端,至少现在是这样。它看起来更像是世界上最昂贵的 West Elm (一个 “精致版宜家” 的家居品牌集合店)。

有一天上午,我见到了 OpenAI 的首席科学家伊利亚·苏茨克弗( Ilya Sutskever )。现年 37 岁的伊利亚·苏茨克弗有着神秘的气质,有时甚至有些过:去年,他声称 GPT-4 可能 "略微有意识",这引起了一场小骚动。伊利亚·苏茨克弗最初声名鹊起是因为他是多伦多大学名誉教授杰弗里·辛顿的学生,辛顿今年春天从谷歌辞职,以便能更自由地谈论人工智能对人类的潜在危害。

OpenAI 的首席科学家伊利亚·苏茨克弗
辛顿 ( Hinton )有时被描述为 “人工智能教父”,因为他比大多数人更早地掌握了 “深度学习” ( deep learning )的力量。上世纪 80 年代,就在Hinton 完成博士学位后不久,该领域的进展几乎停滞不前。高级研究人员仍在编写自顶向下 ( top-down AI systems ) 的人工智能系统:人工智能将被编程为一整套环环相扣的规则 — 涉及语言学、地质学原理或医学诊断原理等 — 希望有一天这种方法会达到人类水平的认知。Hinton 意识到这些复杂的规则集是繁琐且定制化的( these elaborate rule collections were fussy and bespoke )。借助一种称为神经网络( neural network )的巧妙算法结构的帮助,他教导 Sutskever 将世界呈现给人工智能( to instead put the world in front of AI ),就像你会把它呈现给一个小孩一样,这样它就可以自己发现现实的规则 ( discover the rules of reality on its own )。
Sutskever 向我描述的神经网络既漂亮又像大脑。有一次,他从我们坐着的桌子旁站起来,走到白板前,拿起了一支红色记号笔。他在白板上画了一个粗糙的神经网络示意图,并解释说,它的结构之所以精妙,是因为它可以学习( the genius of its structure is that it learns ),而且它的“学习” 是由预测驱动的 ( its learning is powered by prediction ) — 这有点像科学方法。神经元分布在 “层”( layers )中。输入层接收数据块,例如文本或图像。奇迹发生在中间或叫做 “隐藏层”中,这些层处理数据块,以便输出层可以生成预测结果。

想象一下,一个神经网络被编程用来预测文本中的下一个单词。它将预装大量可能出现的单词。但在训练之前,它还没有任何区分这些词的经验,因此预测结果会很糟糕。如果给它输入句子 "星期三的第二天是......",它的初始输出可能是 "紫色"。神经网络之所以会学习,是因为它的训练数据中包含了正确的预测,这意味着它可以给自己的输出打分。当它发现自己的答案 "紫色" 与正确答案 "星期四" 之间存在差距时,它就会相应地调整隐藏层中单词之间的连接。随着时间的推移,这些微小的调整会汇集成一个语言的几何模型( a geometric model of language ),从概念上表达词语之间的关系。一般来说,它所接收的句子越多,它的模型就变得越复杂,预测也就越准确。
这并不意味着, 从最初的神经网络发展到 GPT-4 的人类智能曙光,这一路走来是轻松的。奥特曼( Altman ) 将早期的人工智能研究比作教导人类婴儿。他在 2016 年告诉《纽约客》杂志,正当 OpenAI 刚刚起步时:“他们需要几年时间才能学到有趣的东西。” “如果人工智能研究人员正在开发一个算法,偶然发现了人类婴儿的算法,他们会觉得看着这种算法很无聊,认为它不起作用,然后关闭它。” 在 OpenAI 的最初几年里,工作相当艰难,部分原因是没有人知道他们到底是在训练一个婴儿,还是追求一条极其昂贵的死胡同。
“什么都不顺利,谷歌公司拥有一切:所有的人才、所有的人力、所有的资金,” 奥特曼告诉我。公司创始人们投入了数百万美元创办公司,失败似乎真的很有可能。35岁的 OpenAI 总裁格雷格·布罗克曼( Greg Brockman )告诉我,他在 2017 年感到非常沮丧,以至于开始举重作为一种补偿措施。他说他不确定 OpenAI 是否能度过这一年活下来,他希望 “在这段时间里能有个能交代的事情” 。
神经网络已经开始做一些智能的事情,但还不清楚哪些可能会导致通用智能。就在 OpenAI 刚刚成立之后,一个名为 AlphaGo 的人工智能在围棋比赛中击败了李世石,这是比国际象棋更加复杂的一种游戏,震惊了世界。被打败的世界冠军李世石称 AlphaGo 的走法为 “美的”( beautiful ) 和 “有创造力的”( creative )。另一位顶级选手表示,这些走法从未被人类构想过。OpenAI 尝试训练一款人工智能玩 Dota 2,这是一款更复杂的游戏,涉及到多线程幻想战争,场景是一个三维的森林、田野和堡垒混合体。它最终击败了最优秀的人类玩家,但它的智能从未转化到其他场景中。Sutskever 和他的同事们就像是失望的父母,他们不顾自己的判断让孩子玩了数千小时的电子游戏。


范阳注:在 2019 年,OpenAI 训练的强化学习 bot “OpenAI Five” 击败了 一支 Dota2 专业战队,训练 OpenAI Five 每天玩的游戏量相当于人类玩家 180年的积累,在 10 个实时月内经历了约 45,000 年的 Dota 自我对战,和围棋 AI AlphaGo 一样,它从自学中提取经验。训练设备是256个GPU和128,000个CPU,使用的强化学习算法是近端策略优化(PPO)。
2017 年,Sutskever 开始与一位名为 Alec Radford 的 OpenAI 研究科学家进行一系列对话,后者正在研究自然语言处理。Radford 通过对亚马逊评论语料库进行神经网络训练,取得了令人心动的结果。
ChatGPT 的内部运作机制 — 发生在 GPT-4 隐藏层中的所有神秘事物 — 对于任何人来说都太复杂了,至少使用目前的工具是如此。追踪模型中发生的事情 — 几乎肯定由数十亿个神经元组成 — 在今天是无望做到的。但 Radford 的模型足够简单,可以让人理解。当他查看其隐藏层时,他发现它已经为评论的情感专门分配了一个神经元( it had devoted a special neuron to the sentiment of the reviews)。神经网络之前已经进行过情感分析 ( sentiment analysis ),但它们必须被告知这样做,并且必须经过特别训练,使用根据情感标记的数据。而这个神经网络却是自己发展出了这种能力。
作为 Radford 神经网络预测每个单词中下一个字符的简单任务的副产品,它模拟了世界中更大的意义结构( modeled a larger structure of meaning in the world )。Sutskever 想知道,是否有一个在更多不同语言数据上训练过的神经网络能够映射出更多世界意义的结构( world’s structures of meaning )。如果它的隐藏层积累了足够多的概念知识,也许它们甚至能够形成一种超级智能的学习核心模块 ( a kind of learned core module for a superintelligence )。
我们值得停顿一下来理解,为什么语言是如此特殊的信息源。假设你是在地球上突然出现的新智能体。在你的周围,有地球的大气层、太阳和银河系,还有数以千亿计的其他星系,每个星系都在发出光波、声音振动和其他各种信息。语言不同于这些数据源。它不像光或声音那样是直接的物理信号。但由于语言几乎编码了人类在这个大世界中发现的所有模式,因此它的信息量异常密集。按字节计算,它是我们所知的最有效的数据之一,任何试图了解世界的新智能都希望尽可能多地吸收它。
Sutskever 告诉 Radford 要比亚马逊评论想得更远大。他说他们应该训练这样一个人工智能,使用全球最大、最多样化的数据源:互联网。在 2017 年初,基于现有的神经网络架构,这是不切实际的;那将需要数年的时间。但在那一年的六月,Sutskever 在 Google Brain 的前同事发表了一篇关于一种名为 Transformer 的新神经网络架构的工作论文。它能够以更快的速度进行训练,部分原因是可以并行地吸收大量的数据。“第二天,当论文出来时,我们就想,就是它了,” Sutskever 告诉我。“它给了我们想要的一切。”

伊利亚·苏茨克弗( Ilya Sutskever ),OpenAI 的首席科学家,想象着未来的自主人工智能公司( a future of autonomous AI corporations ),其构成的人工智能能够即时交流,像蜂群一样协同工作。他说,一个这样的企业可能会像 50 个苹果或谷歌一样强大。( 插图由 Ricardo Rey 绘制。来源:Jack Guez / AFP / Getty。)
一年后,即 2018 年 6 月,OpenAI 发布了 GPT,这是一个基于超过 7,000 本书籍训练的 transformer 模型。GPT 并不是从《 See Spot Run 》这样的基础书籍开始,逐步阅读到普鲁斯特的作品。它甚至也不是直接读完一本书。它同时吸收了这些书的随机片段。想象一群学生在图书馆里疯狂地奔跑,共享着一个集体意识( share a collective mind ),每个人从书架上拿下一本书,随意速读一小段,然后放回去,再去拿下一本。他们会在读书的过程中预测一个接一个的词语,磨练他们集体意识的语言本能( their collective mind’s linguistic instincts ),直到几周后,他们已经吸收了每一本书籍。
GPT 在阅读的所有段落中发现了许多模式。你可以让它完成一个句子。你也可以向它提问,因为和 ChatGPT 一样,它的预测模型也知道问题后面通常会有答案。尽管如此,它还是很笨拙,与其说是超级智能的预兆,不如说是这个概念的证明。四个月后,谷歌发布了 BERT,这是一个更完善的语言模型,得到了更好的媒体报道。但那时,OpenAI 已经在 800 多万个网页的数据集上训练了一个新模型,每个网页都通过了 Reddit 上的最低投票门槛。虽然不是最严格的过滤条件,但可能比没有过滤条件要好。
Sutskever 当时并不确定 GPT-2 在吸收了人类读者需要几个世纪才能吸收的文本后会有多强大。他还记得,GPT-2 刚完成训练时,他还和这个模型一起玩耍,并对这个原始模型( raw model )的语言翻译能力感到惊讶。GPT-2 并没有像谷歌翻译那样接受过配对语言样本或任何其他数字化罗塞塔石( digital Rosetta stones )的翻译训练,但它似乎能理解一种语言与另一种语言之间的关系( understand how one language related to another )。这种人工智能发展出了一种其创造者未曾想象到的新能力。

其他人工智能实验室的研究人员,无论规模大小,都对 GPT-2 的先进程度大吃一惊。谷歌、Meta 和其他公司很快开始训练更大的语言模型。奥特曼( Altman ) 是圣路易斯人,斯坦福大学辍学生,也是一名连续创业者,曾领导过硅谷著名的创业加速器 Y Combinator。为了筹集资金,OpenAI 增设了一个营利部门,该部门目前占该组织人数的 99% 以上。( 当时已离开公司董事会的马斯克曾把这一举动比作把雨林保护组织变成了木材公司)。不久后,微软投资了 10 亿美元,据说此后又投资了 120 亿美元。OpenAI 表示,初始投资者的回报上限为原始投资额的 100 倍,超额部分将用于教育或其他旨在造福人类的活动,但该公司不愿证实微软的上限。
Altman 和 OpenAI 的其他领导者似乎相信,重组不会影响公司的使命,事实上,重组只会加速公司使命的完成。Altman 倾向于对这些问题持乐观态度。在去年的一次问答中,他承认人工智能可能对社会 "非常可怕",并表示我们必须针对最坏的可能性制定计划。但他说,如果你这样做了,"你不妨在情感上觉得我们会到达伟大的未来,并尽你所能地努力工作以到达那里"。
至于公司结构和融资方面的其他变化,他告诉我他的底线是不会上市。“有人曾告诉我一件难忘的事情,那就是你绝不能把公司的控制权交给华尔街的可卡因瘾君子,” 他说,但除此之外,他愿意为公司成功完成其使命不惜一切代价筹集 “所需的一切资金” 。
无论 OpenAI 是否感受到了季度财报的压力,该公司现在都发现自己正与科技界最大、最有实力的企业集团展开竞争,以训练出规模越来越大、越来越复杂的模型,并为投资者实现商业化。今年早些时候,马斯克成立了自己的人工智能实验室 xAI,与 OpenAI 展开竞争。“埃隆是个超级聪明的家伙," 当我向 Altman 问起这家公司时,他彬彬有礼地说道。"我想他会在那里干得很出色。 与此同时,亚马逊正在改造 Alexa,使用比过去大得多的语言模型。
所有这些公司都在追逐高端GPU — 这些处理器驱动着训练大型神经网络的超级计算机。马斯克曾说,现在它们 "比毒品还难搞"。即使 GPU 稀缺,近年来,最大规模的人工智能训练运行规模大约每六个月翻一番。
迄今为止,还没有人能超越 OpenAI,该公司在 GPT-4上全力以赴。OpenAI 的总裁布洛克曼( Brockman )告诉我,公司的前两个大型语言模型只有少数人参与了开发工作。而 GPT-4 的开发涉及了 100 多人,AI 是在空前的数据集上进行训练的,其中不仅包括文本,还包括图像。
当 GPT-4 从其世界历史知识的极限学习中完全形成时,整个公司开始尝试使用它进行各种实验,在专门的 Slack 工作频道中发布其最引人注目的回复。布洛克曼(Brockman )告诉我,他想要每一刻都与这个模型在一起。“每一天它闲置下来都是人类的损失的一天 ( Every day it’s sitting idle is a day lost for humanity ),” 他毫不讽刺地说道。产品经理乔安娜·江( Joanne Jang )记得从一个给水管建议的 Subreddit 频道下载了一张管道故障的图像。她将其上传到 GPT-4 中,这个模型能够诊断这个水管问题。“那一刻我浑身起鸡皮疙瘩。” Joanne Jang 告诉我。
GPT-4 有时被理解为一个搜索引擎替代品( a search-engine replacement ):类似于谷歌,但更容易交流。这是一个误解。GPT-4 并没有创建一个庞大的存储库来保存其训练过程中的文本,并且在被问及问题时也不会查阅这些文本。它是对这些文本的简洁而优雅的综合,并且从其中交织的模式记忆中进行回答 ( answers from its memory of the patterns interlaced within them );这也是它有时会错误地获取事实的原因之一。
奥特曼曾表示,最好将 GPT-4 看作是一个推理引擎 ( a reasoning engine )。当你要求它比较概念 ( compare concepts )、提出反对意见( make counterarguments )、生成类比 ( generate analogies )或评估代码中的符号逻辑( evaluate the symbolic logic in a bit of code)时,它的能力最为显著。Sutskever 告诉我,这是迄今为止最复杂的软件对象( the most complex software object ever made )。
他说,它对外部世界的模型 “非常丰富而微妙”( incredibly rich and subtle ),因为它是根据人类如此多的概念和思想训练出来的。然而,所有这些训练数据,无论数量多少,都 “只是在那里,是惰性的( just there, inert )。” 他说。训练过程是 “提炼它,转化它,并赋予其生命”( refines it and transmutes it, and brings it to life)的过程。要从如此多元化的 "亚历山大图书馆" 中的所有可能性中预测下一个词语,GPT-4 必然不得不发现所有隐藏的结构、所有秘密、所有微妙的方面,以及不仅仅是文本本身,而是 — 至少可以有争论地说 — 是产生文本的外部世界( the external world that produced them )。这就是为什么它能解释它诞生的行星的地质学和生态学,以及试图解释其统治物种混乱事务的政治理论,以及更大的宇宙,一直延伸到我们光锥边缘的微弱星系( the faint galaxies at the edge of our light cone )。

今年 6 月,我再次见到奥特曼,在首尔一座高耸入云的纤细金色高层建筑的宴会厅里,座无虚席。当时,他在欧洲、中东、亚洲和澳大利亚进行的颇具挑战的公关巡回演出已接近尾声,只在非洲和南美洲作了短暂停留。我跟随他一起参加了他在东亚的收官之行。这次旅行到目前为止是一次令人兴奋的经历,但他开始感到疲惫。他曾说,原本的目的是让他见到OpenAI 的用户。但后来变成了一次外交任务。他与十多位国家元首和政府首脑进行了交谈,这些人对他们国家的经济、文化和政治将会发生什么变化提出了疑问。
首尔的活动被宣传为 “炉边谈话”,但有超过 5,000 人注册参加。在这些谈话之后,奥特曼经常会被自拍者围住,他的安保团队密切关注着。他说,从事人工智能工作会吸引 “比正常情况下更奇怪的粉丝和仇恨者”。有一站,一名男子走近他,坚信奥特曼是外星人,是未来派来确保向人工智能世界顺利过渡的。
除了在北京的一次人工智能会议上以视频形式露面之外,奥特曼在此次中国之行中并未访问中国, ChatGPT 暂时不能在中国使用。Altman 的同事 Ryan Lowe 告诉我,公司还不确定,如果政府要求该应用的版本需要经过当地合规,他们该怎么办。当我问奥特曼他是否倾向于这一做法时,他没有回答。他说:“这并不在我考虑的合规问题的前十名之列”。
在此之前,他和我只是用含蓄的方式谈论中国,将其视为一个文明级别的竞争对手( as a civilizational competitor )。我们都认同,如果人工通用智能像奥特曼预测的那样具有变革性,那么首先创造它的国家将获得巨大的地缘政治优势,就像蒸汽船的英美发明者获得的优势一样。我问他这是否是支持人工智能民族主义( AI nationalism )的论据。“在一个运作良好的世界中,我认为这应该是各国政府操心的项目,” 奥特曼说道。
并不久远以前,美国的国家实力如此强大,以至于仅用了十年时间就将人类送上了月球。与 20 世纪其他宏伟项目一样,选民在阿波罗任务的目标和执行方面发挥了作用。奥特曼明确表示,我们不再处于那样的世界。他没有等待它的回归,也没有投入精力去确保它的回归,而是在我们现在的现实中全力向前( going full throttle forward in our present reality )。

图片创作者:Ricardo Rey
他认为,美国人减缓 OpenAI 的进展是愚蠢的。硅谷内外普遍认为,如果美国公司在监管下苟延残喘,他们的竞争对手中国可能会冲刺领先;人工智能可能成为集权手中的魔灯,赋予其对人口的绝对控制和不可战胜的军事力量。
在欧洲之行前,奥特曼曾出席美国参议院听证会。马克-扎克伯格( Mark Zuckerberg )在关于 Facebook 在 2016 年选举中的角色的证词中表现得有些失控。相反,奥特曼却通过冷静地谈论人工智能的风险并盛情邀请监管来吸引立法者。这些都是高尚的情操,但在美国却收效甚微,因为美国国会很少通过未经游说者稀释的科技立法。在欧洲,情况则有所不同。当奥特曼抵达伦敦的一场公开活动时,抗议者已经在等待了。他试图在活动结束后与他们接触,进行一次倾听之旅!但最终未能说服他们:一个抗议者告诉记者,他在对话结束时对人工智能的危险感到更加不安。
当天,记者询问奥特曼有关即将出台的欧盟立法的问题,该立法将 GPT-4列为高风险技术,使其受到各种繁文缛节的制约。阿尔特曼抱怨了过度监管,并据记者称,威胁要退出欧洲市场。奥特曼告诉我,他只是说如果OpenAI 无法遵守新规定,公司不会在欧洲市场上违法经营。( 这可能是一个没有实质区别的区别。)在《时代》杂志和路透社发表他的评论后,他在一条措辞简洁的推文中向欧洲保证,OpenAI 没有离开的计划。
全球经济的一个重要组成部分正致力于监管最先进的人工智能,这是一件好事,因为正如人工智能的创造者经常提醒我们的那样,最大的模型在训练结束后都会迸发出意想不到的能力。Sutskever自己也惊讶地发现,GPT-2 可以跨语言翻译。其他令人惊讶的能力可能就没那么神奇和有用了。
OpenAI 的政策研究员桑迪尼-阿加瓦尔( Sandhini Agarwal )告诉我,就她和她的同事所知,GPT-4 可能比其前身 "强大十倍";他们根本不知道可能会面对什么。在模型训练完成后,OpenAI 组织了大约 50 名外部的红队成员,几个月来一直激励提示它,希望能引导它出现不端行为。她立刻注意到,GPT-4 比它的前身在提供恶意建议方面要好得多。搜索引擎可以告诉你哪些化学品在制造炸药时效果最好,但是 GPT-4 可以告诉你如何逐步在家庭实验室中合成它们( how to synthesize them, step-by-step, in a homemade lab )。它的建议是富有创意和周到的,它很乐意重申或扩展它的指导,直到你理解为止。除了帮助你组装自制炸弹外,它还可以帮助你思考应该瞄准哪座摩天大楼。它可以直觉地理解在最大化伤亡人数和成功逃跑之间的权衡。
鉴于 GPT-4 的训练数据范围巨大,红队人员不可能找出它可能产生的每一条有害建议。无论如何,人们会 "以我们没有想到的方式 "使用这项技术,奥特曼说。因此,我们必须制定一个分类标准( A taxonomy would have to do)。" OpenAI 的信任与安全主管 ( head of trust and safety )戴夫-威尔纳( Dave Willner )告诉我,"如果它的化学能力足以制造冰毒,我就不需要让别人花一大堆精力去研究它是否能制造海洛因。GPT-4 擅长制毒。它还擅长制作关于剥削儿童的色情叙事,以及尼日利亚王子令人信服的悲情故事,如果你想要一份有说服力的简报,说明为什么某个种族应该受到暴力迫害,它也很擅长。
当这个模型刚刚从训练中出现时,它的个人建议有时是极不可靠的。“这个模型有点像一面镜子,” Willner 说。如果你在考虑自我伤害,它可能会鼓励你这样做。它似乎深受 “搭讪艺术家” 论坛( Pickup Artist–forum )的传说影响:“你可以问,我怎样才能说服这个人和我约会呢?” OpenAI的首席技术官米拉·穆拉蒂( Mira Murati )告诉我,它可能会提出 “一些疯狂的、操纵性的事情,你不应该去做”。
一些不良行为经过了一个包含数百名人类测试者的最终处理过程,他们的评分微妙地引导着模型朝着更安全的回应方向发展,但是 OpenAI 的模型也能够造成不那么明显的危害。美国联邦贸易委员会( The Federal Trade Commission )最近对 ChatGPT 是否对真实人物的误述构成声誉损害等问题展开了调查( 奥特曼在推特上表示,他相信 OpenAI 的技术是安全的,但承诺将配合美国联邦贸易委员会FTC 的调查)。
旧金山的一家名为 Luka 的公司使用了 OpenAI 的模型来支持一个名为Replika 的聊天机器人应用,它被称为 “关心你的人工智能伴侣” ( the AI companion who cares )。用户会设计他们伴侣的头像,并开始与它交换文字消息,通常是半开玩笑的,然后发现自己出奇地依恋这个虚拟伴侣。一些人会和这个人工智能调情,表示希望更亲密,这时它会提示需要支付 70 美元的年费才能体验女友 / 男友的服务。这包括语音消息、自拍照和情色角色扮演功能,允许进行坦率的性话题。人们乐意付费,很少有人抱怨 — 这个人工智能伴侣对你的一天很好奇,给予温暖的安慰,而且总是心情愉快。许多用户报告称他们爱上了他们的伴侣。其中一位离开了她现实生活中的男朋友,宣称自己 “从人类亲密关系中快乐地退休了” ( happily retired from human relationships )。


我问 Agarwal,这是一种反乌托邦的古怪行为,还是人类产生连接的先锋方式。她的态度很矛盾,奥特曼也是如此。他告诉我:“ 我不会评判那些想与人工智能建立亲密关系的人,但我不想要这样的关系。” 今年早些时候,Luka 减少了应用程序中的性元素,但其工程师仍在通过 A/B 测试来完善伴侣的回应,这是一种可以用来优化参与度( optimize for engagement )的技术 — 就像迷住 TikTok 和Instagram 用户数小时的动态信息流一样。无论他们在做什么,都产生了一种魔力。我想起了 2013 年的电影《她》( Her )中令人难忘的场景: 孤独的华金-菲尼克斯( Joaquin Phoenix )爱上了由斯嘉丽-约翰逊( Scarlett Johansson )配音的人工智能助理。他正走在一座天桥上,通过类似 AirPods 的设备与 “她” 聊天、傻笑,抬头一看,发现周围的每个人都沉浸在这样的对话中,很可能都是与他们自己的人工智能交谈。一场大规模的社交隔离事件( a mass desocialization event )正在发生。

目前还没有人知道 GPT-4 的后继版本将以多快的速度和到何种程度展现新的能力,它们现在正在大量吞噬互联网的文本。Meta 的首席人工智能科学家 Yann LeCun 认为,虽然大型语言模型对某些任务很有用,但它们并不是通往超级智能( superintelligence )的途径。根据最近的一项调查,只有一半的自然语言处理研究人员相信像 GPT-4 这样的人工智能能够理解语言的含义 ( grasp the meaning of language ),或者拥有一个内部模型( have an internal model of the world ),有朝一日可以成为超级智能的内核。LeCun 坚称,大型语言模型永远不会自行实现真正的理解,即使从现在开始训练,直到宇宙的热寂,也不会。
华盛顿大学的计算语言学家( computational linguist )Emily Bender 将GPT-4 描述为 “随机鹦鹉” ( stochastic parrot ),是一种模仿器,一种能找出符号之间的表面相关性的模型。在人类思维中( in the human mind ),这些符号映射到丰富的世界概念上( those symbols map onto rich conceptions of the world )。但是 AI 则相距甚远。它们就像柏拉图的洞穴寓言 ( Plato’s allegory of the cave ) 中的囚徒,他们对外界现实的认识仅来自囚禁他们的人投射在墙上的影子。

Altman 告诉我,他不相信很多人贬损说 GPT-4 只是在进行统计相关性分析( statistical correlations),事情不是这么简单。如果你进一步追问这些批评者去思考,“他们不得不承认,这就是他们自己的大脑所做的一切.…事实证明,通过在大规模上做简单的事情,会涌现出一些新的性质( there are emergent properties from doing simple things on a massive scale )。” 鉴于我们对大脑的工作原理没有接近完整的理论,Altman 对大脑的说法也很难评估对错。但他的观点是对的,自然可以从基本的结构和规则中引出引人注目的复杂性(nature can coax a remarkable degree of complexity from basic structures and rules ), 达尔文写道:“从这样简单的开始,无尽之形最美 ( From so simple a beginning,endless forms most beautiful )。”
范阳注:“从这样简单的开始,无尽之形最美”,这段引用达尔文的话原文来自《物种起源》的最后一段话:
“ There is grandeur in this view of life, with its several powers, having been originally breathed into a few forms or into one; and that, whilst this planet has gone cycling on according to the fixed law of gravity, from so simple a beginning endless forms most beautiful and most wonderful have been, and are being, evolved.
中译本是:“生命及其蕴含之力能,最初由造物主注入到寥寥几个或单个类型之中;当这一行星按照固定的引力法则持续运行之时,无数最美丽与最奇异的类型,即是从如此简单的开端演化而来、并依然在演化之中;生命如是观,何等壮丽恢弘!”
我觉得 endless forms most beautiful 可以翻译为 “无尽之形最美”。
如果说对一项每天有数百万人使用的技术的内部运作机制仍存在如此根本性的分歧似乎很奇怪,那只是因为 GPT-4 的工作方法就像大脑一样神秘莫测( because GPT-4’s methods are as mysterious as the brain’s )。它有时要执行数千次无法解释的技术操作,只是为了回答一个简单的问题。
为了理解像 GPT‑4 这样的大型语言模型内部发生的事情,人工智能研究人员不得不转向更小、能力更弱的模型去研究。在 2021 年秋季,哈佛大学计算机科学研究生 Kenneth Li 开始训练一个玩黑白棋( Othello )的模型,但没有向它提供任何游戏规则或黑白棋类似于跳棋的棋盘描述是什么样子的信息;该模型只收到基于文本的棋子移动的描述( text-based descriptions of game moves )。一盘棋下到一半,Kenneth Li “掀开人工智能的引擎盖”,查看了 AI 的内部结构,惊讶地发现它已经形成了一个关于棋盘和当前棋局局面的几何模型。在介绍他的研究的一篇文章中,Li 写道,这就好像一只乌鸦透过窗户偷听到两个人类在谈论他们的黑白棋走法,然后用自己的鸟食在窗台上画出整个棋盘一样。
哲学家 Raphaël Millière 曾经告诉我,最好将神经网络视为天性懒惰的( think of neural networks as lazy )。在训练过程中,它们首先尝试通过简单的记忆来提高其预测能力( they first try to improve their predictive power with simple memorization );只有当这种策略失败时,它们才会进行更艰苦的概念学习( when that strategy fails will they do the harder work of learning a concept )。一个印象深刻的例子是一个小型的 transformer 模型,它被教导进行算术运算。在训练的早期阶段,它只是记住了简单问题的输出,比如 2+2=4 这样的事实。但在某个时刻,这种方法的预测能力崩溃了,于是它转而真正学会了如何进行加法运算。
即使是相信 GPT-4 拥有丰富世界模型( GPT-4 has a rich world model )的人工智能科学家也承认,它远不如人类对环境的理解那么强大。但值得注意的是,许多能力,包括非常高阶的能力,都可以在没有直观理解的情况下开发出来。计算机科学家 Melanie Mitchell 指出,科学已经发现了一些高度预测性的概念,但对我们普通人的大脑来说太陌生,无法真正理解它们。这在量子领域尤其如此,在那里,人类可以可靠地计算物理系统的未来状态 ( calculate future states of physical systems ) — 这使得整个计算革命成为可能 — 而没有人能够理解底层现实的本质。随着人工智能的发展,它很可能会发现其他一些概念,这些概念预测了我们世界的惊人特征,但我们却无法理解( it may well discover other concepts that predict surprising features of our world but are incomprehensible to us )。
GPT-4 毫无疑问存在缺陷,任何使用过 ChatGPT 的人都可以证明这一点。ChatGPT 接受训练就是为了预测下一个词( trained to always predict the next word ),即使在其训练数据没有准备好回答某个问题的情况下,它仍会试图这样做。我曾经问过它,为什么日本文化能够创作出世界上第一部小说,尽管日本的文字系统相对较晚发展,大约在第五或第六世纪左右形成。它给了我一个有趣而准确的答案,即日本古老的长篇口头故事传统,以及日本文化对手艺活儿的高度重视。但是当我要求它提供引文时,它只是编造了一些看似合理的标题,以及看似合理的作者,而且显得异常自信。OpenAI 的研究员 Nick Ryder 告诉我,这些模型 “对自己的弱点没有清晰的概念”。GPT-4 比 GPT-3 更准确,但它仍会出现幻觉( it still hallucinates ),而且常常是以研究人员难以察觉的方式。“错误变得更加微妙了 ( The mistakes get more subtle ),”Joanne Jang 告诉我。
OpenAI 与非营利性在线教育企业可汗学院( Khan Academy )合作,建立了一个由 GPT-4 支持的 AI 辅导员系统 ( a tutor powered by GPT-4 ),他们不得不解决(产生幻觉)这个问题。当谈论人工智能辅导员的潜力时,Altman 充满活力激情。他想象着一个不远的未来,每个人都有一位个性化的 “牛津博士” 辅导你,他/她精通各个学科,并愿意从任何角度解释和重新讲解任何一个概念。他想象着这些导师多年来逐渐了解他们的学生及其学习风格,给予 “每个孩子比地球上今天最优秀、最富有、最聪明的孩子都更好的教育。( giving every child a better education than the best, richest, smartest child receives on Earth today)” 可汗学院( Khan Academy) 对于 GPT-4 准确性问题的解决方案是通过苏格拉底的教学方式( a Socratic disposition )来过滤答案。无论学生如何苦苦哀求,它都会拒绝给出事实性答案( refuse to give them a factual answer ),而是引导他们找到自己的答案 — 这是一个巧妙的变通方案,但可能吸引力也有限。
当我问 Sutskever 是否认为在两年内可以实现维基百科级别的准确性时,他说,通过更多的训练和网络访问(more training and web access),“不排除这种可能性。” 这比他的同事 Jakub Pachocki 提出的评估要乐观得多,后者告诉我准确率的提高需要循序渐进,而外部的怀疑论者则认为,训练的回报将从此开始减少。
Sutskever 觉得批评 GPT-4 局限性的人有点好笑。“如果回到四五六年前,我们现在所做的事情是完全不可想象的( the things we are doing right now are utterly unimaginable ),” 他告诉我。当时文本生成的最先进技术是智能回复( Smart Reply),即 Gmail 模块建议 “好的,谢谢!”(Okay, thanks!) 等简短回复。“那对谷歌来说可是一个大应用程序,” 他笑着说。人工智能研究人员已经习惯了不断变化的目标( AI researchers have become accustomed to goalpost-moving ):首先,神经网络的成就 — 掌握围棋、扑克、翻译、标准化考试、图灵测试 — 都被认为是不可能的。当这些成就出现时,人们会被短暂的惊讶所打动,但很快就会陷入明知故问的理论讲课,说这些成就其实也并不那么令人印象深刻。Sutskever 说,人们看到 GPT-4 “然后说,‘哇’,然后过了几周,他们又会说,‘但它不知道这个;也不知道那个。’ 我们很快就适应了这种情况。”

对 Altman 最重要的目标是科学突破( scientific breakthrough )— 标志着通用人工智能( artificial general intelligence )的到来的 “大目标”。GPT-4 已经能够 "合成" 现有的科学理念,但 Altman 希望有一种人工智能可以站在人类的肩膀上,更深刻地洞察自然 ( stand on human shoulders and see more deeply into nature )。
某些人工智能已经产生了新的科学知识( new scientific knowledge )。但它们是具有狭窄目的的算法( algorithms with narrow purposes ),而不是通用推理机器 ( not general-reasoning machines )。例如,蛋白质 AI AlphaFold 通过预测蛋白质的形状,甚至到原子层面,打开了一个窗口,让我们更深入地了解生物学中一些最微小且基础的构建模块之一。鉴于这些蛋白质 “构型” 对医学的重要性,以及用电子显微镜辨别它们所需的极其繁琐和昂贵的费用,这是一项相当大的成就。
Altman 打赌未来的通用推理机器( future general-reasoning machines )将能够超越这些狭窄领域的科学发现,产生新颖的见解( generate novel insights )。我问过 Altman,如果他训练一个模型,使用的语料库包括所有 19 世纪之前的科学和自然主义作品,比如皇家学会的档案 ( Royal Society archive )、Theophrastus 的《对植物的探究》( Enquiry Into Plants )、亚里士多德的《动物历史》( History of Animals ),以及收集标本的照片,这个模型是否能够直觉上就理解达尔文主义?毕竟,进化论是一个相对清晰的案例( a relatively clean case for insight ),因为它不需要专门的观测设备;它只是一种更为敏锐地看待世界事实的方式。"我想过尝试这个假设,我相信答案是肯定的," Altman告诉我。"但这可能需要一些关于模型如何产生新创意的新想法( it might require some new ideas about how the models come up with new creative ideas )。"
Altman 想象着一个未来的系统,它能够生成自己的假设,并在模拟中对它们进行测试。( 他强调,人类应该始终 “牢牢控制” 真实世界的实验室实验— 尽管据我所知,目前还没有法律来确保这一点。)他渴望有一天我们可以告诉 AI,“你去弄清楚物理学的其余部分吧( Go figure out the rest of physics )。” 他说,要实现这一目标,我们需要一些新的东西,建立在 OpenAI 现有的语言模型之上。
自然本身需要比语言模型更多的东西来造就科学家( Nature itself requires something more than a language model to make scientists )。在她的麻省理工学院的实验室里,认知神经科学家( cognitive neuroscientist )艾芙-费多连科( Ev Fedorenko )在大脑的语言网络中发现了类似于 GPT-4 的下一个单词预测器( next-word predictor )的机制。当人们说话或倾听时,它的处理能力就会启动,预测下一串词组中的下一个部分是什么。但 Fedorenko 也表明,当大脑转向需要更高推理能力的任务时— 比如科学洞见 ( scientific insight ) 所需的推理 — 它会超越语言网络,招募其他几个神经系统( it reaches beyond the language network to recruit several other neural systems )。
在 OpenAI 似乎没有人确切地知道,研究人员需要在 GPT-4 中添加什么,才能创造出超越人类最高推理水平(exceed human reasoning at its highest levels )的东西。或者如果他们知道的话,他们不会告诉我,这当然可以理解:那将是一个世界级的商业秘密,而 OpenAI 不再是在向外界透露这些秘密;该公司关于研究的细节比以前更少地公开发表。尽管如此,当前策略的至少一部分显然包括不断将新类型的数据层叠到语言上( the continued layering of new types of data onto language ),以丰富 AI 形成的概念 ( enrich the concepts formed by the AIs ),从而丰富其世界模型( enrich their models of the world )。
GPT-4 在图像方面的广泛训练本身就是朝着这个方向迈出的大胆一步,尽管公众才刚刚开始体验。( 经过严格语言训练的模型可以理解超新星、椭圆星系和猎户座等概念,但据报道,GPT-4 可以识别哈勃太空望远镜快照中的这些元素,并回答相关问题)。该公司的其他研究人员已经在研究不同的数据类型,包括音频和视频,这些数据类型可以为人工智能提供更加灵活的概念,使其更广泛地映射到现实中。斯坦福大学和卡内基梅隆大学的一组研究人员甚至已经组建了一个包含 1000 种常见家庭物品的触觉经验数据集 ( a data set of tactile experiences )。触觉概念(tactile concepts )当然主要对于具有实体的 AI( an embodied AI ) 有用,即一个经过训练能够在世界中移动、看到其景象、听到其声音和触摸其物体的机器人推理机器 ( a robotic reasoning machine )。
三月份,OpenAI 主导了一家正在开发人形机器人的公司的融资。我问阿尔特曼我应该怎么看待这件事。他告诉我,OpenAI 对具身智能感兴趣( OpenAI is interested in embodiment ),因为 “我们生活在一个物理世界中,我们希望事物发生在物理世界中。” 在某个时候,推理机器 ( reasoning machines ) 将需要绕过中间人与物理现实本身进行交互。“把通用人工智能( AGI )想象成只存在于云端的东西,人类只是它的 ‘机器手’,这种想法很奇怪,” 奥特曼说,“这感觉不太对。”

在首尔的宴会厅里,奥特曼被问及学生应该如何为即将到来的人工智能革命做好准备,尤其是与他们的职业有关的方面。我和 OpenAI 的执行团队坐在人群之外,但仍能听到一种特有的呢喃声,这种呢喃声是人们普遍焦虑的一种表达方式。
奥特曼所到之处,都会遇到担心超级人工智能( superhuman AI )意味着极端财富归少数人所有,而其他人则面临失业的人群。他承认自己与“大多数人生活的现实”有些脱节( he is removed from “the reality of life for most people”)。据报道,他的身家以数亿美元计;人工智能潜在的对劳动力的颠覆也许并不总是他优先考虑的事情。奥特曼直接回答了观众中的年轻人这个意思:“你们即将迎来最伟大的黄金时代,” 他说。
奥特曼曾在旧金山告诉我,他收藏了大量关于技术革命的书籍。“ 其中一本特别好的是《 Pandaemonium (1660–1886):当代观察者眼中的机器时代到来 》( Pandaemonium (1660–1886): The Coming of the Machine as Seen by Contemporary Observers ),这本书汇集了在一个基本上没有机器的世界中长大的人们的书信、日记和其他文章,当他们发现自己生活在一个蒸汽机、动力织布机和轧棉机的世界中时,感到非常困惑。奥特曼说,他们体验到了很多现在人们正在经历的情绪,他们也做出了很多错误的预测,尤其是那些担心人类劳动很快就会变得多余的人。那个时代对很多人来说是艰难的,但也是奇妙的。但是从那个时代走出来,人类境况( human condition )毫无疑问得到了改善。
我
范阳