Ilya Sutskever：OpenAI“叛变者”的恐惧与信念-虎嗅网

本文来自微信公众号：硅谷101 （ID：TheValley101），作者：陈茜inTheValley，原文标题：《“叛变者”的恐惧与信念：OpenAI技术灵魂人物Ilya Sutskever》，题图来自：视觉中国

文章摘要

本文介绍了OpenAI的首席科学家Ilya Sutskever以及他对AI安全的恐惧和对技术发展的信念。文章分析了AI技术领域的两大思潮：担心安全的有效利他主义（EA）和支持技术加速的有效加速主义（E/ACC）。同时，介绍了Ilya Sutskever的背景和他在OpenAI的角色，以及他发起的“超级对齐”项目。

• Ilya Sutskever是OpenAI的首席科学家，他对AI安全问题表达了担忧并发起了“超级对齐”项目。

• 文章介绍了AI安全问题中的激励扭曲现象和AI的黑匣子问题，以及Dario Amodei和Anthropic等团队对AI安全的解决方案。

• 文章提到了硅谷的两大思潮：担心安全的有效利他主义（EA）和支持技术加速的有效加速主义（E/ACC），以及OpenAI董事会的分裂。

连续五天的OpenAI管理层冲突及谈判后，Sam Altman最终回归OpenAI。但皆大欢喜之际，是时候聊聊这次事件的另外一边声音了：OpenAI技术灵魂人物Ilya Sutskeve对AI安全的恐惧和他对技术发展的信念。

随着AI技术快速发展，硅谷两大对立思潮分裂明显：一派是担心安全的有效利他主义（EA），另一派是支持技术无限加速的有效加速主义（E/ACC），随着科技往前推进，这两种声音需要被更好平衡和理解。

“叛变者”Ilya Sutskeve

美国时间周二晚，OpenAI董事会风波又又又又发生了反转，最终Sam Altman回归OpenAI担任CEO，董事会全部重组，三名初步董事会成员包括Salesforce前联合首席执行官Bret Taylor，美国前财政部部长Larry Summers，以及Quora创始人Adam D'Angelo留在了董事会。

我相信，这个闹剧在之后几天还会有更多的细节和消息流出，但目前来看，事态应该不会再有大的反转了（希望如此），在连续四天的各种反转之后，OpenAI这家AI技术最重要的公司，终于暂时稳定了下来。

但是，在这个各方皆大欢喜的时刻，我们希望冷静下来，回顾一下这场“罢免风波”中一个非常重要的声音以及人物，就是这次风口浪尖上的“叛变者”：OpenAI的首席科学家、技术灵魂人物Ilya Sutskever。

这期我们来回顾一下Ilya Sutskever的成长历程，认识一下这位AI技术天才，同时，也从他近期的媒体采访发言中了解一下他的思想，包括有效利他主义、有效加速主义这些思想派别在硅谷科技领导者中间的博弈和冲突，以及Ilya发起的“超级对齐”是什么意思，OpenAI将如何发展，AI安全问题能如何解决。

成为OpenAI技术灵魂人物

1986年，Ilya Sutskever出生在苏联时期的俄罗斯，一直到五岁，全家搬去了以色列耶路撒冷，然后在以色列成长到大学时期，前往加拿大的多伦多大学学习电脑科学。之后，继续在多伦多大学进修研究生，而他的导师正是“深度学习之父”Geoffrey Hinton。

2012年Hinton带领Ilya Sutskever，还有另外一名学生Alex Krizhevsky发表了深度卷积神经网络AlexNet论文，之后在ImageNet图像识别竞赛上取得了轰动性成绩。然后Hinton带着Alex和Ilya创立了公司DNNResearch，被各个科技大厂竞价疯抢，最后他们选择了谷歌。

这一段历史，在Genius Makers这本回溯ChatGPT诞生前十年硅谷巨头如何布局AI的书里面有详细提及，中文也有译本叫《深度学习革命》。

之后，就是Ilya Sutskever在谷歌的将近三年时间。直到2015年，被马斯克和Greg Brockman拉去跟Sam Altman还有一众大佬们一起创立了OpenAI最初的非营利组织架构。Ilya Sutskever从第一天开始，就是OpenAI技术的灵魂人物。

最开始的时候，OpenAI内部可以说是各路神仙打架，因为最开始都是AI技术大牛，但大牛们各自擅长和研究领域不一样，所以有点像无头苍蝇一样各种尝试，所以大家可以看到最开始OpenAI尝试过AI机器人，最开始训练AI打游戏，但最开始几年都被谷歌吊打。

直到2017年，谷歌发表的Transformer架构论文Attention is all you need引发业内关注，OpenAI内部开始讨论集中火力走大模型方向，Ilya Sutskever支持了这个方向的发展，然后主导了GPT-1，GPT-2，GPT-3，GPT-4以及生成式画图DALLE系列模型的研发。但是到GPT-5的时候，他启动了“叛变”，将AI安全问题上升到舆论中心。

AI安全的担忧与分裂

其实，AI大模型的安全问题不是第一次造成OpenAI内部的分裂。2020年底，OpenAI的前核心员工Dario Amodei就带着10名心腹离开OpenAI，包括他自己的亲妹妹Daniela Amodei，创办了如今OpenAI最大的竞争对手Anthropic。而Dario出走的最根本原因就是安全问题。

如今的生成式AI还是一个黑匣子，人们并不知道其中是如何运作的，只知道堆参数堆算力的“大力出奇迹”的方式，而关注AI安全的这一波技术人员担心，“知其然不知其所以然”的人工智能发展态度会带来未知的风险。

有一个经典的AI案例是，机器学习中有一个现象叫做Reward hacking激励扭曲现象。这部分我们在硅谷101之前的《OpenAI黑手党》中有详细解释过，我在这里再简单解释一下：

比如说，我们给AI布置一个任务，让它去通关吃豆子游戏。按人类设置的激励假设是，你游戏玩得更好，通关得越快，被奖励的分数就越高。但AI研究人员发现，这个激励假设很容易被AI所扭曲，AI会执迷于获得更高的分数，要么走完所有错误的路吃掉所有的豆子来获得更高的分数，要么改掉游戏设置来作弊获得更高的分数。

但是AI却从来不理解，要把走出迷宫当作真正的目标。这就叫做Reward hacking，激励模型设计和AI真实做法之间有无法预测的不确定性，而形成的激励扭曲。而当AI神经网络变得更强大而出现激励扭曲时，AI会更容易产生更想象不到的方式去作弊来得到激励。再举一个更极端的例子，想象一下你和AI在下棋，你给AI布置的任务是赢下棋局，但除了跟你玩游戏获胜之外，还有一种情况是，AI认为把你消灭掉，是赢下棋局更容易的方式，那很可怕对吧？同时，生成式AI带来的其它安全问题还有错误信息，算法歧视问题，AI的滥用问题等等。

这就是为什么，很多AI从业人员呼吁减慢AI发展速度，真正需要关注安全问题。

Dario Amodei采取的方式是一方面用小规模人工智能网络的模型去真正搞清楚黑匣子问题。我曾经有机会当面问Dario黑匣子问题什么时候能搞清楚，他说需要2-3年的时间。另外一方面，Anthropic推出的ChatGPT竞品Claude号称基于“Constitutional人工智能”，用“有监督学习”的方式，让人工智能根据一套constitution中的原则来产生无害性偏好的数据集。确实有业内人士反馈说，Claude感觉上是更安全可靠的，但我还是非常期待AI黑匣子能被完全解密的那一天。

Ilya的“超级对齐”

到了OpenAI这边，Ilya Sutskever在Dario Amodei叛逃的那一次并没有跟着离开，而是留下来继续研发了GPT-3.5，ChatGPT，以及Dall-E系列，之后GPT-4和如今的GPT-5。直到这次，加入了董事会对Sam Altman的罢免。

我其实不惊讶Ilya Sutskever最终对安全问题的反击，只是没想到是这种决然的方式。其实也是有迹可循，在最近几个月，Ilya Sutskever开始频繁对媒体表示对AI安全的担心。

还记得我们开头提到的，Ilya Sutskever是“深度学习之父”Geoffrey Hinton的学生。Geoffrey Hinton今年早些时候从谷歌辞职，就是为了能更好地对人工智能安全提出警告，并且号称“对毕生工作感到后悔和恐惧”。所以，作为Hinton的学生，Ilya对AI的担心很早就存在。但与Dario Amodei对AI安全的解法不一样，Ilya的解法叫做“超级对齐”，Superalignment。“AI对齐”的意思是，要求AI系统的目标要和人类的价值观与利益相对齐。

有媒体报道说，Ilya有一次和团队在外团建的时候，拿出了一根木质雕像，来代表“不对齐”的人工智能，然后把它点燃，强烈表达他对不受控制的人工智能的不接受，以及倡导与人类价值观和安全标准保持一致。

所以在今年7月，OpenAI正式宣布成立一个新的研究团队“超级对齐”Superalignment团队，由Ilya和研究员Jan Leike共同领导，计划未来4年投入20%算力，用AI监督AI的方式，解决超智能AI对齐问题。

用AI来监督AI会是一种新的尝试，我们现在也不知道是否能成功解决AI安全的问题。但Ilya认为，这是我们现在必须要做的。

OpenAI的事态发展到现在，超出了Ilya的想象和控制，他本人也在推特上表示，自己后悔加入这次的董事会罢免中，不想伤害OpenAI，并且他的名字出人意料地出现在了要求董事会集体辞职的员工请愿书上。之后，董事会再度和Sam Altman谈判，最终Sam回到OpenAI。

在一天之前，我们《硅谷101》播客的时候嘉宾说了一段话还挺触动我的，他说：整个事件中，Ilya Sutskever肯定是挨骂最多的那个人，Sam Altman肯定是在硅谷受支持最多的那个人，这就是为什么我们要保护Ilya，这个对立面的声音，也许未来很多年往回看，我们会发现，Ilya的角色也许会相当于《三体》中的执剑人罗辑。

陶芳波博士，MindOS创始人：

其实Ilya不是一个追求权利的人，也不是支持站队或者思潮运动的人，Ilya持有的观点我觉得是跟他的老师比较像的，但他最后的选择比他的老师更勇敢一点，当然也跟他更年轻有关系。他觉得，我也保守，我也相信AI它最终可能会有很大的风险，但我依然要在一个企业里面，我依然要在组织里面，而不是只在外面提醒大家有这个风险，我依然要担起这个责任去创建一门新的科学，这门科学叫做Alignment（对齐技术），来帮助未来的AI真的具有某种底层的编程的注入，来确保它们的安全性。

这是一个完全新的领域，没有OpenAI这群人之前，没有人知道还有一门科学叫做“对齐科学”我们要去关注的。所以他这种在行业中去推动进步的同时，又有勇气去考虑别人考虑不到的事情，并推动一个新的科学发展的这种精神，我觉得是要被人了解到的，而不只是认为他是一个保守主义者，甚至有人会觉得他是一个白莲花，我觉得这是对他的一个误读。

EA vs. E/ACC

OpenAI在网页上这样写到：“鉴于我们现在所看到的情况，可以想象，在未来十年内，人工智能系统将超过大多数领域的专家技能水平，并进行与当今最大的公司之一一样多的生产活动。”所以，十年之后，人类的社会架构可能会发生重大改变。在如此大变革来临之际，我观察到的硅谷是极度分裂的，在这样的分裂当中，出现了所谓“有效利他主义”和“有效加速主义”的两大思维派系。

有效利他主义Effective Altruism，简称EA，目前是不少科技领袖和创业者们身上的标签。他们认为，如果生活在数千英里外的人很重要，那么生活在数千年之后的人们也同样重要。也就是说，我们必须要被以后的人类，我们的后代来提前铺垫。

OpenAI董事会中的两名女性董事，曾经或目前深度参与过EA的慈善基金或组织，是非常明显的EA，也可以理解为AI保守派，希望重视AI安全。其中媒体也报道说，Helen因为之前的一篇研究文章中指出OpenAI的安全问题而表扬了对手Anthropic、跟Sam Altman起过争执。

而另外一个思潮，叫做“有效加速主义”，Effective Accelerationism，简称E/ACC，你会在推特，LinkedIn上很多地方看到硅谷不少人将自己归到这个派别中（Garry Tan/Marc Andreessen推特账号），孵化器YC的掌门人Garry Tan甚至做了件E/ACC的衣服经常穿着。他们认为，技术与资本应该联合，无条件实现加速技术创新，并且快速推向市场来颠覆社会结构。

这两股技术信仰最近几年一直在硅谷打架，也不出意外，发生在OpenAI身上。

但无论是EA还是E/ACC，我相信，每个派别里，都有很多人是真正爱人类的，所以他们也希望，AI也能够爱人类。而这种爱的定义，要很小心很谨慎，也很重要。

所以你们是EA还是E/ACC呢？

本文来自微信公众号：硅谷101 （ID：TheValley101），作者：陈茜inTheValley

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

Ilya Sutskever：OpenAI“叛变者”的恐惧与信念

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜