放弃指令，如何让AI更懂你？-虎嗅网

本文来自微信公众号：神经现实（ID：neureality），作者：Melanie Mitchell，译者：Xhaiden，审校：Lemona，编辑：eggriel，头图来自：视觉中国

许多年以前，我在一台老旧的、Symbolics公司的Lisp机*上学会了编程。这个操作系统有一个内嵌的命令“DWIM”，是“Do What I Mean”（做我想做的）的简称。如果我输入一句命令后报错了，我可以输入“DWIM”，然后机器就会试着弄清楚我本来想要干什么。令人惊讶的是，在一小部分时间里，它的确奏效了。

DWIM命令是更加现代的“AI对齐”（AI alignment，又称人工智能对齐）*问题的缩影：人类倾向于给予机器模糊的或错误的指令，且我们希望机器按我们的意思去做，而不一定是按我们所说的去做。

*译者注：Lisp机（Lisp machine），一种高效运行并以Lisp语言作为主要软件开发语言的通用型计算机（来源：维基百科）；AI对齐（AI alignment），指引导人工智能系统的行为，使其符合设计者的利益和预期目标（来源：维基百科）。

计算机经常会误解我们想让它们做的事情，产生令人意想不到的、常常是好笑的结果。例如，在检查为什么一个图像分类程序的表现好得可疑时，一位机器学习研究者发现，这个程序分类的基础不是图像本身，而是访问图像文件所需的时间——不同类别的图像被存储不同的数据库中，而访问这些不同的数据库所需的时间有细微差异^[1]。另一位有想法的程序员希望他的Roomba吸尘机器人不要撞到家具，所以，他将Roomba与一个神经网络相连，在Roomba提高速度时奖励它，但在它的前缓冲器撞到其他物体时给予惩罚^[2]。Roomba对此的应对措施就是一直倒退行驶。

但是，AI对齐领域的研究者们看到的是这些轶事的黑暗面。事实上，他们相信，机器没有能力辨别我们真正想让它们做什么——这是一种存在主义风险（existential risk）。他们认为，为了解决这一问题，我们必须想办法让人工智能系统与人类的偏好、目标和价值观对齐。

在哲学家尼克·博斯特罗姆（Nick Bostrom）2014年的畅销书《超智能》（Superintelligence）中，这一观点获得了重视。他在一定程度上认为，计算机日益提高的智能可能对人类的未来构成直接威胁。博斯特罗姆始终没有精确地定义智能（intelligence），但是他采用的定义和AI对齐领域的其他大多数人一样，在后来被人工智能研究者斯图尔特·拉塞尔（Stuart Russell）更加精确地描述为：“如果一个实体基于它所感知到的内容，选择了预期能够实现它的目标的行动，那么我们就可以认为，大体上来说，它是智能的^[3]。”

博斯特罗姆对于人工智能风险的观点基于两大理论。首先，用博斯特罗姆的话来说，正交性理论（orthogonality thesis）认为，“智能和最终的目标处于两条正相交的坐标轴，而不同的个体可能的沿着这两条轴线自由变化位置。换言之，原则上来说，大概任何等级的智能都能基本拥有任何最终目标。”第二个理论是工具趋同理论*（instrumental convergence thesis）：一个智能体会以促进自身生存、自我完善和资源获取的方式行动，只要这些方式能够让该智能体更有可能实现其最终目标。博斯特罗姆最后还做出了一个假设：研究者很快就会创造出一个人工智能中的超智能体（超智能AI），并且它会“在几乎所有兴趣领域中，拥有远超人类的认知表现”。

*译者注：工具趋同（instrumental convergence），指拥有智能的个体在追求不同的最终目标时，可能出现追求相似的次要目标的倾向。具体而言，智能体可能会无止境地追寻工具性的目标——为某些特定目的而制定的目标，但其本身并非最终目标——却永远不能真正地达到最终目标（来源：维基百科）。

对博斯特罗姆和其他AI对齐领域内人士来说，这一前景会给人类引来灭顶之灾，除非我们能够成功地让超智能AI与我们的欲望和价值观对齐。博斯特罗姆用一项现在已经非常知名的思维实验阐明了这一威胁：假设我们把一个超智能AI的最终目标设为最大化回形针的产量。根据博斯特罗姆的理论，为了达成这个目标，这个超智能AI系统会使用它超人类的聪慧和创造力，来增强自己的能量与控制，最终获得全世界所有的资源，用于制造更多的回形针。人类会灭绝，但回形针的产量的确会达到最大化。

如果你相信，智能是由实现目标的能力定义的，那么，任何目标都可以由人类“植入”到超智能AI中，并且它将使用它的超级智能不择手段地达成目标。之后，你就会得出和拉塞尔相同的结论：“要确保灾难发生，你只需要一台由人类设定的能力超强的机器，而人类无法完美地（完整且正确地）设定人类偏好^[4]。”

这是科幻小说中常见的主题——人类被失控的机器威胁，因为机器错误解读了人类的欲望。现在，不少人工智能研究人员们都非常担心这些场景会在现实中上演。几十家机构已经为这个问题投入了数亿美元；世界各地的大学和谷歌、Meta以及OpenAI等大型人工智能公司也正在进行关于AI对齐的研究。

那么，那些由非超智能AI带来的、更加直接的风险怎么办呢？比如失业、偏见、隐私侵犯和错误信息传播？事实证明，主要关心这些短期风险的研究者与那些更担心长期对齐风险的研究者们鲜有交集。实际上，这像是一场人工智能文化战争：一方更担心当前的风险，而不是他们认为不切实际的技术未来主义（techno-futurism），另一方则认为超智能AI带来的潜在灾难级风险比眼前的风险更加紧迫。

对于很多外行人来说，AI对齐领域看上去像是一个宗教：他们有受人尊敬的领袖、无可争议的教义和虔诚的信徒，并且正在与一个潜在的、无所不能的敌人战斗——这个敌人就是没有与人类价值对齐的超智能AI。的确，计算机科学家和博主斯科特·阿伦森（Scott Aaronson）最近注意到，AI对齐宗教内现在有“正交”和“改革”两大分支^[5]。他写道，前者担忧的几乎全是“未对齐的人工智能在欺骗人类的同时，试图毁灭人类。”与之相对的，他写道，“对于改革派人工智能风险论者来说，我们相信这样的可能性，但我们同样担心强大的人工智能被心怀歹念的人武器化——这会大大提早存在主义风险的到来。”

许多研究者正在积极投身于有关AI对齐的课题中；这些课题的涵盖范围广泛，包括向机器传授道德哲学法则^[6]，也有使用大众道德判断数据来训练大型的语言模型^[7]。但让机器对现实情况进行推理，没有哪一项尝试特别有用。许多作家注意到，阻止机器学习人类偏好和价值观的很多障碍是：人们常常是不理性的，会以违背价值观的方式行事，并且人们的价值观也会随着个体年龄的增长和时代的更替发生变化。毕竟，我们也不清楚应该让机器学习谁的价值观。

对齐领域内的许多人认为，逆向强化学习（inverse reinforcement learning，IRL）这一机器学习技术是最有前景的下一步路线^[8]。对齐支持者们认为，被“植入”的目标会在不经意间导致回形针最大化的情景。而在逆向强化学习中，机器不会被植入一个它需要最大化达成的目标；反之，它的任务是观察人类行为，推测他们的偏好、目标和价值观。近几年，研究者已经成功使用逆向强化学习训练机器，让它们通过观察人类来学习如何玩电子游戏^[9]，并通过给予人类的增量反馈（人们观看机器人多次尝试后空翻的短片，然后选出看上去最成功的一次），来教授机器人如何后空翻^[10]。

我们还不清楚，类似的方法是否能够教授机器更加微妙且抽象的人类价值观。著有一部有关AI对齐的畅销科普书的作家布莱恩·克里斯汀（Brian Christian）对此持乐观态度：“‘后空翻’已经是一个很模糊的概念了，所以把它换成更加模糊、难以形容的概念，如‘帮助’、‘善良’或‘良好’行为，也不是那么无法想象。”

然而，我认为他小瞧了这项挑战。善良或良好行为这样的道德观念，远比逆向强化学习目前精通的任何事物都要复杂，并依赖于情景。比如“诚实”的概念——我们肯定希望我们的人工智能系统能保持诚实。的确，现在大型语言模型的一个主要问题就是，它们没有能力区分真相和谎言。与此同时，我们有时候可能希望我们的人工智能助手能像人类一样，收敛一下它们的诚实：为了保护隐私、为了避免对他人无礼，或者为了保护某人安全，以及无数其他难以表达的情况。

其他道德概念也是如此复杂。我们应该认清的是，教授机器道德概念关键的第一步是，让机器先理解类似人类的概念。我认为这依然是人工智能最重要的未决问题。

此外，我认为AI对齐的概念背后的科学存在更加根本的问题。大多数讨论将超智能AI想象为一个机器，它在所有认知任务上的表现都超过人类，但仍然奇怪地缺少类似于人类的常识，本质上仍然是机器。并且，重要的是，为了和博斯特罗姆的正交论保持一致，机器在不具备任何自身目标或价值观的情况下，实现了超级智能，并反而在等待人类植入目标。

然而，智能是这样的吗？现代的心理科学或神经科学中没有任何证据支持这种可能性。至少在人类中，智能与我们的目标、价值观，以及自我感觉、我们所处的社会和文化环境是深度相联的。我们总是直觉地认为我们能够把纯粹的智能与这些因素分离，而这导致了人工智能历史上的许多次失败的预测。据我们所知，似乎更有可能的是，在一个智慧的人工智能系统中植入目标没有那么容易。它的目标或许像我们一样，需要在它自身的社会和文化培养下不断发展而成。

在《AI新生》（Human Compatible）一书中，拉塞尔强调了研究对齐问题的紧迫性：“我们应该在何时开始担忧潜在的、但可以威胁人类的严重问题？这不仅取决于问题何时发生，还取决于我们需要花多长时间准备并实施一项解决方案。”但是，智能是什么、它与我们生活中的其他方面能有多大程度的分离？如果对这些问题没有更好的理解，我们甚至没法定义问题，更不用说找到解决方案了。恰当地定义和解决AI对齐问题并不容易；我们需要发展出一个广泛的、有科学基础的关于智能的理论^[11]。

后记

Xhaiden：作为人类，我们到底希望出现什么样的人工智能？是超强的工具还是真正的智能体？

Lemona：我们已经了解到，生硬地在人工智能中植入目标可能会带来可怕的后果——比如人类灭绝，回形针称霸。但同样值得思考的一点是，如果人工智能由人类开发，从人类的数据中学习，要向人类的喜好、价值观与目标看齐，这个“人类”到底是谁？如果要让人工智能像人类一样以一种社会化的方式学习、成长，那相应的社会问题也同样会在人工智能中出现。它们是不是会有种族歧视倾向？如果大部分开发者都是男性，它们的目标是不是也会变得更加男性化而忽略女性不同的需求？为了解决对齐中的种种难题，我们需要的可能不只是一个关于智能的理论。

参考文献：

1.https://news.ycombinator.com/item?id=6269114

2.https://twitter.com/smingleigh/status/1060325665671692288

3.https://people.eecs.berkeley.edu/~russell/papers/mi19book-hcai.pdf

4.https://direct.mit.edu/daed/article/151/2/43/110605/If-We-Succeed

5.https://scottaaronson.blog/?p=6821

6.https://link.springer.com/article/10.1007/s10676-006-0004-4

7.https://arxiv.org/abs/2110.07574

8.https://dl.acm.org/doi/10.5555/645529.657801

9.https://arxiv.org/abs/1904.06387

10.https://arxiv.org/abs/1706.03741

11.https://arxiv.org/abs/2102.10717

原文：https://www.quantamagazine.org/what-does-it-mean-to-align-ai-with-human-values-20221213/

本文来自微信公众号：神经现实（ID：neureality），作者：Melanie Mitchell，译者：Xhaiden，审校：Lemona，编辑：eggriel

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

放弃指令，如何让AI更懂你？

大 家 都 在 搜

大家都在搜