重振人工智能雄心壮志的时刻已经到了-虎嗅网

（原文来自 MIT 科技评论，虎嗅评论）

在1955年夏天，4名顶级美国数学家（那时还没有“计算机科学家”这个术语）倡议在达特茅斯学院召开了一次会议，来探讨被他们称为“人工智能”的主题。“这项研究是在一个猜想的基础上进行，那就是学习的每一方面，或智能的任何其他特征，可以在原则上被精确地描述为，能够造出一部机器来对其进行模仿，”倡议书说。

这次会议于1956年进行，为期一个月，通常被认为是人工智能研究的起始。倡议书作者中的三人，即表处理语言（LISP）发明者约翰·麦卡锡（John McCarthy），麻省理工学院40届理学硕士、40届博士、信息论先驱克劳德·香农（Claude Shannon），以及后来的图灵奖得主马尔温·明斯基（Marvin Minsky），稍后都曾在麻省理工学院授课。

麦卡锡和明斯基（55年后他仍是麻省理工学院教师）创立了麻省理工学院人工智能实验室。

到1967年，计算机技术发展迅速，明斯基在他的书《计算：有限和无限的机器》（Computation: Finite and Infinite Machines）中大胆写道，“我确信，在一代人的时间内，智能的各个部分，鲜有哪个会在这部机器（电脑）的领域之外，创造‘人工智能’的问题将在本质上解决。”

当然，明斯基的预测过于乐观。早期人工智能研究者把赢得国际象棋比赛当成智能应用的范例，但后来发现这比区分口语词汇或识别面孔之类计算问题要容易得多。

在20世纪80、90年代，随着复制人类智能的难度逐渐清晰化，人工智能具有了某些非常不同的含义，那就是实用的专用计算机系统，通常基于“机器学习”，这应用到对大量训练示例的统计分析。正是这一手段给了我们语音识别和自动文本翻译功能。

麻省理工学院的研究者们相信，现在是重振人工智能雄心壮志的时刻了，因为有希望开发出更好的治疗神经紊乱的疗法，以及能以人类直觉预测我们需求的计算机系统。美国国家科学基金会（National Science Foundation）似乎也同意这一点。

去年9月，该基金会宣布为人脑及机器思维研究中心（Center for Brains, Minds, and Machines，简称CBMM）捐赠2千5百万美元，该中心位于麻省理工学院的麦戈文脑科学硏究所（McGovern Institute for Brain Research）。

麻省理工学院为该中心提供12名主要研究人员，另有6人来自哈佛，还有5人来自其他机构。

CBMM由托马索·波焦（Tomaso Poggio）领导，他是一名脑科学和人类行为学教授，也是麦戈文研究所和计算机科学与人工智能实验室（Computer Science and Artificial Intelligence Laboratory，简称CSAIL）的首席研究员。

对他的双重身份展示了新中心的首要理念：如果能够把计算、生理和心理的方法相结合，我们就能比孤立研究更快地理解人类智能。

“这个中心尝试的是，为了复制人类智能，需要对大脑和认知了解更多，而不是像50年前那样仅仅依靠计算机科学，”波焦说。

帕特里克·温斯顿（Patrick Winston）是电子工程和计算机科学系教授和CBMM的研究协调员，他补充说，调查问题的技术在近年来有着显著的提升。

温斯顿说，首先，“计算是自由的，不论需要何种类型的计算，都能够做到。”他还说，其次，“fMRI 现在已成常规。”fMRI 是指功能性磁共振成像，可用于研究大脑活动。

他还指出了一些技术，例如经颅磁刺激，能够在认知测试中扰乱特定大脑区域的活动，以及光遗传学，这种技术利用光来选择性地激活或沉默大脑中的转基因神经元。

光遗传学的先驱是99届工程硕士埃德-博伊登（Ed Boyden），他是麻省理工学院媒体实验室（Media Lab）的教授，也是麦戈文研究所和新中心的首席研究员。

中心的研究围绕几个主要的主题或要点包括：视觉智力，其中集成了视觉、语言和运动技巧；智力回路，将包括神经生物学和电气工程学的研究；智能发展；以及社会智能。

波焦是视觉智力的主要研究者之一，他还将领导一个理论平台的开发，旨在将研究结合在其他领域。

对于每一个要点，CBMM研究者们正致力于定义一组基准的问题，令他们可以以此来评估他们的进展。

波焦提供了一个例子，与他之前在视觉系统的研究相关。面对一副人们互动的图像，一台智能计算机应当能为5个问题提供合理的答案，从易到难分别是：图像里有什么？图像里都是谁？人们在做什么？谁在对谁做什么？接下来会发生什么？

不变量

探索围绕着人类智能的所有问题的理论框架，是一个艰巨的任务。但是波焦对于大脑如何回答他列表上的第一个问题的研究，为这一框架可能的样子提供了一张草图。

“图像里有什么？”是人工智能研究的一个蓬勃发展的领域，需开发物体识别的电脑系统来能够回答这个问题。

通常，物体识别系统会使用某些种类的机器学习。人类标记样本图像，指示哪些物体出现在哪里，接着系统会尝试识别该物体在所有图像上所共有的一些常见特性。

“这与人类学习或动物学习完全不同，”他说。“当一个孩子学习认识一只熊或一只狮子，你无需为他展示一百万次狮子的照片。大概两到三次就够了。”

波焦认为与机器学习系统不同的是，人脑是以一种“不变”的方式描绘物体：不论物体有多大，是在视觉区域的何处，还是在旋转的，描绘出的都是一样的。他还相信，自己对这种描述的可能构成有一个看上去合理的理论。

波焦的理论需要大脑或尝试模拟大脑的电脑系统存储一些物体的一块模板，其中包含这些物体的每一种变化——类型、位置和在平面上的旋转。例如，大脑可能会存储一张人脸的几十张图像，描绘出其360°的旋转角度。

一个陌生的物体将被描绘成一个“点积”的集合，介于其图像和模板之间。点积是线性代数的一种标准算法。不论该物体的大小、位置或方向如何，该集合总会维持原样。

该理论具有说服力的一点是，点积把两组复杂数据集（例如视觉图像）的对比，减少到一个数字。点积的各个集合，即便是为多个模板，也不会在记忆中占据太多空间。波焦说，另一个具有说服力的一点是，“对于神经元来说，点积是最简单的计算之一，或许就是最简单的。”

在实验中，波焦的系统或许无法超越机器学习系统。但它需要较少的训练例子，这表明它更好地复制了人脑的运作。对于大多数计算任务，人脑的方法通常是更好的。

波焦相信，积点的集合还能锁定更抽象的概念。包括不同形状物体集群的模板，就像一个骰子一面上的点一样排列，或者排成一列或是圆形，能够加强数字的概念。一个从不同透视关系观察的平行线的模板，能够加强平行或透视关系的概念。“可能会有更多有趣的事情有待探索，”他说。

模糊思维

和波焦一样，乔希·特南鲍姆（Josh Tenenbaum）是脑与认知科学系（Department of Brain and Cognitive Sciences，简称BCS）的教授和CSAIL的首席研究员。

他领导的CBMM开发要点，集中于直观把握孩子也能展示的物理现象，同时他也进行有助于波焦领导的理论工作的研究。

特南鲍姆解释说，最早的人工智能研究集中在构建数学语言上，例如可以为“鸟能够飞”和“鸽子是鸟类”等论断编码。

研究者们认为，如果语言足够严谨，计算机算法将能够梳理编写在其中的论断，并计算出所有逻辑上有效的推论。

但是，理解语言论断所需要的背景信息被证明远比预期中要多。例如，并不是所有鸟都能飞。

在不能飞的鸟类中，关在笼子中的知更鸟和翅膀断了的知更鸟是有区别的，另一种区别是各种类型的知更鸟和一只企鹅的区别。

以手工编写出足够的这类常识性例外，以使最基础类型的推理成为可能，被证明过分耗时。

相比之下，通过机器学习，电脑可以自行学习某种东西的大量例子，并推断这些例子的共同点。

例如，通过1百万张一只狮子的图像，机器学习算法可以量化自身的猜测：77%拥有这类视觉特征的图像是狮子的图像。

但是，虽然这种方法对于明确定义的问题处理得不错，例如识别鸟类的图像，但在处理更抽象的概念时会遇到麻烦，例如飞行这种鸟类、直升机、风筝和超级英雄共有的能力。而比起语法和母性来说，飞行还算是一个具体化的概念。

特南鲍姆和他的学生们已经开发出一种新型工具，名为概率性编程语言，其中融合了新旧人工智能的最佳特色。

如同早期人工智能语言一样，它包含了推理规则。但这些规则是概率性的。例如说食火鸡是一种鸟，以特南鲍姆的语言编写的程序估计会得出这样的结论：食火鸡可能可以飞。

但假如程序随后被告知食火鸡的体重将近200磅，它大概就会把飞行可能性降低。

“在人工智能的两个早期阶段，最大的分歧在于符号对抗统计，”特南鲍姆说。“我们在数学方面的发现之一是如何将这两点相结合，如何以这类符号语言进行统计推断和概率推理。”

读懂人们

波焦的五个基准问题中的第二个是“图像里都是谁？”。

这个问题长期以来一直与BCS教授南希·坎维舍（Nancy Kanwisher）的工作相关，她最知名的领域是，使用功能性核磁共振成像来识别和分析大脑的面部感知专门区域。

坎维舍领导着CBMM的社会智能要点研究，她把这当成自己先前研究的自然延伸。“当你看一张脸时，你感兴趣的不仅是基本的人口统计方面信息，例如那具体是谁，他们是男是女，他们年龄多大，”她说。“你能说出的不仅是这个人快乐或悲伤，还有他们是自信还是踌躇，精力充沛还是被动。通过非常简短的一瞥，我们能够从一张脸上看出极为丰富的东西。”

坎维舍说，人类通过肢体语言，同样可以推断出很多关于人们情绪、意图，以及与他人的关系。肢体语言有着符合计算建模的优势。

她还援引了已故的纳莉尼·阿姆巴迪（Nalini Ambady）的研究，后者是斯坦福大学的社会心理学家，曾开发出“薄片判断”理论。

“在学期开始时，她录下了哈佛课程助教在班级前讲课，”坎维舍说。“然后她把这些视频非常简短的片段向心理学实验的对象展示，并说‘为这名教师的效率打分’。这些人都是看到一个人在教室前对一个班级讲话的几秒钟，甚至都没听到在说什么。而她发现，这些评分结果，与那个人的实际学生的评分非常接近。”

坎维舍说，CBMM社会智能要点的第一个项目，将是设计一组实验任务，令研究人员能够量化人类社会知觉。一旦研究人员建立一条基线，他们就能进行一些研究，例如童年期间各项任务的表现，或是自闭症儿童不同于其他儿童的表现。

他们还能确认参与社会知觉的大脑区域，方法是通过功能性核磁共振成像来测量神经活动，或是通过经颅磁刺激来干扰表现。在收集所有这些数据之后，他们将尝试为大脑运行进行精确计算机建模。

听懂故事

波焦的列表上后边的问题是“谁在对谁做什么？”和“接下来会发生什么？”这些问题吸引着帕特里克·温斯顿（Patrick Winston）。

他认为，定义人类智能的特征就是讲述和理解故事。

这种能力甚至在标记图像过程中发挥作用。正如温斯顿喜欢指出的一样，一个人类能够把一个人拿起杯子放到嘴边的图像识别为他在喝酒。如果这个人拿着杯子向前几英寸，那他就是在敬酒。不过一只猫头朝上接着水龙头里的几滴水的图像，也会被人们识别为喝水的实例。

“你必须思考你所看到的是一个故事，”温斯顿说。“它们得到相同的标签，因为这是相同的故事，而不是因为看起来一样。”

这就是把一个研究要点贡献给视觉、语言，以及社会和运动技能的一个原因。

为说明另一个原因，温斯顿援引了发展心理学家伊丽莎白·斯皮克（Elizabeth Spelke）进行的一项实验，她是前麻省理工学院教员，目前在哈佛，是发展要点的主要研究者之一。

斯皮克曾被一些实验引起了兴趣，在那些实验中，研究人员把老鼠放在一间房间中心的一个旋转平台上。食物被明显地放在一个角落，但随后被挡板遮住。相同的挡板被安置在其余三个角落，平台则被旋转。

斯皮克决定将该研究扩展到人类儿童和成人上，隐藏物改为一个玩具或一串钥匙而非食物。

对于所有动物、儿童和成人来说，一旦旋转停止，实验对象或者走向被遮蔽物的角落，或者走向对角的角落（看起来和被遮蔽物的角落一样），两者概率相等。

研究者们还改变了实验，为目标物体对角角落的墙上涂上不同的颜色。动物和儿童仍然以相等的概率选择正确角落或对角角落，而成年人则可以相对可靠地找到目标。

这就是事情变得有趣的地方。如果成年人在前往目标前，被要求听一段文本并背诵，那么他们又会被截然相反的角落所混淆。收听和背诵文本“消耗了人类的语言处理器，把他们降到了老鼠的级别，”温斯顿说。“之后他们会说，‘是的，我可以看到蓝色的墙，但却没能记住。’”

回答CBMM的基准列表上最高级别的问题，大概会比NSF最初资助的5年需要长得多的时间。不过波焦说，“是时候再试一次了。已经过了50年。我们不清楚这一次能否成功。但如果我们不去尝试，就无从知道。”

如对本稿件有异议或投诉，请联系tougao@huxiu.com

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜