扫码打开虎嗅APP
本文来自微信公众号:Engineering(ID:engineering2015),作者:朱毅鑫等,原文标题:《“暗”,不止于“深”——迈向认知智能与类人常识的范式转换 丨Engineering》,题图来源:视觉中国
近年来,深度学习的研究进展本质上是基于“以大数据驱动小任务”的范式,其依靠的是通过大量数据训练的分类器解决一项单一的任务。
本文中,我们提出将范式中数据和任务的关系颠倒。在“以小数据驱动大任务”的新范式下,只有少量数据的单一人工智能系统便可以发展出“常识”,并且用“常识”来解决各种任务。通过回顾综合机器与人类视觉常识模型的最新突破,我们将阐释这个新范式的潜力。
我们将功能性(functionality)、物理(physics)、意图(intent)、因果(causality)和效用(utility)(FPICU)认定为拥有类人常识的认知人工智能的5个核心领域。对于视觉理解,FPICU超越了传统的“是什么”和“在何处”的问题框架,而聚焦于“为什么”和“怎么样”。这些问题在像素层面上并不可见,却促进了视觉场景的创建、维护和发展。因此,我们将它们称为视觉的“暗物质”。
正如仅仅研究可观察到的物质不足以理解宇宙,我们认为不研究学习FPICU等“暗物质”就无法理解视觉。本文通过展示如何在少量训练数据的条件下观测和应用FPICU来广泛完成一系列挑战性任务,从而证明这个新观点具有开发类人常识的认知智能的能力。这些任务包括工具使用、规划、效用推断和社交学习。总而言之,为了更好地完成任务,下一代人工智能技术必须具备类人常识的“暗物质”。
计算机视觉是人工智能的门户,也是现代智能系统的主要组成成分。根据先驱大卫·马尔提出的经典定义:“计算机视觉的首要任务是感知‘什么’在‘何处’”。“什么”指的是物体识别(物体视觉),而“何处”指的是三维重建和物体定位(空间视觉)。这一定义对应人脑中的两条神经通路。①腹侧神经通路:负责物体和场景的类别识别;②背侧神经通路:负责景深和形状的重建、场景布局的表征,以及视觉引导下的动作等。此范式引领了20世纪80~90年代计算机视觉领域中基于几何的方法,以及过去20年基于外观特征的方法。
近几年来,硬件加速和大量可用的标注数据推动了深度神经网络(deep neural network, DNN)的快速发展,进而助力了物体检测与定位技术的进步。然而,我们距离解决计算机视觉问题和真正的机器智能问题依然很远。当前的计算机视觉系统的推理能力范围狭窄且高度特异化,需要针对专门任务设计大型标注数据集。同时,这样的视觉系统缺乏对物理世界与社交世界运作常识的理解,而这些常识对于普通成年人是显而易见的。为了填补现代计算机视觉和人类视觉之间的空白,我们必须找到一个更广阔的视角,从中对缺失的维度(即类人常识)进行建模和推理。
我们当前对于视觉的理解类似于宇宙学和天体物理学领域中观测到的宇宙。在20世纪80年代物理学家提出的标准宇宙学模型中,通过电磁波谱观察到的质能仅占不到5%的宇宙部分,而宇宙的其余部分则是暗物质(23%)和暗能量(72%)。暗物质和暗能量的性质和特点无法被直接观察到,必须使用复杂模型从可见的质能中推断得出。虽然它们不可见,但是暗物质和暗能量有助于解释可见宇宙的形成、演化和运动。
我们希望借用这一物理学概念,来提升视觉界及其他领域对于这些缺失的维度以及其联合表征和联合推理的潜在好处的认知。我们认为,人类之所以既可以从稀疏而高维的数据中得出丰富的推论,又可以从一张图片中获取深刻的理解,都是因为我们拥有普遍但是无法用视觉感知的知识,而它们永远无法仅仅通过询问“什么” 和“何处”来理解。具体来说,人造物体和场景的设计中暗含了潜在的功能,而这些功能由不可直接观测的物理定律及其引申出的因果关系决定。
在本文中,我们旨在吸引研究者关注一个具有巨大希望的新方向——将“暗”实体和关系整合到视觉与人工智能研究中。通过推理可见像素以外的不可见因素,我们可以近似人类的常识,使用有限的数据来实现各种任务的范化。这些任务包括并融合了经典的“什么” 和“何处”问题(即分类、定位和重建)和“为什么、如何以及如果”问题(包括但不限于因果推理、直觉物理、学习功能性和可供性、意图预测,以及效用学习)。由此,我们称这种范式为“以小数据驱动大任务”的新型范式。
完整论文链接:http://www.engineering.org.cn/ch/10.1016/j.eng.2020.01.011
水和其他清澈的液体在人类的日常生活中起着重要的作用,但在图像中几乎检测不到。(a)水只会引起外观上的微小变化;(b)用虚线表示的“暗”实体:水、流态(此处为由三角形表示的杯子和水龙头)以及人的意图,动作(菱形)牵涉了智能体(五边形)和杯子(圆圈里的物体)
关键词:计算机视觉;人工智能;因果;直觉物理;功能性;主观意图;效用
以上内容来自:Yixin Zhu, Tao Gao, Lifeng Fan, Siyuan Huang, Mark Edmonds, Hangxin Liu, Feng Gao, Chi Zhang, Siyuan Qi, Ying Nian Wu, Joshua B. Tenenbaum, Song-Chun Zhu. Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense [J]. Engineering, 2020, 6(3):310-345.
本文来自微信公众号:Engineering(ID:engineering2015),作者:朱毅鑫等