扫码打开虎嗅APP
最近,一向低调的苹果一改原本“封闭”的传统,悄悄发布了一篇有关深度神经网络研究的研究论文。
显然,苹果的这篇论文与自动驾驶有关,而它多年前就开始自动驾驶研发的小秘密早已大白于天下。该论文中的神经网络名为 VoxelNet,苹果一直在通过激光雷达点云训练它执行目标识别任务。
诚然,这样的方式相比基于图像的目标识别(很多年来一直是深度学习研究的主题之一)高级不了多少,但对自动驾驶汽车行业的深度学习来说,这确实是个新兴领域。因此,苹果的研究结果具有重大的参考价值。
自动驾驶汽车是人工智能和机器学习领域研究者们数十年科研的成果汇聚,他们这段漫长而丰富的研究过程,值得我们一起重新领略。苹果、百度的科学家们发布的研究成果便是这样的例子。2018年1月16日,雷锋网新智驾将在硅谷举办GAIR硅谷智能驾驶峰会,我们也邀请了重磅嘉宾进行主题报告分享,希望与大家一起领略这些探索者们、先锋们在自动驾驶科研生涯过程中的精彩点滴。更多峰会信息点击 https://gair.leiphone.com/gair/gairsv2018。
据新智驾了解,苹果的 VoxelNet 还吸收了此前两个将深度学习应用在激光雷达点云上的经验,它们都来自与百度相关的研究者。由于这三篇论文就像三重唱,因此下面我将对它们进行一次快速扫描。
第一篇名为《适用于点云车辆探测的 3D全卷积网络》(3D Fully Convolutional Network for Vehicle Detection in Point Cloud),作者为来自百度的 Bo Li。
在该论文中,Bo Li 主要在一个 3D 点云上应用了 DenseBox 全卷积网络(FCN)架构。
为此,Li 将点云分成了体素,这样就不用通过神经网络运行 2D 像素了,运行 3D 体素就行。
随后,训练全卷积网络来识别体素点云中的功能。对全卷积网络进行非样本处理以产生两个输出张量:其中一个是客体性张量,另一个则是包围盒张量。
从感知的目的来看,包围盒张量可能更有趣,它会在车辆周围“画”出一个包围盒。
第二篇论文是清华大学和百度多位研究者(Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia)的智慧结晶,该论文名为《自动驾驶多视角 3D 目标探测网络》(Multi-View 3D Object Detection Network for Autonomous Driving)。
研究人员开发了多视角 3D 网络(MV3D),它将激光雷达和摄像头图像整合进了一个复杂的神经网络管道。
与第一篇论文相反(在激光雷达点云之外构建立体像素),MV3D 只是用到了点云中两个单独的 2D 视角:一个来自前端,一个则来自顶端(鸟瞰角度)。此外,MV3D 还用到了与激光雷达扫描有关的 2D 摄像头图像。它们能提供三个单独的 2D 图像(激光雷达前置视角、激光雷达顶端视角和摄像头前端视角)。
随后,MV3D 可利用每个视角生成一个 2D 包围盒。鸟瞰视角的激光雷达生成的包围盒与地面平行,另外两个视角生成的 2D 包围盒则与地面垂直。将这些包围盒相结合,就能生成一个“护卫”住车辆的 3D 包围盒。
在网络末端,MV3D 则用到了“深度融合”来结合三个神经网络管道的输出。最终得出的结果就是目标分类和 3D 包围盒。不过实话说,我不太清楚“深度融合”是如何工作的。
第三篇论文就是最近一石激起千层浪的苹果论文,该论文名为《VoxelNet:基于 3D 目标识别点云的端对端学习》(VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection)。
VoxelNet 有三个组成部分,它们分别是:特征学习网络、卷积中间层和区域建议网络。
学者认为,特征学习网络是“知识的主要来源”。这个网络的工作是开启立体像素中半随机的点样本,随后这些点样本会穿过一个全互联网络(非全卷积网络)。该网络能学习逐点特性,这些特性与体素(与这些点同源)息息相关。
事实上,该网络在利用这些逐点特性培养体素特性,它们是这些体素的素描。虽然这里讲的有些过于简单,不过它们其实就是学习特性,不但能描述每个体素,还与车辆各部分的分类有关。因此,一个体素可能会带有“黑色”、“橡胶”和“胎面”等特性,从这里我们就能猜测到,这个体素“盯上”的是轮胎。当然,人不一定能理解每一个真实特性,但这确实是一个好思路。
最后这些体素特性经由卷积中间层进入区域建议网络,随后穿过该区域进入包围盒和分类区域。
这条研究线最令人印象深刻的地方其实在于它的新。那两篇百度论文一年前才首次公布,过去半年才开始得到大家的热烈讨论,而苹果的论文更是刚刚出炉。
现在可真是一个为自动驾驶汽车打造深度神经网络的好时候。