2016-12-14 16:01

这家曾和 DeepMind 齐名的人工智能公司，蛰伏多年都做了些什么？

Vicarious是硅谷最神秘的人工智能公司，这家从2010年就专注通用人工智能(Artifical General Intelligent)的公司，吸引了Facebook CEO扎克伯格、特斯拉CEO马斯克、彼得.蒂尔和亚马逊CEO杰夫.贝索斯的私人投资。

其他投资人还包括雅虎创始人杨致远、Facebook联合创始人Dustin Moskovitz、著名投资人阿什顿.库彻，以及硅谷著名VC Formation 8和全球领先的工业机器人公司ABB等，目前已筹集7200万美元。

究竟是一家怎样的公司能同时让马斯克和扎克伯格等为其注资呢？

Vicarious的目标定位于“建立下一代的人工智能算法”。并且声称要构建“像人类一样思考的软件”，实现“人脑级别的视觉、语言和自动控制系统”，致力于研究通用人工智能，目前他们的研究重点是实现人工视觉识别系统。

Vicarious的研究有别于当前主流的强调数据重要性的深度学习技术体系，非常强调模型的重要性。他们利用神经科学的一些成果和启发来构建更通用的机器学习模型（比如基于Probabilistic Graphical Model），期待通过数量小、质量高的训练数据达到接近人类认识的效果。

Vicarious的研究从2010年就开始了，2013年宣布破解验证码测试(CAPTCHA)引起了广泛关注。但它非常神秘，2016年之前都没有公开任何论文或者可供研究的程序，学术圈对此也有所争议。

今年NIPS会议，Vicarious首次发表论文，乘此机会硅谷密探拜访了Vicarious，并独家专访其联合创始人Scott Phoenix，解密这家神秘的人工智能公司。

先回答一些大家关心的问题

严肃：Vicarious是如何吸引到贝索斯、扎克伯格、马斯克和彼得.蒂尔等人的投资的呢？

Scott Phoenix：贝索斯、马斯克、彼得·蒂尔和扎克伯格本身就是非常聪明而有远见的人，他们在人们开始思考人工智能之前就已经看到了人工智能可能的未来。当我们在2010年成立Vicarious时，似乎其他人都在讨论Groupon等团购网站。彼得·蒂尔和达斯汀·莫斯科维茨（Facebook联合创始人）是第一批对人工智能的革命性前景感兴趣的的人。当时，只有两个公司认真专注于做人工智能系统：Vicarious和DeepMind，彼得和达斯汀投资了我们的第一轮。

我们静静地工作了一段时间，然后在破解验证码测试的时候，我们被介绍给了扎克伯格、马斯克和贝索斯。出于不同的理由，他们都非常有兴趣了解我们正在做什么。对于马斯克，他投资的主要原因是关心人工智能安全和存在的风险。对于扎克伯格和贝索斯，他们更多的是支持人工智能这项可能对社会产生积极变革效应的技术的发展。

Vicarious co-founder Scott Phoenix

严肃：Vicarious在2013年就破解了验证码测试，但是今年才发布相应的论文（今年也公布几篇其他的论文）。为何不选择早点公开这些论文？

Scott Phoenix：我们没有在2014年就公开验证码测试的工作的原因是，我们不希望这项广泛被应用的验证码系统被我们搞坏。

被大量用于广泛应用于区分计算机和人类的 CAPTCHA

在我们宣布了破解验证码测试的消息后，谷歌和其他大型的网站逐步开始减少对图形验证码识别的依赖，这大大减少了我们公布论文后可能对互联网的危害。

我们选择现在发布论文，也是为了增加和学术圈的交流。但是，我们绝对不会像学术实验室一样频繁的发表论文，因为我们的主要重心还是为了推动人工智能的进步，而不是依赖于论文发表和被引用。

严肃：你认为大家对于Vicarious的常见误解是什么？

Scott Phoenix：我最常听到的两个相关联的问题是：为什么Vicarious融这么多钱？我们什么时候要发布产品？

我们融了一大笔钱，因为构建一个AI系统需要长时间的投入和多学科的努力。为了取得大的进步，需要一大批来自不同背景的人在一起工作很多年。就像建造第一架飞机、灯泡或电话一样，这个产品是一个非常长的科学实验和迭代的结果。

严肃：你认为深度学习有哪些局限性？

Scott Phoenix：深度神经网络（DNN)需要大量的训练数据，不能很好地适用于新的任务或环境。

此外，深度学习往往侧重于学习输入感知与输出动作之间的映射（如用于做分类决策或者是围棋、Atari游戏上的移动的决策）。

我们认为智能的本质是能够学习一个所处在世界的心理模型(mental model )，然后能否在这个模型上进行模拟（所谓想象力）。

严肃：Vicarious似乎开始将一些研究成果应用用来解决一些行业的具体的问题，会有哪些具体的应用？听说是机器人领域？为什么要从这些问题开始？

Scott Phoenix：我们认为产品是在有根本性的科研发现和重点研究后的自然结果。我们的第一个产品将帮助今天的机器人更多样化和更广泛的使用。一直以来，这个世界拥有制造数十亿的机器人的材料和零部件。这个世界上充满了廉价的传感器、电机、塑料和芯片，然而普通人每年看到的机器人几乎是零，普通工厂里拥有的机器人也是零。Vicarious旨在使用其先进的AI技术，使机器人比今天更加有用，使其无所不在。

我们选择从机器人开始，因为它对未来使用AI的方式的具有最大的影响。我们正处于机器人革命的黎明，我们的目标是让Vicarious成为机器人界的“Intel Inside”。

严肃：Vicarious的研究强调了几个主题和限制，例如“从有限数量的训练示例中归纳”（“Generalizing from a limited number of training examples”），生成模型（Generative models）？这些主题和限制会带来什么局限或挑战呢？什么样的问题是Vicarious的算法不擅长解决的呢？

Scott Phoenix：新技术开始出现时，和当前重度优化的现有技术相比，它可能在很多层面上反而没有优势。例如，当晶体管收音机出来时，它比现有的真空管收音机在许多方面差得多。但它更加便携，随着时间的推移，它从各个层面超越了真空管。构建新类型的AI也是类似的。我们的技术在许多方面优于深度神经网络(DNN)，但还有其他一些方面还不如深度神经网络。例如，我们尚未把优先级放在建立必要的规模来测试像ImageNet这样的数据集上的算法。随着时间的推移和不断的努力，我们将在大多数事情上变得更好，但是为了达到这个目标，我们有许多技术挑战和研究问题需要解决。

严肃：Vicarious面临最大的潜在的挑战是什么？

Scott Phoenix：Vicarious面临的主要挑战是技术本身。建立人工智能是一个很有难度的问题。创建第一个智能的机器人系统是具有挑战性的，因为它需要许多不同领域的专业知识。但这些挑战也是驱动我们前进的动力，非常荣幸能够和一些世界上最聪明的头脑来一起解决这个人类面临的最重要的问题之一。

Vicarious的技术特点：强调建模的重要性

Vicarious发表的这篇论文《Generative Shape Models: Joint Text Recognition and Segmentation with Very Little Training Data》是Vicarious技术的一小部分的一个尝试性的应用，他们发表的一个原因是希望吸引学术界更多人参与这种神经科学和脑科学引导的、建模为主的人工智能研究。

在采访中，我们也和Vicarious的商业化总监楼兴华博士（NIPS论文作者之一）讨论了Vicarious技术的特点。

Vicarious的技术特点一：生成性模型

Vicarious的研究重点是通用人工智能，研究重点是生成模型。

生成模型区别于判别式模型(Discriminative Model)，生成模型可以通过贝叶斯得到判别模型，但判别模型无法得到生成模型。

简单的说，拿到一张图片，生成模型需要懂得图片中需识别的物体的较为完整的信息，需要懂得此物体的构建的过程（所谓“生成”）。因为生成模型本身“懂”物体，天然地它就可以“创造”新的、未见的物体实例。如下图，一旦Vicarious的模型懂得了字符“A”，它就可以“想象”出很多种可能的“A”的实例。也就是说，如果在实际场景中观察到这些不同变化的“A”，Vicarious的模型都可以很好的识别出来。

当然，从应用角度来说，基于深度学习的判别模型更容易上手，但生成模型有更强的解释性，大部分变量都有实际的意义，更容易调试(debug)，在通往建立通用人工智能（AGI）的道路会更有竞争力。

此外，人脑的工作模式更有层次感，比如人眼观察东西，先是从形状出发，接下来可能是看颜色，在往下可能是材料和材质。深度学习则往往无法不能很好的把问题分解(factorization)，而Vicarious的模型能够很好的把问题分解，更接近于人类的思考方式。

Vicarious此次公开的三篇论文和生成模型有关，另外两篇是《Hierarchical compositional feature learning》和《A backward pass through a CNN using a generative model of its activations》。

Vicarious的技术特点二：基于神经科学和脑科学的成果

Vicarious约有20%的神经科学家和脑科学家，来研究人脑的工作机制和人的行为特点，这是Vicarious的一大特点。剩下50%约为机器学习背景的研究者，来基于神经科学和脑科学模型来建模，还有一部分是计算机视觉的研究者。

Vicarious认为认知（Perception）依旧是人工智能的最大难点之一，所以Vicarious目前研究的重点是视觉(Computer Vision)，主要出发点是在现实世界中，视觉是非常重要的输入来源，而针对视觉的脑科学研究也有些突破。

而基于脑科学的一些研究，能够为建立模型带来很多启发，比如Vicarious发表在NIPS上的论文，里面就利用了脑科学上非常成熟的成果：人类的神经系统系统普遍存在的侧向抑制的现象，这引导Vicarious在他们在模型上实现了侧向约束（Lateral Constraints）。

在字母验证码识别这个具体问题上，Vicarious基于生成型形状模型的系统能够只用1406张图片作为训练集，就超越了利用深度学习的800万图片达到的效果。

Vicarious的顾问团队包括计算机视觉领域的斯坦福教授Fei-fei Li，神经科学领域的UC Berkeley教授Bruno Olshausen 和UCLA教授Alan Yuille。

Fei-fei Li

Vicarious目前没有自然语言处理和语音等方向的研究项目。

Vicarious如何赚钱？

Vicarious目前的商业化主要集中于仓储机器人领域，希望通过提供高智能、高效率的机器人来支持现代商业中至关重要的产业，例如仓储物流和工业生产线。另一方面，Vicarious的投资方对这个方向也表现出浓厚的兴趣，例如ABB和亚马逊等。

ABB是全球最大的工业机器人公司，而Vicarious正努力将他们的研究成果把机器人变得更智能。而亚马逊的仓储机器人也有潜在的应用场景。

由于目前深度学习的局限性，深度学习很难达到通用人工智能。Vicarious目前的研究，是深度学习的有益补充。

无论是在学术界还是工业界，研究方向和产品的多样性都有利于推进人工智能的进步。

本文为硅谷密探旗下《AI严肃说》专栏文章作者：严肃

“硅谷密探主笔，麻省大学人工智能方向研究生毕业，与通用汽车合作过为期两年的无人驾驶科研项目，在国际人工智能联合会议(IJCAI)等学术会议上发表过多篇论文，在写一系列AI的文章”

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI原生产品日报

频道：前沿科技