2016-08-18 17:56

还在嫌 Prisma处理图片太慢，你知道它有多努力吗？

全文 4454 字，阅读时间预计 8 分钟。
该来的还是来了。前天凌晨中国版 Prisma 发布，它的名字叫 “深黑”。
不管黑不黑，读完本文你将看到：
Prisma 前身德国初创企业 Deep Art 的【独家专访】
俄罗斯火爆全球的应用 Prisma 为何被德国人【吐槽】
图像领域应用的玩法【大盘点】

撰稿：季星丁卡加辰房宫一柳编辑：袁帅顾问：丁晓诚邢一男制图：房宫一柳

2016 年 8 月 16 日凌晨 00：01，一款名为 “深黑” 的APP 在 Android 平台上线公测版。简介描述里“基于人工智能”、“不同于传统滤镜”这些用词，加上看作品画风，让人联想起 2016 年大火、仅次于 Pokeman Go 的 APP——Prisma。

▲深黑的作品展示。图片来源：http://www.oandf.cn/deepblack/index.html

Prisma 体现了当今人工智能时代，人们想要用计算机代替传世画家的野心。印象派、野兽派、浮世绘、波普、解构主义，曾经艺术风格都是画家脑中不可捉摸的概念。而到了人工智能时代，所有艺术风格都被证实是可以进行 “量化” 的，通过机器学习，可以源源不断地产生新作品。

在量化（数学）与风格（艺术）之间，吊诡的是时间。最勤奋的油画画家达芬奇，画一幅普通作品也需要花费一周左右；而到了人工智能时代，这个时间是：不到 20 秒。

趁着中国版 Prisma 的发布，我们今天复盘一下深度学习的图像应用。

把计算机 “调教” 成梵高

似乎欧洲国家对艺术这件事比其他地区更有群众基础。早在 2016 年 Prisma 大火的一年之前，就有三个德国研究员想把计算机调教成梵高。

这三个研究员名字分别叫做莱昂 · 盖提斯（Leon Gatys），亚历山大 · 埃克（Alexander Ecker）和马蒂亚斯 · 贝特格（Matthias Bethge），来自德国图宾根大学（University of Tübingen）的 Bethge 实验室。他们研发了一种算法，模拟人类视觉的处理方式。具体是通过训练多层卷积神经网络（CNN），让计算机识别，并学会梵高的 “风格”、然后将任何一张普通的照片变成梵高的《星空》。

Deep Art 首页贴出得到一张 “梵高风格” 图片的步骤。第一步，吸收用户拍摄的照片。第二步，让计算机学会星空图的风格。第三步，计算机输出自己做的“新画”。

在人类的视觉系统中，从眼睛看到一件实体，到在脑中形成图像的概念，中间经历了无数层神经元的传递。底层的神经元获取到的信息是具体的，越到高层越抽象。

这三个德国人发现，如果用计算机模拟这个网络，将每一层的结构分析出来，能看到：在采样过程中，底层网络对于图像的细节表达得特别清楚，越到高层像素保留得越少，轮廓信息越多。

所谓深度学习（Deep Learning）中的 “深度（Deep）” 即意为层数。神经网络的每一层都会对图片特征进行提取，而 “艺术风格” 则是各层提取结果的叠加。

这三个德国人把他们的上述发现写成了两篇论文：《艺术风格的神经算法（A Neural Algorithm of Artistic Style）》，和《利用神经卷积网络进行纹理合成（Texture Synthesis Using Convolutional Neural Networks）》，在学术圈引起极大的讨论。

“起初，我们只是想创造一个关于神经科学的新鲜事物。而艺术人工神经网络的状态与人类的视觉系统有颇多相似之处。所以后来我们觉得，可以对图片做更有趣的处理。” 莱昂 · 盖提斯对深蓝 Deeper Blue 说。

论文发表后不久，他们便建立了一家名为 Deep Art 的初创公司，着手实现他们在论文里提出的想法。

▲Deep Art 网站，图像制作界面。Deep Art 提供多种艺术风格选项，图像制作完成后需发至用户邮箱。图片来源： https://deepart.io/hire/

用户在 Deep Art 网页上上传自己的照片，然后通过 Deep Art 提供的 “机器人梵高” 进行新画创作。整个过程需要等待几个小时让计算机进行数据运算和处理。用户可以选择清晰程度不等的作品。用户可以花上 19 欧买一张适合明信片用的作品，或者多掏 100 欧，买一张大尺寸油画级别的。

莱昂 · 盖提斯们做的事情并不是美图秀秀的滤镜。在 Deep Art 出来之前，已经有很多致敬莫奈与梵高的滤镜类应用，但核心原理和 Deep Art 完全不同，比如 2010 年上架的 Mobile Monet, Van Gogh Camera 。

▲Camera Monet 与 Van Gogh Camera的界面展示。这两款滤镜软件，都能讲用户照片渲染成某种艺术效果。但核心原理和Deep Art使用的卷积神经网络完全不同。（深蓝制图）。

如果我们将同一张图片放入 Van Gogh Camera 中，Van Gogh Camera 会按照程序员事先内置的 “公式”，计算图中每一个像素点，最后输出一张梵高风格的照片。但只要我们想将图片风格从梵高换到毕加索，程序员就必须重新写一套代码，更改计算 “公式”。

而在 Deep Art 中，编写 “公式” 的程序员是卷积神经网络（CNN），只需输入梵高的《星空》，卷积神经网络便能自动提取这幅画作的风格特征，并量化成具体公式。也就是说，艺术史上所有的作品都能作为滤镜来源。

“卷积神经网络可以被看做是一个机器艺术家。” 莱昂 · 盖提斯说。

从德国到俄罗斯

2016 年年初，俄罗斯计算机工程师阿列克谢 · 莫伊谢延科夫（Alexei Moiseyenkov）读到了这三个德国人的论文。他敏锐地嗅到，德国人做的远远不够，这项技术在消费级市场仍是一片空白。

随后他组建了一个四人团队，研发了 Prisma，力求做到：免费，更快，更简单。“ 两个月研究数学模型，一个半月开发。” 莫伊谢延科夫说。

“ Prisma 第一次将这项技术成功商业化。他们充分考虑了智能手机覆盖率的飞速增长，并且细致研究了用户行为。Prisma 接入的是以亿数量级的市场。” 《莫斯科时报》这样报道他们：“ 谁抓住了用户需求，谁就能成为亿万富翁。”

Prisma 的横空出世，算是俄罗斯互联网圈子少有的高光时刻。2016年6月中旬，这款应用刚在 iOS 上发布，15 天内下载量 750 万，火遍四十个国家。

巨大的成功甚至让开发团队措手不及，不得不以每天扩大一倍的速度提升服务器处理能力。

“看起来，整个俄罗斯都被我们征服了。” 莫伊谢延科夫随后在 Facebook 上写下了这句话。8 月 2 日，Prisma 全球范围内已获得超过 5000 万用户。

▲坐拥 2300 万粉丝的俄国总统梅德韦杰夫也成为 Prisma 的用户。他在 Instgram 上晒出一张 Prisma 作品，迅速获得 8.7 万个赞。

Prisma 比 Deep Art 先进的地方在于，它大大缩短了图像处理的时间。在用户还没有达到十几亿数量级的时候，每张照片在 Prisma 系统内的处理时间只有 20 秒。其次，Prisma 是一款免费手机应用，相比网页版的 Deep Art, 无疑具有更多的用户基数。

20秒，全球的某个角落，一个用户上传照片，他的照片被传送到位于莫斯科的服务器上，Prisma利用人工智能和神经网络进行处理，然后经 “风格化” 后的图片再返回用户手机。

这个速度在业内是顶级的。为什么这么快？

“一定是下了血本，”一位来自国内著名人脸识别技术公司的工程师告诉深蓝 Deeper Blue，“在我当时搭建的框架之下，用普通笔记本的计算能力，做一张这样的图有可能需要几个小时。”

德国人莱昂 · 盖提斯则对深蓝 DeeperBlue 猜测道：“我认为他们训练了一个前馈神经网络来制造图片。”

“Prisma 没有完全依赖机器学习，而是对一些关键的内容加以控制。”一位业内人士则对深蓝 Deeper Blue 说，“例如，在海量的用户上传内容中，一定有相当一部分比例是人像，而相对于原始算法，Prisma 对面部细节的处理似乎更胜一筹，也许他们专门加入了对面部的识别和控制。”

据莫伊谢延科夫自己介绍，Prisma 一共用了三组神经网络，它们分工明确：两组神经网络负责的风格提取和照片制作，还有一组神经网络作为后台，为整个计算过程加速。

相比之下，Deep Art 更像是精工细作的手艺人。莱昂 · 盖提斯认为自家的原始算法虽然慢一些，但在细节表现力上更胜一筹—— “是真正的艺术品。” Deepart.io 提供的收费高分辨率大图，堪比一副挂在博物馆墙上的画。

▲Deep Art 主页上，关于作品定价的界面展示。图片来源：https://deepart.io/pricing/

“他们的风格化工作比最初的工作要弱了些，我认为他们是做了一些较低级别的图片处理，以掩盖风格化的不足，例如，加强了边缘的表现。” 莱昂 · 盖提斯对深蓝 Deeper Blue 说，他认为 Prisma 牺牲了艺术质量而求速度。

群雄逐鹿

大部分人之前推测 Prisma 会推出更多滤镜来变现，但在 Prisma 主创拜访过 Facebook 之后，爆出他们的下一步的计划是做视频。2016 年 7 月20 日，Prisma 创始人莫伊谢延科夫在 Facebook 官方账号上上传了一段 29 秒的音乐视频。这段视频的每一帧，都经过艺术风格渲染。

▲一段 Prisma 艺术效果视频。Prisma 已经在官方 Facebook 上发布了多个音乐视频。

然而，并不只有 Prisma 一家在转视频这个方向。

仅仅隔了 9 天，Prisma 的天使投资方、俄罗斯互联网巨头 Mail.Ru 公司副总裁安娜 · 阿塔莫诺娃（Anna Artamonova）在 Facebook 上宣布了 Prisma 直接竞品 Artisto 的发布。这是一款结合神经网络和人工智能技术的视频处理软件，可以为视频添加动态的艺术特效。虽然视频长度不能超过 10 秒，但名画风格的图像 “动起来” 确实赏心悦目。阿塔莫诺娃称这个视频软件只花了 8 天时间研发。

▲副总裁阿塔莫诺娃接连在 Facebook 上发布 Artisto 制作的视频。图片来源：https://www.facebook.com/artamonova/videos

在 Prisma 安卓版上线的第二天，俄罗斯最大社交网站 VKontakte 也推出了一款和 Prisma 类似的产品：Vinci，两者的功能和外观都非常相似。Vinci 不仅将图片加工时间缩短到了 2 秒钟，还快速开放了 iOS 与安卓市场，并且覆盖到 Prisma 未能涉足的 Windows Phone 领域，成为 Windows Phone上第一个运用神经网络的软件。值得一提的是，社交网站 VKontakte 也是 Mail.Ru 的旗下产品。

截至到 2016 年 8 月 2 日，在俄罗斯 APP Store 免费榜上，Artisto 高居榜首，Vinci 位居第二，而 Prisma 则落到了第五的位置。

▲图片制作软件 Vinci 的界面展示。图片来源：http://mspoweruser.com/vinci-great-alternative-prisma-now-available-windows-mobile-devices/

不仅仅是俄国人在想视频这件事，Deep Art 那三个德国人也瞄准了视频市场。前不久，Deep Art 官方网站放出了一段 demo，开始制作付费短视频。一段 720p的视频（最长五分钟）售价 249 欧元。

Deep Art 的产品高价位和慢速度，定位的是中高级市场。而在大众消费端，免费产品 Prisma，Vinci，Artisto 不论谁赢，都是俄罗斯互联网巨头公司 Mail.Ru 的胜利。与其说几款产品是在技术上较量，不如说这是互联网资本大鳄的强势布局。

然而，事实上深度学习在视频上还处于起步阶段，主要面临如下三个挑战：

第一，视频的数据处理量比图片更大，对计算能力的要求指数级增加；

第二，如何保持帧图像在时间轴上的信息一致性，而不是单独处理每一帧图像，也是难题；

第三，视频中的物体时刻在运动，如何追踪其在空间中的动态变化，研究员们还没找到好的方法。

除了我们盘点过的这些 “滤镜类应用”，深度学习在图像处理上应用还有很多。总的说来，深度学习图像应用按照过程可以分为两部分：输入与输出。

输入可以视作是 “机器视觉”，即机器内部建立起对图像的理解与认知——比如去判断图片中人像是不是本人，对图中物品进行分类等；

输出是进一步做出判断、决策，并触发行动，比如自动驾驶中通过分析摄像头采集到的道路信息，对控制系统下达加速、停车等指令。

在图像识别的高准确度的基础上，深度学习能够完成更为复杂的任务。举个例子，如果说百度图片搜索、微博自动检测图片中的敏感词属于计算机理性认知层面应用的代表，那么像 Prisma 这样的应用就是在深度学习的帮助下，让计算机不仅可以理性识别，还能感性认知图片，理解图像的风格与内容关系。

这才是人工智能的意义所在。计算机感知能力的发展决定了机器世界能否真正建立自洽、完整的知识体系，最终实现对人类能力的替代、延伸和增强。

按领域内容，深度学习在图像中的应用分为：图像识别、分类、检测、搜索、特征提取和视频处理这几大类别。其中，人脸识别是突破最快的深度学习图像应用。早在 2014 年便有多个初创科技团队达到了逼近或者超越肉眼的识别率，如下图展示：

▲各公司利用自己的公开样本集测试，提交测试结果。结果显示，汤晓鸥教授团队研发的人脸识别产品 Deep ID 已经超越肉眼的识别率。其中，小横线上面是技术产品名，下面是团队名称。（深蓝制图）

这几家公司中，Facebook 已经将 Deepface 的成果整合到自家产品中了。如今，用户上传照片到 Facebook 账号，系统就能自动标注图中的每一个人。而旷视科技和以汤晓鸥教授为技术核心的 “商汤科技”，则主要为金融、安防等部门提供成熟的身份认证产品，客户包括支付宝、招商银行、反恐部队等。

▲商汤科技与旷视科技主要客户对比图（深蓝制图）

Facebook 可能是这三家巨头中对深度学习图像应用最具有野心的大公司。据内部可靠消息，Facebook 或将在下周末（2016年8月底）将他们最新的研究成果代码开源。如果用一句最简单的话来形容 Facebook的新突破，叫做 “采用无监督学习让计算机无中生有，自己生成图片”。

▲三大互联网公司在深度学习上的布局一览。（深蓝制图）

在以往，人们让计算机去做图像生成采用的是监督式学习，即需要利用大量带标签的数据去训练人工神经网络，后者才能逐渐学会识别东西。比方说，给计算机看 1000 张猫的图片，看多了之后神经网络会逐步对猫建立模型并识别其他猫的图像。

但在今天，Facebook 采用的是无监督学习，让计算机自主生成一些含有飞机、汽车、小鸟等东西在内的场景图像样本，并令观众信以为真。

Google 的 Deep Dream 是一个会画画的计算机。它自动识别图像，筛选出某些部分，进行夸张，以创造出一种迷幻效果。半年前，Deep Dream 于湾区举办了成功的画展。Deep Dream 模仿 500 年前文艺复兴时期的德国画家汉斯·荷尔拜（Hans Holbein）的笔触与绘画技巧，画出了一系列硅谷名人。每张画作足以让人们掏出几千美金来收藏。

然而，Deep Dream 的算法有时候会给人惊吓。如果它发现你的脸部线条有点像一只狗，于是它会把那一块区域画成一个完整的狗。“这就像吃了 LSD，计算机会出现幻觉。于是到处都是狗！” 一位来自 Google AI Lab 的员工说。

▲Google Day Dream 的画作。图画中不少区域被计算机处理成狗头、漩涡。

无论如何，计算机正在向我们展示它们自己的梦想。

参考文献：

i, Gatys, Leon, Alexander S. Ecker, and Matthias Bethge. "Texture synthesis using convolutional neural networks." Advances in Neural Information Processing Systems. 2015.

ii, Gatys, Leon, Alexander S. Ecker, and Matthias Bethge. "A neural algorithm of artistic style." arXiv preprint arXiv:1508.06576 (2015).

ii, 王晓刚. "深度学习在图像识别中的研究进展与展望". 2015.

iii, Venture Scanner. Artificial Intelligence Market Overview. 2016.

iv, He, Kaiming, et al. "Deep residual learning for image recognition." arXiv preprint arXiv:1512.03385 (2015).

v, Denton, Emily L., Soumith Chintala, and Rob Fergus. "Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks." Advances in neural information processing systems. 2015.

vi, Sun, Yi, et al. "Deep learning face representation by joint identification-verification." Advances in Neural Information Processing Systems. 2014.

vii, Sun, Yi, Xiaogang Wang, and Xiaoou Tang. "Deep learning face representation from predicting 10,000 classes." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.

viii, Sun, Yi, et al. "Deepid3: Face recognition with very deep neural networks." arXiv preprint arXiv:1502.00873 (2015).

欢迎转载，如需授权，请联系微信号：jixingjoyce

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI创投日报

频道：前沿科技