扫码打开虎嗅APP
提到谷歌的人工智能,大家想到的大多是会下棋的阿尔法狗和Waymo无人车。可要我说,谷歌对于教人工智能画画这件事,好像有种特别的执念。
今年,谷歌推出了一款可以帮助人画简笔画的工具Autodraw,随便画几笔,算法就能识别出你想要画什么图案,为你优化出来。其实这并不是谷歌推出的第一个人工智能+绘画项目,早从2015年开始,谷歌就已经在用算法挑战人类对艺术的认识和审美了。
DeepDream:是深梦还是噩梦?
谷歌不仅仅有DeepMind,还有DeepDream——利用深度学习技术识别图片,再把自己解读的画面呈现出来。后来谷歌将这一项目开源,让所有人都可以上传图片,再生产出被DeepDream解读的结果。
不知道是不是在训练是被喂了太多眼睛和小狗的图案,反正经过DeepDream加工过的图片基本都是这样……
充满了狗脸、眼睛、诡异的螺旋图案,有种异样的魔性。谷歌甚至还为DeepDream举办过一次展览,展出的六幅作品还被一位收藏家拍了下来,最高单幅价格高达 8000 美元。这可能是第一位靠“艺术”赚钱的人工智能了。
实际上,谷歌DeepDream真正想要了解的,是神经网络黑盒子的工作逻辑。我们都知道,神经网络在识别图像时通常是层数越多、越细致,第一层神经网络可能在识别轮廓,中间层的神经网络可能就在识别纹理、笔触等等细节了。我们看到的那些正确识别出图像的算法,都是经由人工调试后的,而DeepDream则跳过了人工指导、矫正这一步,直接凭着自己的意愿识别图片,并且会经过数次重复,最终就成了我们现在看到的样子。
和上图一样,如果让我们把树看成建筑,把植物看成鸟,恐怕只能去发挥想象力了。这种机器识别出人眼不能识别的图案的情况,让我们再一次开始思考机器视觉和人类视觉的不同。或许,DeepDream真的是一个有着无限想象力的婴儿人工智能,把人类世界里的一切都看做它可爱的宠物狗。
Quick,Draw!来和人工智能玩你画我猜
很快,谷歌就不再止步于只让人工智能画狗脸了。在去年,谷歌推出了一款叫Quick, Draw!的绘画小程序。Quick, Draw!其实就是人与人工智能合作的“你画我猜”,系统随机显示一个名词,要求用户在20秒内把它画出来。用户用鼠标简单画出物体形状后,然后 Quick, Draw! 会判断你画的到底像不像,并且会显示出除了题目之外,你的画还像什么其他的东西。
显然,这是一个收集数据的好方法。仅仅半年的时间,就有来自 100 个国家的 2000 万用户,在 Quick, Draw! 上共绘制了 8 亿幅涂鸦。谷歌还表示,这些数据了反映的不同文化背景与观念,比如不同国家的人所画的椅子是不一样的,有些国家人画的椅子总是侧面,有些则通常是正面。现在,谷歌已经开放了其中的部分数据,供所有开发者一起玩耍。
Autodraw:人工智能涂鸦大师
文章开头提到的Auto draw就是Quick,Draw!数据的研究成果,也展示了谷歌强大的机器学习技术。
Autodraw能做到的不仅仅是识别你在画什么,它甚至能帮你补完未完成的涂鸦,纠正其中的错:如果你花了一只三只眼睛的猫,Autodraw会去掉一只眼睛。
这意味着,Autodraw已经拥有了我们所说的抽象思维,它并非仅仅是按照历史数据规整图画的线条,而是“知道”眼睛这一概念,并且知道猫只有两只眼睛。
Autodraw的背后,是人工智能系统SketchRNN。当我们在Quick,Draw!上作画时,SketchRNN会记下我们每一笔的形状和顺序,为每一种特定物体(猫、椅子等等)训练出一种神经网络。
把人类涂鸦的笔画当成输入,进行序列编码,用人们的绘画方式来训练神经网络。完成这一训练后,SketchRNN就了解了某一图案绘画时的“一般规则”。
比如我们画猫时,会画一张圆脸,两个尖耳朵,两只眼睛,六根胡须。SketchRNN就能明白,一个大圆、两个小圆、六根线和两个尖角加起来就是“猫”。然后,再向其中引入变量,让SketchRNN可以输出和接受随机性。比如猫脸的圆形可以不那么圆,猫的胡须可以长短不齐。但是三只眼睛这种错误超过了变量浮动的范围,是会被SketchRNN修正的。
和上图一样,同样是汽车,颜色越偏暖的图案,代表随机性越大,而这些全都是SketchRNN的作品。
SketchRNN虽然神奇,可很多人认为这项技术的实用性比较差。因为SketchRNN能识别甚至创造图形的原因,是因为团队为每一种图案都训练了一个神经网络。能做到这些,离不开Quick,Draw!收集到的庞大数据量,更离不开TensorFlow的强大算力。可动用了如此之多的资源之后,SketchRNN的应用范围还只限制于涂鸦之中,如果圈定在“笔画”这个逻辑里,或许以后还能在书法上有所作为,但效率如果还停留在每个个字搭建一个神经网络上,性价比未免太低了。
不过也有人提出了其他的看法,有学者认为,“笔画”是世界范围共用的沟通方式。象形文字、壁刻画式的线条会对人类大脑形成一种天然的刺激,人类的艺术创造越来越具象,或许展示了一种大脑和思维进化的可能。按照这个逻辑,SketchRNN或许能为我们找回曾经的思维方式,在未来帮助考古、史学、人类学等等领域更好的进行研究。