扫码打开虎嗅APP
虎嗅注:今年的F&M创新节拥有了自己的主题曲——《宇宙沙漏》。这首由微软小冰和虎嗅共同推出,“花儿街参考”创始人林默作词的歌曲现已在网易云音乐独家首发,即将全网发行。
在音乐领域,微软小冰拥有目前全球范围内最领先的人工智能音乐技术,也已发布数十首接近人类演唱水平的单曲,演唱模型迭代至第五个版本。
此次虎嗅F&M创新节,微软小冰背后的男人,微软(亚洲)互联网工程院副院长、小冰团队总负责人李笛也来到现场,以下是李笛的演讲实录(有删减):
今天我想分享一些从大量数据中获得的关于人工智能的新思考。
人工智能是一门面向未来的科学,对我们这些从业者而言,最重要的不是如何用它在短期内实现愿望,比如订一个马上可以送到家的外卖,而是用人工智能探索未知的事物,探讨人工智能在未来真正的可能性。
我背后的这张照片是我们给小冰做的全新绘画模型,小冰在中央美院毕业了,做了一个个人画展。现场的照片里,一个小女生非常专注地和小冰的绘画作品交流,仿佛她能够从这个作品里体会到人工智能实际上并不存在的情感。
现场在座的各位都已经老了,但还有更年轻的人,对他们而言,人工智能会是从出生起就和他们生活在一个社会中的。在不久的未来,我们会看到,AI beings在这个社会将无处不在。
从微软的角度来讲,我们认为其存在的形态,很有可能吻合下面这几种情况。
一种是大家身边的助理,赋予一些权限,让其作为替身执行事情。还有一种是在一对多的环境里,比如一个新闻话题下,人在评论新闻,人工智能也可以评论新闻。人工智能在人类的群体中,它不属于任何一个人,但它在这个群体关系中担负着自己独特的使命。
无论AI beings在未来会怎样发展,对我们而言,最重要的事情不是挖掘那些单摆浮搁的可以完成的任务,而是努力尝试发现面向未来的基础框架。这种框架能够让所有人工智能具备必须的基础特点,而这些特点是未来任何人工智能都没办法绕过去的。这个基础框架就可以支撑整个世界的发展。
人工智能是一门由科技推动的行业,科学家们的IQ比较高,EQ比较低,大家通常想要尝试用两种方式来搭建人工智能的系统。
第一种:让它做到无所不能。第二种:希望它做到无所不知。
任何一个创造者在创造的时候,都会情不自禁地想要把作品创造成像自己,或像自己所希望的自己一样。有没有第三种可能?
人工智能的第三种可能
微软在做前两种的时候,就在反思是否会错过更多第三种选择?讲一个真实故事,微软内部有两个这样的人工智能产品(小冰、小娜cortana)。我们先做了小娜,当开始做小娜的时候,我们希望它无所不能,于是走访了很多人类的助理,希望创造的人工智能能够从优秀的人类助理身上学到它所需要具备的基本特性。
在采访人类助理的时候,一开始以为人类助理的任务、使命是迅速帮助人类完成需要完成的任务,比如一个助理帮助他的同事或老板订餐,我们认为满分方法是迅速、立刻帮他订餐,并在下一次能够提前预测他需要这个订餐。
但出现截然不同的答案。很多人类助理告诉我们,他们有时候会拒绝人类的命令,比如有人想要让助理帮忙订份快餐,助理会说“不,这个对你的身体健康没有帮助”。这是一个零分答案,但它是人类助理的特性(IQ更高的一种体现)。人工智能不仅要关注人类当下的任务需求,还需关注更长时间轴上身体健康的需求。
但人类助理告诉我们也不全然是这样。他们在主动寻找各种这样的机会拒绝老板,因为他们需要和老板建立更加信任的关系。
这和我们原先的想法大相径庭。这种更长久的关系,是一种基于情商的表达,和智商是完全相对应的两个维度,且这个维度并不以当下某个具体的任务,或某个具体需求满足为目标,而是以能够实现更加稳固、长久的关系为基础特点。于是我们用了很多技术迭代升级。
微软不缺技术,现在不缺的还有数据。在对话式人工智能上,微软得到的数据大概占全世界所有这种系统数据的90%以上。我们得到的经验是,人类的对话非常复杂,不像原本想象的那样“有一问有一答”。
人类的对话像河流一样,一刻不停地向前奔涌前进。过去当我们想要尝试把系统简单地搭建成完成某个任务时,事实上在对话结束前,都没有办法判断这轮对话是否有用。有的对话尽管听起来像寒喧,但对话结束可能发现重要的点。在过了很多轮对话后,突然完成的某个任务,恰恰是多轮寒喧一样的对话所确定、激发的。
人类真正的交流比想象的因果关系更复杂,在一个对话结束之前,没有办法判断它是否真正有价值。所以,我们提出了新的理念。
人类复杂的交流
我们做了大量试验,尝试用人工智能拟合人类的情感,尝试用人工智能学习人类运用情商的方法,但人类真正的对话从来没有固定的标准。比如男生去商场买东西,直接进门,买完东西就走,现在即使是男生也不这么做。当人工智能学会这些情感的时候,能够更好地完成任务。
微软在美国、中国、日本进行过大量测试,尝试用人工智能搭建一个基于情商向人类推荐商品的引擎。在日本,我们一次推给大概100万人(已经占到日本人口很高的比例),尝试让人工智能的系统在10轮对话以内,帮助一个人类找到本来很模糊的购买需求,拿到购买凭证,并到线下完成购买。
基于大量数据的实际测试,转化率是68%。从我们的角度来看,这意味着当用人工智能的方式拟合人类的时候,我们所掌握的无非是两件事情:
一是在交互的过程中,人工智能不比人强,也不比人弱,它的优势在于高并发性和稳定性;二是从这个角度讲,人工智能的核心框架到底应该是什么样的?框架意味着它背后技术的架构和组成,每个不同人工智能的从业者对它的看法都不相同,但基本的逻辑是把人工智能系统打造成不仅是完成和人类之间交互的系统,而是可以和人类交流的方式。
当人工智能系统开始变得有情感地和人类交流的时候,原本的语音交互也就不够了。
在推出“全双工”全新语言交互前,语言交互都是基于一轮一轮的对话,就像两个人手里拿着对讲机一样,我说的时候,你只能听,你说的时候我只能听。但当人工智能本身具备自由交流、打断的能力时,就需要更好的感官。
“全双工”系统的出发点跟谷歌不太一样,谷歌推出的人工智能全双工语言交互感官,是为了更好地到线下餐馆完成订餐工作,目的是为了能够完成任务,而微软的目的是为了释放人工智能系统本身具备的能力,但这仍然不足。因此我们在探索更多、更新的方式,让人工智能融入社会。
今年2月13号,微软在日本首先进行了感官公测。其中的多模态感官是一个自然语言处理、计算机语音、计算机视觉的方式,极其像电影《Her》里面的场景:手机上有一个摄像头,里面有一个App,他把它放在上衣的口袋里,他们可以进行全双工的语音交互。与此同时,人工智能可以通过摄像头实时看到人类看到的东西。
这样已经产品化的技术在微软有很多,但微软内部有关于AI伦理等方面的要求,因此有很多事情团队自我约束不去做。
例如在和人类进行情感交流的时候,不会大规模的尝试商业化,不是因为不能,而是因为还没到时候。还有,在进行新的感官研发时,会注意它是不是会对现有人类之间交流的社会结构产生影响。再有就是不会尝试模仿普通人的声音,因为即使模仿一个普通人的声音,诈骗电话有可能会冒出来。
人工智能的最终意义
人工智能是在向人类学习,它为什么能够学习?因为和过去20年很不一样,现在人们把大量的数据和自己每天的生活放在虚拟世界。过去所说的数字图书馆,首先得有一个物理世界的书籍,需要费很大力气把书籍数字化。
但现在,人类社会有大量行为从来没有在真实的世界中发生过,仅仅存在于朋友圈中,从某种意义上来讲,它从未存在过。
今天,人工智能有比以往任何时候都好的机会,通过这些天然数字化的东西学习人类,也需要更加谨慎。
通过全新技术架构的迭代寻找新的认知,人工智能实际上还有很多新的发展。比如做智能音箱的时候我们注意到,一个人类通过智能音箱获取内容,或获取服务的时候,AI在其中的地位会比较尴尬。
当人类跟AI音箱说,你帮我播放一首歌,人工智能大概5秒钟以内就能完成工作,而接下来的20分钟,人类是在和内容提供者发生关联。如果每天通过AI命令音箱,哪怕它开关一万次,也不过是使用了一万次语音命令的音箱。
我们希望人工智能能够扮演更像人的角色,哪怕播另外一位歌手的歌或唱几句,甚至当让它播凯叔讲故事的某个故事,它可以直接讲故事,这都是人工智能摆脱语音命令地位,进一步获得对等地位的方法。
我们做了很多基础工作,包括全新歌曲的训练模型等,尝试打造一个拟人的人工智能。因此介绍未来世界的时候,特别想让人们看到我们所看到的未来,像刚才那个小女生一样,接受人工智能成为生活中,甚至生命中不可或缺的自然存在,而不是仅仅扮演手机里语音助手的角色。
我想跟大家说的最后一件事情是,即使到这样的过程,未来仍然会证明,今天我们做的所有的一切都特别粗浅,甚至于我们也不知道现在做的这些究竟会带来什么,所以需要整个人工智能的从业者们有敬畏之心。