扫码打开虎嗅APP
虎嗅注:百度深度学习今日出现了里程碑性的突破,有关该项技术的信息目前披露较少,虎嗅两位作者罗超与嗅科技提供了可供了解的线索,本文对两位作者的投稿进行了摘编整合。
去年,在离苹果总部不远的加州库比蒂诺,百度悄然发布了专注于深度学习研究的前沿实验室。深度学习寻求通过模拟人脑运行机制来大规模提升计算任务处理,是人工智能的一个分支领域。从那之后的数月,深度学习通过很多方式得到广泛拓展。
百度首席科学家吴恩达今日(12月19日)表示,百度在深度学习领域的发展已经超过了谷歌与苹果,如果这项技术真具有划时代的革命意义,那么百度就此开启并且引领了语音2.0时代,也即是人工智能时代的一个重要分支,改变搜索,更改变交互。
百度大脑与数据链相结合
√ 首先自然是依靠百度自身的搜索引擎所带来的海量数据请求。这些数据请求代表了百度用户在宏观层面上的真实信息,通过将特定信息分类并整理,百度大脑将获得一条较为宏观的稳定数据链。比如曾经在电视上出现的“春运地图”就是这种数据链的代表。当然,单纯依靠互联网搜索所带来的数据链是不足以支撑百度大脑的数据需求的。来自搜索的数据链虽然内容丰富,但是精准不足。
√ 对于需要更贴近“人性”的百度大脑深度学习计划而言,个体的数据链来源对于百度大脑将会更有意义。因此,对于来自地图的用户数据对于百度大脑来说,也是一条相当稳定的重要的数据链。比如它可以通过对个体的分析,学习到在堵车情况下,人是如何在现实中选择路径的。
√ 第三条数据链将会来自移动端。作为人类个体的物理标记物,来自移动端的数据链将会成为百度大脑最好的行为模式分析样本。通过大数据归类,人们在手机上的各种行为都可成为百度大脑的参考对象,接下来百度大脑也许可以学习到,为什么在我电话联系不到一个人的时候,什么情况下我会发短信,什么时候我会发微信,什么时候我用手机QQ。这条来自于移动端的数据链规模大小将完全取决于百度在移动端的影响力。
√ 还有一条数据链将来自于百度智能家居。通过电视盒子,空气盒子或是其他一些家电产品获得的用户动作数据将会为百度大脑提供“个人人类在小规模社交环境中的行为思维模式”参照以及“小规模群体行为思维模式”参照。借助于此学会诸如“三口之家在看电视问题上谁做主,为什么?”一类的高端思维方式。这条数据链的规模将会取决于百度在智能家居方面的发展速度和深入能力。如果联系到百度不久之前所发布的“baidu inside”计划,其提前为数据链打造渠道的目的就非常明显了。
“我们想要的机器是可以利用所有数据的,这就需要更好的无监督学习“,专注于无监督学习研究的蒙特利尔大学的Yoshua Bengio这样表示。世界上大多数的数据是无法标记的,而且标记他们会非常昂贵。百度找到吴恩达,正式要找出更好的方法来让机器自己学习可以提高人工智能的经济效益,并且为消费者带来更好的应用程序。
语音识别2.0技术:大幅提升抗噪能力
Siri掀起的语音交互风暴一直还在蔓延。微软Cortana、Google Now、百度语音助手,大量的独立语音助手面世。不少智能设备包括智能手机、智能电视、智能家居、车联网,语音交互也已成为标配。Google、微软、百度等巨头已经将语音识别能力通过API开放出来,大家都在想办法用语音来取代键鼠或者触摸屏这两种最常见的交互方式,尤其是在移动、家居、汽车等特别场景之下。
不过,语音技术包括诸多方面,最核心的几大技术就包括语音识别、语音合成和语义理解。最基础的自然是语音识别,要让机器能“听”之后它才会想、才会说。而语音识别当前存在的几大难题就包括:识别率不高、难以应对噪声环境、无法支持远场识别以及对方言的支持不够强大等等。尤其是抗噪能力更是阻碍了语音交互在车内、移动和商场等典型场景的普及。
百度最新的技术称之为深度语音识别,是深度学习这项通用基础技术在语音上的应用。深度语音识别技术大幅提高了准确率,尤其是抗噪能力,百度通过从9600人那里收集了将近7000小时的语料数据,然后在样本中加入了十五种背景噪音比如,餐厅,汽车和地铁,从而将样本扩张到了10000小时的数据,然后百度团队让系统在噪音中去识别这些语音信息。
与传统语音识别使用统计概率+人工干预不同的是,百度深度语音识别技术采用无监督式机器自动学习,背后则是GPU深度学习基础设施在支撑,不仅更准确,识别所需的运算更加快速和经济。最终在识别范围内允许的单词错误率提高10%,优于Google Speech API,Wit.ai, 微软的Bing Speech和Apple的听写服务。
改变搜索更改变交互
移动搜索的特性之一就是无处不在的多元化的输入方式,图像、位置、语音是典型的新型搜索。百度深度语音识别技术被整合到百度各大产品之中,提高语音识别率之后,可以增强用户使用意愿进而提升用户粘性,并且反过来贡献语料提升语音识别能力,就像输入法、图像识别等采取类似识别技术的应用形成的“正循环”一样。
另一方面,百度可以基于新的语音识别技术开发更多新型应用,尤其是在噪声环境中的语音应用。比如汽车内语音因为有车轮、马达、气流、环境音,一直是一个难点,未来百度CarNet便可采取新的语音技术;再比如百度EYE,试图改变商场导购方式的可穿戴设备,有了新的语音识别技术交互便可以很好地解决;还有大家都在使用的百度地图导航,未来很可能会完全基于语音进行,就像对真人问路一样简单。
除了改变百度本身业务之外,深度语音识别还可以改变当前的语音交互叫好不叫座的现状。一个例子是语音控制智能电视,因为电视本身节目声音这种“噪声”人们试用语音需要先终止正在播放的节目才可。有了抗噪能力之后,就可以直接对正在播放节目的电视喊:换台,给我播放《中国好声音》第二季第一集。总而言之,未来的语音交互有更多的可能性,抗噪能力的解决无异于消灭了困住语音的脚镣。
百度对深度学习的野心
深度学习是百度2014年开始围绕百度大脑重点投入的人工智能技术,让机器模拟人的大脑皮质神经元思考。百度为了发展深度学习技术,不只是成立了专门的研究机构,还大力招募全球顶尖技术人才。现在深度学习已经被应用到问答、搜索、翻译和图像等诸多应用,现在终于轮到了语音。
深度语音识别技术这类里程碑事件越来越多,表明了百度的技术投入是非常有价值有效果的,这对百度的业务有巨大的促进作用,同时也让百度在未来的新兴技术竞争中占据一席之地,不改技术驱动型公司的本色。“百度有自己的野心”,李彦宏在前不久百度与Uber战略合作仪式上说过这样一句话,深度语音识别技术超越Google等海外巨头让这个野心不再只是愿景。
微博@互联网阿超,微信:罗超(luochaotmt)
嗅科技