正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2016-03-26 08:47

人人都会有一个贴身“小冰”——超级助理时代来临

本文译自《连线》作者:David Pierce 翻译:王克寒 左小鹤 金小堃

先讲一个你可能听过的故事,但紧随其后的另一个你未必知道。


1979年,年轻的史蒂夫·乔布斯参观了Xerox PARC一个位于加利福尼亚的传奇研发实验室,亲眼见证了现在被称作“图形用户界面”的东西。PARC的工程师使用一个“鼠标”操纵满是图标的荧幕,下拉菜单,点击“窗口”和重叠的对话框。乔布斯在这些闻所未闻的东西面前兴奋不已,“就在十分钟之内我就认识到”,他后来说,“今后所有的电脑都会像这样工作。”


相传,乔布斯飞奔回苹果,立即指挥团队复制和改善他在PARC看到的东西。就这样,个人电脑在过去四十年一路高歌猛进,从最初的Macintosh一路发展到今天的iPhone。可视化的计算系统结束了命令行(一个基于用户指令、文字交互的操作系统)独步天下的局面,让普罗大众都能使用上电脑。


而在不远的未来,我们可能会为PARC的另一项看似错误的研究计划而激动。


在乔布斯访问PARC的时候,PARC的另一个团队在研究一个完全不同的人机互动模型——今天我们把它叫做“对话式交互界面”。这些科学家描绘了一个在几十年之内有望实现的图景——计算机将变得无比强大,人们再也无需费力记住每一组特殊命令的操作流程、语言,而是让计算机协同人类工作,通过反复“对话”完成任务。计算机将全程使用人类的日常语言。


在这个团队中有一个名叫Ron Kaplan的科学家,他今天是个矮胖、说话轻声细语、留着银灰色山羊胡的老头。Kaplan既是语言学家,又是心理学家,还是一个计算机科学家。他既有创造乔姆斯基语言建构理论的才华,又有发现摩尔定律的天分。他说,他的团队早在70年代就已经针对对话式人机交互展开了研究,并且已经完成了一个系统,能够让用户使用英文与计算机进行交互从而预订机票。但由于技术原因,这个系统无法大规模投入使用。 “当时,支持一个用户差不多需要耗费一百万美元”,他说,它们需要更高速、更分布式处理、更加高效的计算机来完成。这或许还需要等上15年。


“40年后,”Kaplan说,“我们准备好了”。整个世界也已经准备好了。


如今,Kaplan是Nuance Communications的副总裁和首席科学家。Nuance或许已经是声音交互行业里最大的玩家:推动了福特汽车的智能操控系统的发展,对Siri的改善有着重大意义,还与几乎每一个行业都建立了合作伙伴关系。但是Nuance并没有独占市场。几乎所有的科技巨头,亚马逊、英特尔、微软、谷歌都致力于发展Kaplan和他PARC的同事们构想的对话式用户界面。大批的初创公司也介入其中,争相在这场大变革中拔得头筹。(译注:比如我任职的创业公司Vinci,推出了专注于音乐和电台推荐的对话式交互助理ME,它能通过多次对话为用户推荐最佳的听歌方案。)这些公司相信,人们很快会习惯跟自己身上的“小配件”说话,如果你像对待朋友那样对待它们,它们也会陪你聊天,领会你的意思并作出回应。


1979年乔布斯所看到的图形用户界面被广泛应用于市场,但它没能将所有人带入电子时代。不管图形用户界面多么高效优雅,它还是需要人类学习计算机语言。如今,我们更希望计算机学会如何讲人类语言,这无疑能帮助更多的人感受科技、使用科技。


青少年使用语音搜索完成各项任务的比例。来源: Google Mobile Voice Survey 2014


“现在不同了”


其实声音交互已经出现了好多年了,但它们实在不怎么好用,语音交互系统即便是能够识别语句,但也达不到跟人会话的程度。问问Google Now纽约市的人口数量,它会马上告诉你;问问帝国大厦的地址,它能包你轻松到达。但是多加一步逻辑,问包括帝国大厦在内的纽约市人口,它就无言以对了。逼问Siri逼得太紧,这个助理就会让你去Google上自己查。梦想像《星际迷航》里寇克舰长那样指挥企业号,或者像钢铁侠那样打趣Jarvis,恐怕都要失望透顶了。


不过现在再去硅谷打听打听,你会听见人们不断重复一句话:现在不同了。


SoundHound的CEO Keyvan Mohajer向我展示了一个他们公司秘密研发了将近10年的新应用。SoundHound这个名字可能让你联想起一个很火的音乐识别应用——用手机听录一下就能识别出歌曲名字的那个。这个音乐识别应用原来只是Mohajer野心的一小步:他想做出一个世界上最好的基于声音的人工智能助理。


这个不可思议的新初始版应用名叫Hound。拿着一个黑色的Nexus 5智能手机,Mohajer点了一下蓝白两色的麦克风图标,开始问问题。他起初的问题很简单,“柏林时间和日本的人口”——都是一些简单搜索——他又紧跟着加大了难度: “它们之间的距离是多少?” Hound明白了他的意思,回答道: “大约5536英里” 。



Monajer加快提问速度,一串连珠炮似的问题的复杂度不断加大,他的脸上开始显现出笑容。他让Hound计算,如果购买一栋价值一百万美元的住宅,每月的分期付款数额,Hound马上问他利率和贷款方式,然后迅速给出了答案:4270.84美元。


“太空针塔(Space Needle)所在的那个国家首都的人口是多少?”他问。Hound分析出Mohajer在问美国华盛顿特区的人口,速度比我还快,它用急速的机器人声答出了正确答案。“日本和中国的首都和人口数是什么?它们的国土面积用平方英里和平方千米算,分别是多少?再告诉我印度有多少人,德国、法国、意大利的区号是多少?”Mohajer还想再接着问,但是他一口气只能问这么多。我就不细说这串足足回答了一分钟的答案了,但是Hound全部答对了。


Hound虽然现在还在测试阶段,但它差不多是迄今为止未正式发布的声音识别系统中速度最快、最通用的了。它现在的优势在于能够同时进行语音识别和自然语言处理。不过其他系统要想迎头赶上,只不过是时间的问题。


毕竟,这项技术的基本组成要素——强大的对话式界面所需的、被Kaplan称为“入门级”的技术,现在对所有买家来说都触手可及。这是一个技术集成的经典案例:运算能力、语音识别、移动设备接入、云计算和神经网络,这几方面的技术在几乎同一时间达到了一定水平。而且这些工具足够的优质、廉价、易得,使得对话式界面走入市场,并且无处不在。


对话式界面还解决了一个问题:当那些没有屏幕的设备(灯架、烟雾报警器等)在接入网络以后,我们无需按键、菜单、图标就能和它们互动。


与此同时,乔布斯用图形用户界面打造的帝国也盛极而衰。无比强大的屏幕交互要求一切能想象出来的功能做手势编码,要有一个图标或者菜单项才行。拿Photoshop或者Excel来说:人们熟练操作它们需要掌握一大堆快捷键、菜单树和乱七八糟的工具栏,恨不得坐那拿剪子自己剪一张照片!“图形用户界面已经走到头了,”Kaplan说。“它现在已经不堪重负了”。


你现在还没跟虚拟助手有过深刻的接触吗?“叮”的一声,手机上的通知推送带来了重大升级。当你升级到iOS 9, Android 6, 或者Windows 10时,系统会减少你使用应用程序的时间,而更多地和Siri,Google Now或者Cortana对话;很快,超过十亿的Facebook用户将能打开聊天窗口,向M(一个新型智能助理)询问几乎所有事情(现阶段还只能接受文字输入);在苹果的Home Kit智能家居系统中,你只需说: “嘿Siri,晚安” ,就能保证房子里的所有东西都关好锁好。


至少在初始阶段,虚拟助理背后的创意都是为了化繁为简。以前我们不得不一下下点开应用,未来,你的虚拟助理可以对手机上的全部信息了如指掌。它们把你从屏幕上七个视窗、五个工具栏、三十个标签页中解救出来,并且统一管理无法进行“对话”的应用程序和设备。有一天,它还会了解更多——比如:你。


“人格”魅力


2014年秋季,亚马逊发布了一款叫做Echo的新产品:一个圆柱形的黑色音箱式设备,顶部的蓝色光圈随着设备发出的声音一闪一闪。这个小玩意儿有个人性化的名字,Alexa。当“启动问候” 响起的时候,即便在嘈杂的环境中,Echo也会用一种叫做远程声音识别的系统来分辨呼叫它的人声。然后它静静地聆听。这项产品的理念是将Echo放置于你的客厅、厨房或者卧室,你将通过和它说话控制所有的东西。


让大家试图理解一个没有任何图形界面的技术,这非常有趣。它上面没有什么可以查看的,没有哪可以触按,没有什么可以来回滚动,也没明确说它能做到什么。科技媒体都被亚马逊“谜之新产品”搞懵了。(至少有一家媒体把Echo比作《旧约2001:太空漫游》(2001: A Space Odyssey)开篇那个神秘的黑色独石)。


去年年底我开始使用Alexa的时候,我发现它能告诉我天气信息,回答基本的事实性问题,列出购物清单显示在手机上,按照指令播放音乐——都不是什么深奥的事情。但是Alexa迅速变得更加智能和卓越。它熟悉了我的声音,学会了有趣的玩笑,并且开始帮我为多个事情管理时间(特别是当你做特别复杂的菜的时候,这个十分有用)。在2015年里,Alexa从最初的测试版到公开发布仅用了7个月的时间,却从常常让人气急败坏变得又稳定又实用。


这也印证了对话式技术的一个更深层次的道理:只有建立私人关系,你才能真正领会它的能力。科技界的大玩家们都深谙这个道理,并且试图赋予助理们恰如其分的个性特征、人格魅力和尊重用户的距离感——简单说就是让它们更可人。比如说微软在研发Cortana的时候就引入了游戏Halo背后的制作团队(这也是Cortana名字的由来),来赋予一个空洞的人声一些个性色彩。 “你能感觉到它的机智幽默又不失坚忍,”Cortana工程团队的主任Mike Calcagno说。他们也获得了想达到的效果:即便Cortana在面世之初既不稳定,也不好用,还笨笨的,人们还是对它很感兴趣。(再比如Vinci公司,人格化了音乐推荐助理ME。当产品经理调戏它,或者问它“我美嘛?”,沉默的半秒后便听到了James Blunt的You are Beautiful.


个人助理的此番攻势是有战略上的原因的。在研发过程中,微软、Nuance,以及其他一些公司都得出了如下结论:一个真正有用的对话式助理应该是无处不在的,是在各种场合下不断了解你的个人习惯、好恶、生活规律和时间安排的。达到此目的的办法只有一个:让人工智能接入尽可能多的应用程序和设备。


正因为如此,亚马逊、谷歌、微软、Nuance和SoundHound都在向世界各地的开发者开放平台技术。公司们都很清楚,你会对那个最懂你的对话式助理不离不弃。所以做好准备迎接新的一拨空洞的嗓音吧。只是因为在人群中多听了它一言,再也不会忘掉它声线。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: