去搜搜
头像
【私房话实录 第42圈】国内智能音箱马上爆发?恐怕未必
2018-02-02 16:40

【私房话实录 第42圈】国内智能音箱马上爆发?恐怕未必

文章所属专栏 活动实录

虎嗅注:

 

自2017年9月以来,Echo的出货量已突破2000万台,Echo的迅速崛起,为国内智能音箱的发展树立了行业标杆。


国内一大批智能音箱玩家趁势开张,纷纷加入争夺战,预计就在今年,中国“百箱大战”将正式拉开序幕。


不过目前来看,国内音箱销量似乎并不理想,出货量级都是百万级,市场教育的确需要时间,但智能音箱真的能大火一把,成为下一个流量入口,可能答案会是——非也。

 

这是因为,智能音箱行业还是有很多不确定性,虽说语音交互是未来很大的入口,但是语音交互的入口是不是智能音箱,现在谁也不知道。另一方面,从人与机交互的层面来看,无论是移动终端还是智能终端,设备变的越来越小,甚至到了没有屏幕的阶段,智能音箱是不是这种交互最终的理想形态,目前并无法确认。

 

不管怎么说,新商业、新场景带来的模式变迁改变着我们的交互方式,从触摸式的图形交互界面(GUI)发展到语音交互界面(VUI),毋庸置疑,语音交互是未来一个核心的入口,但未必是最有势能的那个入口。

 

眼看“百箱大战”一触即发,然而,对于家庭场景的全面争夺,这其中语音交互究竟要在这其中将扮演什么样的角色,语音交互未来又有着怎样的趋势,语音交互是否真的值得下重注?


本期大咖私房话邀请到思必驰CMO龙梦竹,由她给大家带来最客观、全面的行业洞察。


龙梦竹,投资顾问和咨询专家,在多个人工智能创新项目中担任导师,专注智能语音技术在智能硬件市场的应用方向和前沿发展,连续三年代表思必驰受邀出席“乌镇·世界互联网大会”并分享中国语音技术发展及应用现状。

 

思必驰作为拥有自主产权中英文综合语音技术(语音识别、语音合成、自然语言理解、声纹识别)的公司之一,已经推出多轮对话、可纠正可打断的认知智能,以及实时转录的语音输入板、DUI开放平台等产品和技术。目前,思必驰的合作客户已超过5000家,涵盖智能硬件的各个领域,先后与阿里、腾讯、360、小米、海尔、联想等签署了战略合作协议。


在本次活动中,龙梦竹共分享了四大主题:


国内智能音箱市场面临的困境与语音交互市场的机遇有哪些?


语音交互在未来物联网时代扮演的角色有哪些?其重要性如何?


如何基于用户提出的多种多样的、基于情感的、语意模糊的需求进行深刻分析,精确理解用户的实际需求?


声纹识别有哪些应用场景?普及还面临什么问题?

  

以下是本期大咖私房话内容实录,enjoy~

 

智能音箱崛起的瓶颈

 

在今年CES期间,亚马逊Echo依旧备受瞩目,以官方媒体报道的有效数据来看,Echo在去年Q3销量已突破2000万台,Google Home全球销量第二,为600多万台。

 


国内几款智能音箱排在前面的是阿里的“天猫精灵”和小米的“小爱同学”,在所有内容源里面喜马拉雅率先推出了“小雅”,而在创业公司代表里面具有代表性的音箱其实是出门问问“Tichome”,算比较有代表性的。除了这些互联网企业之外,预计在2018年还会有更多的知名厂商发布智能音箱产品。


另外,好多人都在问为什么百度的Raven H价格那么贵?百度为什么要做这么一款产品?百度并不是真的要推消费者级的应用产品,另一方面是百度在做Raven H的时候,更多的是通过产品去介绍自己的前沿技术能力,以Raven H来带动百度DuerOS对话定制平台。


反观亚马逊Echo,它之所以能快速得到市场认可,并不是因为亚马逊擅长做音箱,而是因为亚马逊背后的Alexa对话定制平台,以及背后的生态资源整合能力。


Echo成为爆款的背后,反映的是国内音箱市场崛起面临的问题

 

Echo是集亚马逊生态与资源优势为一体的集大成者,其成功并非偶然,成功的因素也未必能为国内音箱市场崛起带来普适性的借鉴,但其快速的发展必然会推动语音技术应用落地。


第一,音质是选购音箱的首要条件,包括很多媒体都会做相关的评测,首先就是从音质开始,低音、高音、杜比音效等等。

 

第二,性价比是用户购买的关键因素,Echo在正式上市前,硬件已经迭代了很多版本,成本投入很大,是没太多收益的,只能是量产之后薄利多销,而对终端消费者来讲,需要的只是高性价比。比如去年有一款“折衣服机器人”,不管多乱的衣服,在十几秒种时间都能迅速叠放整齐,但售价高达十万块,几乎无人购买,所以,在价格与技术投入之间去掌握好平衡点才是关键所在。

 

第三,销售渠道;Echo依靠的渠道是整个亚马逊的生态服务,亚马逊把AWS云服务、Kindle跟Echo进行整合,铺设了很广的销售渠道。

 

第四,内容服务;亚马逊将音频服务,包括Kindle、有声读物,全部融入到Echo内容服务上,内容资源得到充分积累。

 

第五,语音交互;Echo在技术上最显著的代表性意义,则是把语音的远场交互迅速落地,率先将远场麦克风阵列集成在产品里,无论声源定位、远场唤醒、语音交互,都带给用户极其新鲜的产品体验。

 

但Echo在中国的销量还不理想,当然大部分原因是Echo目前没有支持中文,以及在整个生态和内容服务上没有完全打通,这也给中国的音箱发展创造了非常好的条件。

 

眼前中国智能音箱的瓶颈在于:音箱们的智能交互体验,跟语音交互技术、后端服务和生态合作都是相关的,而这几点也恰恰是国内音箱的劣势。


以语音技术为例,当技术落地应用,语音其实只是交互的手段,并不是产品功能,效果的优劣主要是由是否最终能满足用户需求来决定的,简单说,好不好用是由语音技术,内容打通能力等综合决定的。

 

比如有些人买了某音箱,觉得还是不好用,就会问是不是语音技术有问题?语音技术什么时候能够成熟?比如,当用户对着音箱说“我要听赵雷的《成都》”而产品反馈“对不起找不到您要的歌曲”,消费者下意识会认为是语音识别不好,搜不到歌曲,但这背后很有可能是音乐内容提供商没有这首歌的版权;或者产品本身某个硬件模块没有选得特别好,比如芯片选择不好可能会延长语音识别的时间。


对用户来讲,语音是用户跟产品发生关系最直接的感受,于是所有的锅,最后都是由语音技术来背。

 

国内智能音箱整体上还未到爆发节点

 

很多人都在问2018年音箱能火起来吗?


从语音交互、内容服务,包括用户的接受能力,其实还达不到音箱真正爆发的节点,音箱带动的更多的是大众对智能家居的认知,让大家看到物联网的发展及智能家居的未来,而真正能火起来的可能不一定是音箱,有可能是智能门锁,智能路由等。


2018年应该会有中国本土的创业企业研发的智能门锁大规模铺向C端市场;再比如电视,电视在2018年、2019年会是个分水岭,之后所有的电视应该全部都有语音功能。


但音箱目前还不具备成为刚需的条件,那为什么音箱会成为目前商家探路市场的首选?这是因为音箱本身是一个天然的、最好的音频载体,第二,音箱比较轻量化,进入门槛相对较亲民。

 


也许明年,市场上会出现更多类似于智能音箱的变体,比如音箱大部分是圆柱体,是为了收音和识音,还有音频播放。但如果把音箱中部挖空,把它拔高,做成花瓶,那是不是就可以不用叫智能音箱了?


所以未来真正会爆发的是“智能助理终端”,真正能够解决用户交互需求,家居的控制等等,而不在乎是什么形态。


另外,中国作为一个农业大国,对爆款产品的定义一定不是说产品体验多好、价格多低,而在于卖的多好。要卖得好,渠道是很重要的因素。只有打入三四线市场,比如现在的手机,苹果、华为炒的较热,但OPPO、vivo,的市场占有率却是非常大的,它们走的就是打入中国广大的三四线市场,因为这一块才是最有消费潜力的,而音箱如果在一两年内想打入三四线市场,可能没有那么容易。



我们再说回今天的主题,智能音箱。


智能音箱只是外在的终端形态,我们要评价智能音箱的好坏,就需要关注其背后的综合能力,首当其冲的是智能语音技术。

 

从互联网时代到移动互联网,再到物联网时代,设备数量呈现指数级的增长,信息获取也从文本信息处理发展到对话搜索。

 

随着对语音技术、新场景的挖掘,物联网市场迅速发展,智能硬件设备数量将达到100亿量级,文本信息交互变得越来越弱,而语音和对话交互成为发展的需要,信息获取也从终端为中心转移到以用户和场景为中心,这是整个时代的变革。


比如,在2014年的时候,以智能手环为代表的可穿戴市场开始兴起,短时间内国内出现了几千家做智能手环的企业,但又迅速的销声匿迹。再到2016年基本上很少看到手环或者可穿戴产品的存在,而今年随着整个AI技术,尤其是语音技术,还有新场景的挖掘,穿戴设备市场又将会慢慢地恢复起来。

 

智能交互是AI产业链的重要一层

 

我们来看一下,智能语音处在人工智能产业链的什么环节?

 


从人工智能产业来看,整个产业链也在发生变革,基础支撑层的力量在夯实,包括大数据、云计算、芯片、传感器等等;

 

智能交互层逐渐深入,包括从感知、认知到表达的多个层次理解,涵盖任务特征、身份验证、对话管理、文字表达等;

 

系统应用层越发多元化发展,包括消费级的应用产品,比如各类软件及音箱、电灯这种终端的硬件等等。

 

总体来说,专业化分工的趋势变的越来越明显,比如在语音交互市场中逐渐分化出:对话中的闲聊式对话,信号处理、声学结构设计等公司,除了智能交互层的公司以外,基础支撑层中的大数据管理分析也分化出文本数据的处理、云存储、数据标注、语音数据等。


据不完全统计,到目前国内也有将近五六十家做大数据的标注和管理公司,而大部分也都是在近几年成立的。目前,云计算已经到达非常成熟的水平,在人工智能火起来以后,大平台如阿里云,创业公司如Ucloud等一批云计算公司逐渐凸显,未来云计算真正有可能会比语音公司先走入快速的标准化和规范化。

 

思必驰所处的位置是智能交互层,相较于科大讯飞而言,思必驰更专业细分化,首先以车载和家居行业作为突破,专注toB服务,而科大讯飞布局更大,既做C端也做B端。


现在对于很多创业公司来讲,技术型的创业公司仍然有机会去做细分市场,不管是场景的细分,还是技术细分,产品化的细分,内容的细分,都会有很多机会。拥有核心技术服务能力的公司,未来不管是向系统应用层,还是基础支撑层扩张,都会有一定基础和核心竞争力。

 

思必驰在2014年以前,主要是做教育领域的语音评测。2014年物联网的风潮开始来临,可穿戴的市场、物联网的概念、智能家居慢慢被提及。相对于阶段性、片面性需求的教育领域,我们认可智能硬件将是语音做好落地的产品,语音对智能设备而言一定是刚需。2014年思必驰剥离教育事业部,成立了驰声科技,后来在2015年被网龙全资收购,而思必驰自此转型,专攻车载和家居市场,深化语音交互体验。

 

智能交互影响下一阶段人工智能的发展

 

随着时代和技术的发展,人机交互的任务目的也一直在变迁。从最早的PC互联网时代,用户通过电脑来组织信息、存储信息;到90年代的时候,搜索引擎开始出现,信息得到丰富,信息从浏览逐渐衍变至主动搜索;再后来移动互联网发展,物联网的概念被提及,用户开始基于智能设备做一些功能处理和任务分配,比如定日程、叫外卖。

 

所有的人机交互设备,都可以广泛称之为“人工智能”。我们可以把人工智能分成四个维度:


首先是计算智能,主要是存储和计算的作用;

其次是感知/表达智能,拥有输入、输出能力、表达能力;

第三是认知智能,从信息的理解到做出反应的过程;

最后是抽象思维智能,能够自我适应和分析、理解。


我们常常被问到,天猫精灵用的越多是不是就越听话?其实不然,而是用户用的多了,机器会得到用户成功与否的反馈以后,平台方会在后台进行优化,让你觉得越来越好用,但并不会对单个用户本身进行升级。


未来当机器拥有了分析推理的能力,可以延伸到迁移学习,在一套框架下把某个东西的算法做好,能够快速迁移到另外场景,来建立快速的交互和体验,这些会影响到下一阶段人工智能的发展。

 

智能语音中的对话需要有来有往,有丰富的内核,可以分为四种类型

 

关于百箱大战,其终极目标是成为智能助理设备终端,而从技术来看,其实反映的是自然口语对话的趋势,真正的对话其实不完全是传统所理解的语音,那么何为对话?


传统的理解是我们说的话就是对话,但其实不然,对话指的是有来有往、信息的交互,语音是对话里面最核心的一个方向,但除此以外,包括文本、图像都是对话的一部分,完整的对话甚至可能包括导航地址、表情包、情绪的表达。


对于多模交互其实包括两方面的意思:


一方面是指真正的模态交互,包括人脸、语音、手势、体感;

另一方面是指在对话的层次,语音加文本,加触摸等,也叫多模交互,而现在大多所做的对话基本上就是单独的语音交互。

 


我们初步把对话分成四种类型:轮回次数作为横坐标,结构化语义和知识引入程度作为纵坐标,分成命令式对话、闲聊式对话、问答式对话和任务式对话,最简单的其实是命令式对话,通常为单轮的本地指令,比如开灯、关灯、闹铃设到7点半,大部分是一个本地的功能。

 

比较复杂的是闲聊和问答,目前大部分语义公司在做的都是闲聊式的对话,跟问答式的对话最大的区别在于两点:


第一,闲聊式对话一定是多轮的,没有明确的正误之分;

第二,问答式对话更多的会依赖后端搜索能力,即词库能力和搜索服务的能力。大部分的闲聊式对话是人去做技术支持的,而后端的问答式对话大部分是机器去做后端搜索库的支持,当然QA这部分大部分还是人工去整理的。

 

2015年兴起很多的机器人都得益于闲聊式对话,因为它会让小孩觉得有意思,好玩,就要买。但是在2016年以后机器人市场开始回归理性,尤其是儿童智能机器人,分化出两个方向:第一,专业化升级了,开始去做工业/服务机器人,比如酒店迎宾机器人;第二,开始往下沉,针对3-7岁小孩的儿童故事机智能化,做陪伴机器人了,满足场景化的需求服务。

 

自2017年开始,机器人的分级变的非常明显,闲聊式对话只能满足于让机器变得有意思、变得好玩,并不能让机器变得更好用,真正能够让机器变得好用,像Echo那样,被大家有产品依赖度的,有用户粘性的,其实是任务式对话。

 

所谓任务式对话,是基于后端强大的信息服务能力,以及背后复杂的语义和结构化知识。国内在做任务式对话时是基于场景化的,比如车载、家居。

 

回到智能音箱,Echo是对话式交互、任务式交互的集大成者;而Echo的成功只是偶然,背后Alexa的成功才是必然,如果当时Alexa的能力不是集成在Echo里面,而是集成在路由器里面,智能水杯里面,一样会成为爆款,Echo的成功验证了Alexa的平台能力得到认可,对话式定制平台需求得到验证。

 

国内的一体化对话定制平台包括思必驰的DUI、科大讯飞的AIUI、百度的DuerOS,目前在整个行业里面,这三个平台各有优势,之后的市场竞争会比较明显。

 

但语音交互和对话不是万能的

 

早期的UI,我们称之为GUI(图形用户界面),到后来有设计师提出,最好的UI界面就是没有界面,我们称之为VUI(语音用户界面),即声音的交互界面,但逐渐地会发现,在很多实际的场景里面VUI并不是绝对万能最好用的,比如导航。

 

这好比微信聊天时,大家更欢迎文字而不是语音,同样信息量的情况下,有时候图形文字会比声音交互更简单直接。


比如,我们跟车载设备进行交互的时候,我说“去中山公园”,这个时候如果完全是VUI,机器会找到以下地址,中山公园东门、中山公园西门、中山公园北门等,请问你要去哪个门?我说中山公园东门,好的,为您导航到中山公园东门,请问你要高速优先还是不走高速等等?在这个过程中你会发现所有的交互,如果有反馈一个界面,我只需要触摸一下,就能够快速触达,而完全依靠VUI,只会让整个交互变得冗长而没有意义。


所以语音一定不是万能的,而是要根据场景来定义产品形态。

 

因此传统语音技术无法满足真实交互需求,需要增加对环境的感知、对话管理、上下文理解等。

 

除了考虑应用场景,智能语音还需要技术的进步。


传统的语音技术其实是单线操作,把语音当做了键盘的替代品,最开始苹果的Siri走的就是这种传统的语音技术路线,所有复杂的信息只能一次性交互,而且对用户的要求大过于对机器的要求,当传统语音技术不能满足用户的真实需求后,后来才慢慢地走向了自然语音交互。

 

早期对语音本体的解析还未达到理解的程度,那么解析和理解有什么区别?

 


比如,用户口语表达“等周二许春来到深圳后约他1点钟在九寨沟喝茶”。对这句话的解析没有太大问题,它无非是一个复杂意图的长句,但是解析出来以后,这个人是叫许春还是叫许春来?九寨沟是地名还是咖啡厅?是上午1点还是下午1点等等,所有的交互都一定要建立在真实场景里面,通过对上下文情景的感知来实现,而解析是完全没有能力做到的。而真实场景的理解、反馈、交互是有非常强大的不确定性,这也是自然的人机交互里面最大的问题,包括了各种语义的复杂性,环境的不确定性,发音人的不确定性。

 

在不同的场景中,噪音会让音频信号产生很大的不确定性,而这样的不确定性只能通过认知智能技术的迭代来改变,在上下文的情景理解和多轮交互中得到满足。


现在很多的厂商在做多轮交互的时候,都在加强认知型的技术提升,都会分场景、分需求去做,在传统的语音交互技术基础上增加对环境的感知、对话管理、上下文理解等。

 

到今天,语音技术的发展已经从底层的识别、合成、语义理解全面向智能对话过渡。


过去谈语音,谈的是合成,有没有机械感?后来谈语音识别率是多少?到今天专业的技术公司很少再单独的去谈识别率这个概念,因为没有意义。


因为所谓的识别率是在理想的环境下、理想的发音人、理想的信号采集和距离情况下做的通用的识别率,而真正落实到产品本身,环境噪音、距离都会对识别率产生影响。


而今天很多公司还在强调识别率,主要是因为对C端大众消费者来说,识别率是最能直观的理解行业现状的指标。为了普及大众认知,识别率是最简单的方式。

 

声纹识别大规模商用还需时日

 

下面讲讲声纹识别(虎嗅注:声纹识别又称说话人识别,是生物识别技术的一种。该技术通过语音波形中反映说话人生理和行为特征的语音参数,进而分辨出说话人身份)。

 

声纹识别目前分为两种形式,一种叫说话人辨认-SI(Speaker Identification

,属于一对多的关系,就是在一群说话人中,通过去识别其中一个人音频和信号去确认这个人是谁,应用的场景包括刑侦破案、罪犯跟踪等;另一种叫说话人确认-SV(Speaker Verification),属于一对一的关系,通过采集的数据来确认说话人,应用场景包括证券交易、支付购买、声纹锁等,民用场景应用性更强。

 

但目前在做声纹识别方案的时候,通常是将声纹作为一种辅助认证,把声纹和人脸进行结合,双重验证,或者把声纹跟传统的密码支付来进行绑定。但对于声纹识别大规模的商业应用还需要时日,做好产品的交互体验也是关键所在。

 

在声纹识别里边最大的难点,首先语言是一种时变的一维信号,语音声音信号本身的问题,在于说话人语速、情绪、感官,甚至包括采集音频的设备、变声器的应用都会对声音有一定影响,让声音的可信度有存疑;从算法上来说,包括建模、运算的能力,尤其是做声纹数据库的时候,去做什么样的用户声纹验证,有关年龄、职业分布、发音特质都需要做建模,并且建立数据库对样本量的获取都是难点。

 

尤其是智能家居大环境下,将会面临以下几个方向的挑战:


首先是噪音的干扰,也就是鲁棒识别(鲁棒即经历了各种信号处理或者各种攻击后,依然具有一定的保真度),未来将会从算法降噪和硬件降噪来综合提升体验;

第二是家居环境下的远场交互,目前主要是基于理想的家居环境中3~5米的距离来做核心优化,之后会针对于酒店,甚至银行大厅去做点对点的降噪尝试;

第三是回声消除、在设备播放声音时的唤醒、打断和交互。最后是提升交互体验的其他必须技术点,包括声源定位、声纹识别等。

 

展望未来,智能语音还可以有更加丰富的应用场景

 

车载行业整体的后装市场已经进行了快速迭代,非语音设备逐渐在退出舞台,目前主流智能后视镜基本上都带有语音功能,在智能车载里面,语音成为刚需,再加上其他诸如防疲劳驾驶、手势交互等各种综合AI技术,让智能车联网加速发展。


其次是智能家居,例如智能音箱、白电、小家电等,都有可能能跟语音发生关系,如果说在车载里面的语音是为了安全是刚需,那在家居里面的语音则是为了便利;而语音赋能机器人和玩具,则是让交互更加便利,同时增加趣味性。

 

在机器人和玩具场景下对语音的要求是远场能力,还有后端的内容服务能力,现在比较常用的TTS(从文本到语音),即语音合成,常用的会是各类明星的合成音,放到小朋友的玩具里面去,显然是不合适的。所以,未来会有新的方向,就是去做“小数据的快速定制”,很多厂商会提出新的要求:给到少的数据,快速的生成TTS,这样的话产品就能够直接录爸爸妈妈的声音,让小孩子在父母不在家的时候更有陪伴感,目前这种技术已经成熟了。

 

除了车载、家居和机器人以外,在教育和医疗领域目前认为是两个轻需求的应用场景,要想得到大规模的应用,必须考虑整体AI技术的方案打包,语音在集中占比只是一部分。比如说教育,目前语音技术偏向于应用口语评测和文本录入;而在医疗领域,语音目前还不能像图像那样,通过图像检测和分析判断患病情况,语音电子病历也不过是“智慧医疗方案”中的一个技术点。

 

基于语音目前的发展,会给行业带来很大的变化,首先会改变现在很多行业既有的业务模式,会催生新的行业。


举个例子,百度的搜索引擎很强大,但是当搜索好吃的餐厅的时候,大众点评可能是首选;要看新闻,过去可能要去百度搜索关键词,但是现在今日头条的个性化推荐满足了用户获取新闻的需求,大的内容聚合平台不再是未来的主体,场景化的细分、用户针对性需求的满足,是真正大趋势。

 

在物联网的环境下,很多行业都将会被颠覆,也会产生很多新的细分赛道的机会,尤其是语音识别、图像识别,深度学习技术的发展,将会带来新的挑战和机遇。

 

不过在物联网时代智能语音技术将面临很多技术新挑战

 

到目前为止基本上各语音厂家都已经拥有了纠正打断的智能交互技术服务,在基于认知型交互模型的情况下,结合现在的语音行业,实际的应用场景和方向,就会又对物联网时代中的语音技术提出新的挑战。

 

在各种不确定因素下,语音识别并没有绝对的优势。根据产品所处方向以及新的需求,未来将会从感知、认知和抽象思维三个方面面临新的挑战。


在感知智能层面比如来自抗噪、个性化、低资源、低功耗的挑战,预计在2018年上半年以低功耗、低资源为主的数据处理AI芯片会成为趋势;另外是认知智能层面,关于对话控制、打断、交互系统优化的的挑战;最后是抽象思维层面,包括逻辑推理、纠正和提示的挑战。

 

Q&A:

 

Q1:为什么天猫精灵要专门设置声纹识别的过程,为何不能在支付的同时进行声纹识别?声纹识别进行身份确认后可以满足个性化的服务吗?

 

龙梦竹:其实技术上是可以做到在支付交易时进行声纹识别的,但类比购物APP,用户登录时已经进行过身份确认,支付时仍然会需要二次确认,这是出于安全的验证。比如通过智能音箱进行话费充值的时候,如果该用户是属于“集内用户”,那么音箱在唤醒时同时做了声纹识别,音箱会直接确认你的电话号码,但在支付的时候,出于安全和负责任的交互,一般还需要二次确认。

 

Q2:一般情况下数据标注可以实现全部由机器来完成吗?

 

龙梦竹:如思必驰小数据的快速定制,就是由机器独立完成的,大概8分钟的语料,差不多100句话,需要很短时间的机器训练即可生成声音模型,但如果需要情感度高、流畅度高,一定不能完全依赖于机器,因为机器只是辅助。

 

Q3:未来语音交互的发展方向是怎样的?任务式和闲聊式对话会做明显的区分吗?

 

龙梦竹:第一个问题,语音交互的发展方向大致可以分为三个:首先是场景化的细分;第二是多模交互,在真正的智能化产品里面一定是做多模的,语音不能单独分割来用;第三是从被动式的交互到主动式的服务。


第二个问题,四种类型的对话方式并没有完全分离,厂商都会用闲聊式对话来兜底,只要任何对话轮次进行不下去,闲聊就很适合用来兜底,因为闲聊没有对错之分。而人工智障的问题在于没有做区分,没有对优势和产品的方向进行更深入的分析,在真实的产品里面四种类型的对话方式是不可分割的。

 

思必驰的特点是做任务式的场景对话为主,兼具闲聊和问答,因为任务式对话是让产品有用,闲聊是让产品好用,问答是让产品搜索能力更高,命令式对话是让产品变得简单,所以语音交互一定是综合的应用,但需要对使用的场景和用户需求做出合适的定义。

 

Q4:思必驰未来会考虑做方言识别吗?方言识别的前景如何?

 

龙梦竹:目前对方言识别的准确率技术上可以做到很高。之所以没有做的原因有两个,首先是中国的方言比全世界的语言加起来还多,基于商业化的应用前景,投入产出比考虑,方言识别的优先级不会很高。第二,我们当前还是会专注精力和投入,如果要做,这个业务逻辑一定要清楚,先做什么,完成度如何。

 

其实就识别而言,还有很多的场景和技术上存在探讨空间。中老年人对互联网的操作不是很流畅,通过语音来转化会比较好,对中老年人的语音识别将存在很大市场,但问题是老年人的方言识别难度会更大,需要做大量的数据工作,而老年人的交互需求,也需要再挖掘。方言识别,不是不能做,而是一定要把这个业务逻辑想清楚,先后顺序想清楚。

 

Q5:对于市场上的一站式、全链路对话定制平台的探索,您怎么看?

 

龙梦竹:以思必驰DUI为例,思必驰DUI是一个全链路智能对话定制平台。所谓的“全链路”包括两个方面,第一是指技术的全链路,从前端的ASR到中间所有的语言模型的定制全部都可以在线完成。第二.从市场应用来看,单纯的语音交互使用户接触到信息太少。


以电视为例,交互方式涉及GUI与VUI的结合并达到同步的状态。市场中的智能设备,分为“大屏”“无屏”“微屏”等多种类型,当语音交互成为主要方式时,可能仍然需要用GUI辅助对话。对于兼具语音与图形交互的产品,全链路定制平台设计了对话控件, 对话控件包括数据、GUI、对话三个要素,全链定制平台上默认提供了内容卡片、列表、音乐播放、内嵌网页等, 开发者也可以自已定义一个控件, 降低了开发者的开发难度。


基于多场景的对话技能的服务,根据各个场景的不同需求,把技术和内容打包成更能被用户熟知的产品形态,对后端内容进行聚合。


比如,同样是问天气,一般我们技术厂商都能支持“今天北京多少度,明天呢?上海呢?”这种对话。但是在真实的用户场景里面,你通常不会问北京今天多少度,你会问北京今天天气怎么样。基于这个真实的问题,机器可能给出不同的反馈方式:第一种”北京今天零下8到零下2度,微风”;第二”今天北京下雨,出门记得带伞”;第三“今天北京零下8到零下2度,可能会下雨,不适合洗车”。任何一种回答和交互都没有问题,所用的接口可能都是末级接口,但对开发者而言,不同产品,对体验也是有差异化的需求。平台所做的,是尽可能考虑多场景下的多需求满足。这就是我们对于“全链路”的理解。

本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声