扫码打开虎嗅APP
虎嗅注:
对隐约可见的AI时代我们每个人其实都心怀好奇和敬畏,我们既想了解它的发展程度,比如它已经实现了哪些落地应用?也想了解它的影响,比如它到底会如何改变我们的生活。
9月2日虎嗅组织了一场关于智能语音的上道沙龙,邀请了智能语音赛道的大部分玩家来探讨关于智能语音的一些问题,其中有中科院自动化所所长徐波,出门问问创始人兼CEO李志飞,蚂蚁金服人工智能部资深技术总监徐鹏,奇点机智创始人邬霄云,三角兽创始人马宇驰,普强信息CEO何国涛,海知智能创始人兼CEO谢殿侠,科大讯飞开放平台业务部商务营销总监陈其山,主持人则是来自声智科技的副总裁李智勇。嘉宾们就自然语言处理到语音识别再到远场语音交互等技术,以及当下火热的智能音箱到智能终端设备手机、汽车的未来趋势,聊了下他们的一些想法。
技术上看当前语音交互发展到了怎样一种程度?
徐波所长《智能语音技术现状与发展方向》的分享非常透彻地回答了这个问题:
徐波所长提到作为一个整体,现在语音交互技术已经进入新的平台期,比如在语音前端处理(抗噪、语音分离),自然语言理解上都面临较大挑战。最终需要有新的技术和储备才能使语音交互进入下阶段,而这并非是单纯的大数据问题。为了这种技术突破,需要从类脑智能的角度来研究语音,从人类学习、记忆和决策角度研究建立前端听觉感知和后端认知新机制,要从仿生神经网络触发启发新一代人工神经网络和学习方法。这一过程很可能需要5~10年。
随后在在圆桌环节各位嘉宾则对这问题进行了更为深入的讨论:
对于“大瓶颈”自然语言处理问题,出门问问创始人李志飞的观点比较有代表性:短期悲观,长期乐观。大家比较一致地认为自然语言处理问题就是通用智能问题,解决了自然语言处理,也就实现了真的人工智能。但这确实会面临比较多的挑战,比如经常提到的完全信息问题,人类在做对话的时候,有比较庞大的信息背景,而这在与机器进行对话时事实上是缺失的。
与此相参照,三角兽创始人马宇驰的观点则更加偏向落地和应用,马宇驰认为:如果我们把地球和月球的距离作为参照尺度的话,那汽车和摩天大楼的高度其实并无差异。所以从应用视角来考虑,核心要解决的是在特定场景下做出满足用户体验需求的产品,这里面两个关键点是:要在特定方向上做到最好,拉开和竞争者的差距,同时也要缩减预期,不能让用户觉得当前的智能语音无所不能。
非常有意思的一个小插曲是,在提问互动环节,大家对客服这类应用上纯粹的语音识别究竟可以达到什么程度这点进行了有趣的探讨:
最初的问题是由一位听众提出的:讯飞当前在人工智能客服上的识别率可以达到多少?陈其山回答:识别率的多少需要分开来看。98%的识别率是纯粹的语音转文字,NLP(自然语言处理)在客服应用场景下,能达到93%。谈到识别率时普强信息的CEO何国涛则做了另外视角上的补充:识别率不等于最终体验,包括客服这类场景,对用户最终要的是能否解决问题。比如,目前各大服务平台的智能客服更接近于搜索引擎,将用户的关键词与数据库相关答案匹配,而支付宝此前上线的智能客服小蚂答,通过深度学习的排序DSSM模型与序列模型LSTM结合可以综合用户行为轨迹与用户输入来进行智能问答,完成5轮问答所需时间大概为1秒钟,比人工客服效率高30至60倍,目前每天可以处理200-300万的用户咨询,客户满意率甚至比人工客服还高出了3个百分点。
这一问答之所以有意思在于,它传递出了这样两个与一般认知不一致的信息:第一,落地应用的场景下,识别率远不是一般媒体所说的98%;第二,落地时唯指标论会让技术类公司走入比较大的误区,就市场应用来说用户体验仍是最重要的。
什么样的产品或者场景会最终启动这个市场?
当前最热的落地产品无疑是智能音箱,但针对智能音箱,显然有着一些必须跨越过去的障碍,出门问问的创始人李志飞把这种现象总结为两个矛盾:
第一是技术与市场之间的矛盾:良好的音箱体验所需的AI技术还需要时间进一步打磨,但国内从移动互联网时代继承过来的主流打法是以快打慢。
第二是市场与资本之间的矛盾:音箱作为非刚需产品,短期不可以和电脑手机市场类比,但又因为交互自身可能产生极为深远的影响,各大巨头也纷纷进入,这就导致赛道过饱和。(注:美国研究机构认为这市场在未来五年内单只美国可能达到每年9000万台以上,其实也并不很小)
不管怎么看,语音交互本身是否启动最终都会和当前智能音箱市场是否启动产生比较大的关联,但显然这是起点而不是终点。对此,蚂蚁金服的徐鹏做了更进一步的阐述,他认为最终语音助手的展开依赖于以下三点:
其中理解用户是指理解用户的偏好、使用历史、当前情景;主动服务则是指合适的时间做合适的事,比如:电影开始前的提醒;广泛连接是指最终语音交互不能局限于某个设备,而会连接多种设备,多种服务。针对这点三角兽的马宇驰在圆桌环节专门做了补充:语音交互其实也并不局限于语音,在某些场景下用户也还是会直接输入文字,用NUI(Natural User Interface)来代表可能会更为适合。
奇点机智创始人邬霄云的落地思路与上述嘉宾所提到的内容有很大不同,奇点机智走的是一种与当前触屏相融合的道路,形象来讲就是在Android的应用系统里让用户随时随地可以使用语音交互。这个倒是可以和支付宝某些改善用户体验的措施相参照:支付宝的许多功能折叠得比较深,用户寻找路径较长。AI团队通过语音识别和语义识别,在支付宝首页上线了一个业务直达banner,用户说出想要找的功能,比如“转账”、“交水电煤”,系统识别语音后就会自动跳转进入相关服务页面。而打支付宝的客服电话也不需要从1到9听提示音报功能,用户说出想解决的问题,系统识别语音后会自动跳转进入相关服务。
AI赛道上潜在商业模式是什么?
过往我们经历过以芯片和产品为代表的卖货模式,以微软为代表授权收费模式,以互联网公司为代表的后端变现模式,以及以云服务为代表的服务模式,那AI企业最终会走到那个模式上,或者会创造新的模式么?
与会嘉宾在这点回答上非常的务实,坦诚说到AI的商业模式仍然处在一个大探索时期。三角兽的创始人马宇驰提到:如果智能客服市场有数百亿的规模,那当技术提供者可以为其节约足够的成本,那事实上就创造了新的价值,进而就一定可以树立自己的商业模式。
海知智能CEO谢殿侠则从另一个视角对商业模式进行解读,他认为2018年中国的智能音箱市场会达到1000万台,在这样一种大前提下,虽然短期为了建立品牌,创业公司会做部分免费的生意,但长线看不会是这样的,至少2B的市场不会这样。普强信息CEO何国涛观点与此类似,他认为AI企业在2B端市场把技术和服务做好,自然就会衍生出适合的商业模式。
总结
从各位嘉宾的讨论来看,当前语音交互的技术突破确实的形成了一定的技术红利,而在怎么把技术红利消化为商业优势一点上,各个公司包括行业巨头科大讯飞和其他崛起的创业公司都还在摸索之中。而眼下风口上的智能音箱究竟会取得多大程度的成功,语音交互技术会落地应用到哪些新的领域,也还是未知。但可以肯定的是随着智能语音各项技术的发展,越来越多的产品会走进我们的生活、影响我们的行为习惯、甚至带来一场新的产业革命。