扫码打开虎嗅APP
题图为科大讯飞云平台事业部总经理于继栋
提起科大讯飞,或许已经不需要百科了。这家总部位于合肥的公司以技术立命,跟这个时代对技术的崇拜相吻合,所以他们谈起人工智能让人觉得理所当然,而他们也的确是这么做的。
今年4月的英特尔深圳IDF上,讯飞研究院副院长王智国在台上演讲,当屏幕上将他说的话实时转录成文字时,场下的观众、包括我被吸引了,这也是这家公司在公开场合比较大的技术展示。
不仅如此,这家以人工智能为卖点的企业还有很多绝活儿,7月份,虎嗅等媒体参观科大讯飞总部,在2楼的一个演示大厅里,讯飞的工作人员带着我们体验了体验了语音合成,dingdong智能音箱、aiui、讯飞听见、讯飞车载语音系统、讯飞智能阅卷系统等技术演示。
科大讯飞告诉虎嗅,这些技术在习近平主席今年4月份参观科大讯飞时同样展示过。其中,当科大讯飞董事长刘庆峰为习近平演示可用于单机涉密情况下的“讯飞听见”实时语音听写技术后(也就是这次在虎嗅上演示过的高级版),习近平表示:“那今后包括写作、速记,都可以用我们的语音了。这个将来用处广了!”
而在9月9日的虎嗅F&M节上,科大讯飞云平台事业部总经理于继栋再次演示了一边这些绝活儿。尤其当其演示讯飞听见时,屏幕上把于继栋说的话飞速转写成文字后,场下的观众感到非常新奇。
而我现在采访录音后几乎不用找速记公司帮我整理,在讯飞听见官网上可以直接把录音上传,几分钟后,它就可以把1个小时的录音转录成文字,虽然还有小瑕疵,但是它不会像速记那样偷工减料,而我主需要按小时付费就行,100块钱转录5个小时的录音,非常划算。
这是个神奇的网站,你去试试就知道我所言非虚。
以下是于继栋的演讲内容:
我今天带来的主题是“人工智能改变生活”。时间比较紧,我就讲快点。
(AlphaGo战胜李世乭)这个事情大家应该都非常了解,就是今年所有人都知道的。其实在1997年计算机已经战胜了人类,当时认为围棋不能被计算机搞定,把所有的步骤都能够算一遍的话你需要一百年时间。今天通过人工智能把围棋推到风口的时候,大家突然觉得人工智能进步如此之快,其实后台就是算法的改进,让整个人工智能快速进步。
从讯飞人工智能来看,我们过去一直认为人工智能是分为从运算智能、感知智能到认知智能三个阶段。和人不一样的地方是,人是从感知智能到认知智能。人到现在为止,运算智能其实远远不如现在的计算机这么厉害。
在讯飞人工智能观念来看,因为计算机天然有运算和存储的优势,所以最近几年在感知方面,计算机一直在获得非常快速的进步,包括语音识别这样原来非常难的东西,其实在最近几年有了一个飞速进步,在讯飞云平台上语音识别率从我们刚上线时的50%做到了现在的95%。
我们今天带来这样的系统,就是我们在语音方面最新的成果,它能够把我现场的语音变成文字,在未来,可能今年年底我们就把它转化为多种文字和语言,这样的话就可以为我们参会提供方便,这样的能力我相信在未来为会议或知识管理带来巨大的改变。
其实在讯飞整个人工智能观念中,我认为在计算机超级运算能力之下,即将通过感知和认知智能的突破,我们能将人工智能推向把能听会说转为会理解会思考。
说得简单一点,讯飞主要解决的是人的感知和思考的这些问题。其实从第一个领域来看,就是语音合成,从讯飞成立到现在大概有17年多时间,我们一直在做的就是语音合成技术。现在这个技术,我们追求的是表现力和个性化。
我们在去年跟阅读软件推出《舌尖上的中国》这样的声音,跟高德导航推出导航个性化语音,那这个功能推出之后,整个用户接触度有翻番的提升,就是大家对这种个性化有非常高的分科,其实最近整个讯飞在语音合成方面也获得非常大的进步,我们在近期会推出更多相关的技术。
还有一个大的领域,就是最近非常火热的语音识别,语音识别在我们理解里面分为传统意义上的语音识别,然后还有声纹识别、语音频次等,这些技术都是在语音识别的领域里为我们生活提供非常多方便的技术。
另外,最近两年特别热的就是人脸识别,人脸识别现在也得益于人工智能技术进步,识别率达到95.7%。其实已经超过了人眼睛判断人脸的水平,在这样基础突破下,很多已经开始人脸身份验证,其实我后面还有真正的广告,人脸这样的技术还是可以用在类似于数字营销方面的应用。那以上就是讯飞的一些技术的分类和进展。
其实我们从2010年10月开放,到现在我们已经有6年时间,我们一直坚持开放,就是把我们这些技术不断开放给互联网开发者。
前年到去年我们开放了更多智能硬件的开发,到现在我们语音类,包含交互类合作伙伴已经有18万之多,光深圳这个地方大概有3万之多,可见深圳创新力之强。
另外,使用过语音激活终端活跃的有8亿之多,每天在我们开放平台上使用的这种在线+离线这种语音交互达到25亿次之多,从在线语音识别已经接近5亿的数量,那用户使用用户每天有4000万人。
这样的语音交互在我们6年前推出的时候其实几乎没有人知道的,到现在每天有4000多万人在用,可见这种技术对人类生活的改变已经形成不可逆转的趋势。
我们开放平台一直到现在,我们坚持一种极速的体验,在我们平台上能够提供最快的服务,达到人一般说,话一秒就能够4个字,我们的语音速度已经达到你的字没有说完就已经出来结果。另外我们提供很多其他的服务,小伙伴应该知道,我也不再多介绍。
另外一个数据我需要跟大家分享,就是除了整体应用数在快速增长之外,其实智能硬件呈现更加快速的增长,到3月的时候我们智能硬件开发伙伴达到8000多个,其实围绕智能家居跟机器人是最大的热点,就是现在语音识别或者AR在整个交互方面一个最大就是在智能家居和机器人两大领域。
其实人工智能是非常宽泛的概念,比如说现在我们已经介入智能助理、智能客服,还有教学考生馆,还有智能家居、智能城市、医疗,包括机器人。
我今天只讲两个,第一个,我们向智能家居或者未来智能机器人推出交互的接口,也有可能应用在手机上;第二个是我们在人工智能跟营销方面结合的案例,我也希望作一个这样的介绍。
这个是我们语音合成做的案例,我们可以请奥巴马帮我们介绍一下。
其实就会非常容易被大家使用起来。
下一个我要介绍的就是我们近期要推出的产品,希望提供一个人机交互系统。可能介绍细节不如现场演示一下,我们看看是怎样一套交互界面。
刚才也看到整个演示的就是我们现在提供的交互接口,刚才因为网络原因导致机票跟火车票的服务没有打通。
我们现在这个接口是把它融入到交互里面去,我们开发的是一个组合在一起的产品,未来你只需要关注你要关注的事件就可以。当然我们在整个率先推出全方位的系统,现在只达到20多种方言,未来我们会有更多。
刚才那个演示主要是因为我们现场环境非常大,另外用这种麦克去演示,其实被信号干扰掉,我们这个方案解决掉几个问题,噪声、回声、声源等,这都是我们这个接口解决到几个问题。
另外,我们现在也建立优化体系,这种效果不断提升,在说它的时候我们随时可以去打断,随时可以安排新的任务。还有我们在说的过程中,比如说我在演讲过程中,其实它一直属于这种待机状态,只有说到跟它相关能力或者喊它名字的时候,它才会正式反应,所以中间也有这么一个过程。
我们这个方案也是未来能够为了机器人和更好的智能硬件提供服务。这个就是我们从接口层面为整个开发伙伴提供的问题。刚才我也看到很多现场的伙伴未必都是做智能硬件的,我们从营销的角度也看一下人工智能能够带来怎样的变化。
这个是真广告。
有数据表明,现在爱奇艺和优酷会员数今年得到140%多的增长,它们讲的原因是因为内容,大家对内容的需要。
但是,我能看到另外一种原因,是大家对于移动端的广告的体验的需要——希望它(广告)快速跳过。我们希望通过用户的交互和品牌时间互换掉,通过你对品牌的交互能够缩短移动端视频切片的广告时间。其实在推出之后,整个用户切入非常之高,几乎80%的用户都选择了去跟广告时间交互,最后他们统计了品牌的效果,品牌效果有2倍到2.5倍的提升。
下面人脸技术应用。刚才讲人脸身份验证,但人脸还可以做人脸相似度的这种判断,包括声纹也一样,可以判断语音相似度,它都可以为我们娱乐化的产品带来很多体验的提升。
那未来我们其实希望人工智能和大数据结合,实现从基础标签甚至到用户画像的进度。比如我们举个例子,我们通过人工智能的理解,我们从每天的数以几十亿计的对话,看到哪些是属于即将要购车,哪些是已经买过车的人群。
我们开发伙伴其实有很多服务,只要了解过都知道,讯飞是提供最全方位支撑的品牌。我们一直在为骇客、极客跟创客提供各种人工智能服务,希望用人工智能去改变生活、改变世界。我今天的演讲就这么多,谢谢大家。