扫码打开虎嗅APP
科大讯飞用一场4个小时的发布会,考验着人们对这场人工智能技术秀的耐心和对困意的抗争。
11月23日,科大讯飞踩着2016年的尾巴在北京国家会议中心举行了一场年度发布会。因为听说罗永浩也会来,所以导致原本预定2000人的规模被迫增加到3000人。
在发布会开场时,主持人介绍了一圈到场嘉宾的名字,喊到周鸿祎、余承东时,现场依然表示情绪稳定,但当喊到罗永浩时,现场的掌声顿时热烈起来,并伴有欢呼声。
这场年度发布会更像是科大讯飞的技术博览会,展示的大多数技术或多或少地在此之前被媒体报道过。当发布会进行到2个小时的时候,厌倦、疲惫、抱怨和瞌睡夹杂其中。如果不是因为人们期待罗永浩上台讲10分钟的信念支撑,相信很多人可能无法等到最后。
但遗憾的是,虽然很多人冲着罗永浩而来,但是到最后一刻,他也没有上台讲两段,并且在展示了迷人的微笑之后,估计就悄悄撤了。
技术公司少说废话
在我们的印象中,科大讯飞以出奇的低调著称,相比BAT们三天一大会两天一小会地刷存在感,这家总部在安徽合肥的科技公司一年也搞不了几次会。
发布会结束后,我跟科大讯飞的工作人员闲聊,她告诉我,科大讯飞坚持一年只搞一次发布会的节奏,所以这次发布会的时间格外长。
但通过这场发布会你会发现,尽管以低调著称,但它的董事长刘庆峰一点儿也不低调。在开场的前40分钟,刘庆峰口中频繁出现了科大讯飞获得的十几个“第一”,言辞铿锵,气吞山河,在一个又一个“第一”被他如数家珍般的从嘴里蹦出来的过程中,让我对讯飞低调的体质产生了怀疑。
这场漫长的发布会并非没有亮点,当科大讯飞的产品经理们现场演示自家的技术在智能家居、汽车、电视、机器人等不同领域的应用时,那种强烈的现场代入感,夹裹着人们对技术的信仰和对美好未来的迫切愿景,人们毫不吝啬地给出了掌声。
但亮点太多也并不完全是好事儿,全是亮点就意味着没有亮点,因为失去了焦点。
多语种实时翻译技术
讯飞全球首发了多语种实时翻译技术,能够实时将中文翻译成英语、日语、韩语、维吾尔语、藏语等。
在两侧的屏幕上,讯飞听见能够将演讲者的话实时转录成文字,这种场景我们已非常熟悉,我此前也曾专门对它进行过报道。但这次,讯飞首次亮相了多语种实时翻译,即除了把演讲者的话实时转写成汉语外,它还能同时转写成英语、韩语、日语、维语、藏语。
所以,我很长一段时间都是盯着左侧屏幕,看它是如何工作的。
根据现场演示的,操作者会调出一个带有语言标识的菜单,旋转菜单即可选择你想展现的语种,比如选择中英文,则在屏幕的上半截显示中文,下半截显示英文;比如选择中、英、韩语,则屏幕上半截显示中文,下半截并列显示英文和韩语。
但它依然没有解决的问题是,它依然只能做到中文是中文,英文是英文。演讲者在演讲中会夹杂很多英语,但讯飞听见的转写系统会将英语按照发音转写成一串错误的中文,而不是英语单词。
科大讯飞轮值总裁、科大讯飞研究院院长胡郁就这个问题回应虎嗅称,目前中英文混翻不仅是科大讯飞遇到的问题,也是谷歌极力想解决的问题,目前在技术不成熟的情况下,科大讯飞宁愿先忽视这个问题,直到技术成熟后再上线,给到用户一个满意的体验效果。他还表示,这个问题迟早会得到解决。
就在昨天,谷歌神经机器翻译系统进行了重大更新,实现了用单一模型对多语种通用表征。其最大的突破是实现了“零数据翻译”,也即能够在从来没有见过的语言之间进行翻译。
当我让胡郁比较一下谷歌神经机器翻译系统和讯飞孰优孰劣时,胡郁说,谷歌一直在引领人工智能的技术方向,值得科大讯飞学习。但他同时也说,谷歌也有追着科大讯飞跑的时候。它认为科大讯飞的准确率是一个优势。
讯飞输入法:可直接将纸上的文字转录,并支持手势修改
第一位上台演示的产品经理叫翟吉博,他主要演示讯飞在输入法上的一些技术应用。他先是在一张白纸上手写了一段“我现在有点紧张,发布会结束后,我晚上请大家吃饭”的文字,然后他举着这张纸正对着机器人说“启动拍摄”,机器在进行扫描后迅速将纸上的文字录入了进去。此时响起了第一次由衷的掌声。
他接下来演示如何在这段文字里添加文字。他用手势的体感交互在这段文字上进行光标定位,嵌入了“六点”俩字。此时响起了更热烈的掌声。
然后他手轻轻一划,屏幕上的文字就被清理干净。
然后他用语音输入了一长段文字,先是发出口令“开始听写”,然后输入:““各位小伙伴们大家好,关于公司23号发布会的准备工作,我再跟大家同步确认一下。庆袁章尽快完成演示手册。这次发布会我需要到现场,请庆峰帮我订好火车票(场下很配合的笑了,因为科大讯飞董事长叫刘庆峰,但后来小伙儿说了,其实这是他的另一个同事),我21号下午到北京,可能会在北京待到周四,大家有事可以直接电话或者短信与我联系。请庆峰帮我带一本创新者的窘境。其实,我刚才要说的并不是我们董事长这个庆峰,是我们团队的一个小伙伴叫庆峰。”
接下来继续开始听写:“请庆峰帮我订好火车票,把庆峰修改成庆丰包子铺的庆丰,另外请庆峰帮我带一本创新者的窘境,把创新者的窘境翻译成英文,并加上书名号。”此时,屏幕上根据口令,将“创新者的窘境”瞬间改成了《The.Innovator's.Dilemma》,场下顿时响起如雷掌声。虎嗅现场录的短视频更加直观一些,不过限于现场环境嘈杂,大家将就着看吧。
这也是全场的第一次集体高潮,上面不仅能识别“庆峰”和“庆丰”,还能从一长串语音中精准找到书名并根据指令进行修改,着实让人吃惊。
胡郁透露了这套输入法的奥秘:“首先得益于我们讯飞在世界上最领先的离线手写输入的引擎,我们现在可以让各种各样的智能设备识别我们手写下的文字。同时我们知道要完成输入,你必须有一个确定性内容、确定性的功能,保证你的输入一定能够进入,而语音因为各种各样的遗憾,在达到99.99%以后,可能那0.1个小数点是很难达到的,但是我们看到,在没有触摸屏的情况下,用上帝赐给我们的自然的双手(解决了这个问题)。”
不过,根据我比较腹黑的一个猜测,这些文字很可能是科大讯飞为了达到完美的演示效果而在后台进行过精心的调教,或者经过多次排练,让机器通过学习达到这样一个效果。如果不是故意的,至少是经过了粉饰,这就像一个女人为了让自己更美地出现在众人面前,会精心打扮、化妆一样。
为什么这么说呢?因为从我长期盯着两侧屏幕上的文字转写的实际效果来看,它还是会把很多字打错,尽管科大讯飞声称已经能够实现97%的准确率。
便携翻译机:跟外国人无障碍交流
这个技术也不是最新的,早在4月份,国家主席习近平视察讯飞时,讯飞就演示过,当时习近平还鼓励科大讯飞尽快实现语音翻译,惠及普通老百姓。
在现场,胡郁和一位美女老外现场用类似录音笔的讯飞便携翻译机进行了中英文对话。文字描述太不生动了,所以看虎嗅现场录的短视频吧。
下面还有很多技术展示获得了比较好的反响,比如在智能家居和汽车上的应用,直接看视频:
讯飞电视助理操作演示
讯飞汽车助理——飞鱼系统的现场演示
这套语音识别系统最大特点是讯飞人工智能在上下文理解方面的表现,尤其在汽车里的语音助手演示,很多时候,老司机并没有给它明确的指令,但它会给出一些你想要的结果。
比如说去长城,它会问你去八达岭还是慕田峪长城;
比如你问附近有什么酒店,它会自动搜索八达岭长城附近的酒店并给出不同的价位段;
比如你想在车里听一首《甜蜜蜜》,它能够调出邓丽君的,你想听鹿晗版的,它立马切换,当你想听“他和陶喆合唱的”,它会理解这个“他”指的是鹿晗,并且调出鹿晗和陶喆合唱的《请到长城来滑雪》;
比如你晚上想去“中央财大”附近吃东西,它会搜索“中央财经大学”附近的参观,你说想吃火锅还想看电影,它就锁定了大钟寺的海底捞。
海底捞这个绝对是硬插入的广告,因为现场还邀请了海底捞董事长张勇参加圆桌论坛,而海底捞估计正在和科大讯飞在服务型机器人方面合作。张勇在圆桌环节透露,他未来想实现一个餐厅只用两名服务员,剩下的全部用机器人代替。
讯飞快听:你可以尽情地使用罗永浩了
讯飞快听和配音阁是这次亮相的新技术,它可以让罗永浩时刻为你服务,每天晚上睡觉前听一段罗永浩自带幽默感的朗读。当介绍到这儿之时,机位很配合地在前排找罗永浩,当镜头逮到他时,他正挂着44岁男人特有的迷人微笑,抿着嘴,硬绷着没有露出牙齿,满是羞涩和矜持。
而在此之前,11月15日,罗永浩突然现身科大讯飞总部,这趟行程至少带着两个目的:
一是锤子可能跟讯飞进行更深层次的合作,胡郁不止一次强调,如果没有罗永浩在发布会上宣传讯飞输入法,讯飞很难达到现在的知名度,显然对罗永浩满怀感激;
二是采集罗永浩的语料,为这次的讯飞快听提供声音支持,讯飞员工告诉我,这次的讯飞快听只花了很短的时间就完成了,也说明这项技术已臻至成熟。
当然,你也可以选择其他的声音来提供服务,作为直男,我还是喜欢林志玲姐姐的声音。不过昨晚我还是忍不住加入了调戏罗永浩的行列:
通过打造个性化语音库,讯飞快听除了给专业配音工作提供支持外,它也为普通用户提供最喜欢的声音来朗读文字。根据测试,一次可以输入最多150个字符,支持随时修改、删除。
另外,本来现场还有模仿奥巴马的声音说的一段中文段子,我录了一段,结果上传到腾讯视频的过程中,腾讯视频以含有违规信息为由拒绝为我上传,只能看截图了。
说到此不禁要问,声音能卖钱吗?答案是:能。讯飞这次显然是在进行声音的商品化尝试。感觉日本的声优以后也要失业了。
以及……
从这4个小时的发布会,能够看出科大讯飞在积极布局、打造生态,在演示每一项技术的过程中,它都会宣布一系列合作伙伴。
而让我觉得有意思的是,讯飞似乎在手机圈里朋友不少。罗永浩、周鸿祎、余承东被邀请到现场,尽管不知道什么原因罗永浩没有上台演讲,但余承东却是讲了的,虽然没有什么干货,但他透露了讯飞在很早之前就跟华为有合作,显然两家的关系不像表面上看上去的寡淡。
另外,余承东说,他为了来参加讯飞的发布会推掉了昨天的华为集团财年预算会议,可见给足了讯飞的面子,演讲结束后他也没有像其他嘉宾那样立马走人,而是坐在第一排一直等到发布会结束。他一开始独自玩着手机,而隔着几个座位的刘庆峰主动搭讪了一下,然后俩人迅速凑到一起,窃窃私语,余承东偶尔拿出手中的华为手机给刘庆峰看。而刘庆峰为了陪余承东(估计昨晚是一场促膝长谈)临时取消了原本计划的接受媒体采访环节。
客观的说,这场发布会给我们展现了很多有趣且有用的技术,关键是“有用”,它并不是一种PPT技术,可以立即拿过来就用,这体现了科大讯飞的务实精神。
但也客观的说,这并不是一场好的发布会,尽管展现了一堆的技术,但是你能想象,一次性把这些技术堆放在一起发出来是一种什么样的体验?这就像是打折季堆放在同一个长桌子上贴着打折标签的衣服。这场发布会完全可以拆分成三四次发布会了,并且能给人一种更聚焦的心理抚慰。而现在,它就像在我面前堆了一堆衣服,嗯,就是这种感觉。
何况,这次展示的很多技术都是在过去的11个月里展示过的,这次拿出来当新品发布似乎给人拼凑的感觉。
当然,这次最大的特点是,讯飞摒弃了一贯坚持的低调,尤其听到它的掌门人刘庆峰竹筒倒豆子般的丢出十几个“第一”时,我实在觉得这有点儿像小孩子耍宝。
如果需要用一句结束语来送给科大讯飞,我会说:做回低调。