扫码打开虎嗅APP
本文来自微信公众号:果壳(ID:Guokr42),作者:小毛巾,麦麦,题图来自:《山河令》
要说最近火爆的国产剧,《山河令》必须拥有姓名!
这部武侠剧改编自耽美小说,剧中两位男性主角的“兄弟情”醇厚得让人上头。不过,剧中有不少片段,都出现了配音和角色口型明显不吻合的情况。嗑cp上头的嗑学家们,纷纷化身唇语大师,对照原著台词,破译了演员唇语里的“虎狼之词”。
嗑学家读到的却是……
再猜猜这个唇语说的啥?
我们拿这个截图问了编辑部同事,得到的回答竟然有:不吃翻译?碧池美人?别值班了?(AI:这位同学在想什么?)
嗑学家公布结果:
上头了上头了!
读唇语,已然成为cp粉的必备“嗑学”技能。然而,这项技能一点都不简单。人,当然不能准确地给出完美答卷,就连一向所向披靡的AI也折戟于此。
读唇语,读的不止是唇
嗑cp仅仅是唇读应用的新型场景。实际上,对于有听觉障碍的朋友来说,唇读是一种重要的交流方式。哪怕有助听器的帮助,视觉辅助也可以让他们“听”得更清楚。听力正常的人也常常会用到唇读——想一想,在嘈杂的餐馆里,为了听清楚别人说的话,你是不是也会不自觉地盯着对方看。
唇读要读的并不止是口唇,说话人的肌肉活动和面部表情也会提供许多信息;听者将这些视觉信息与大脑中储存的词语相联系和比较,从而理解说话人的语义。
某综艺节目里,杨幂读符龙飞的唇语:“骑上我心爱的小摩托”
说是“理解”,但在实际操作中却可能是“误解”,许多因素都会影响唇读的正确率。例如,以聋校学生为对象的几项研究发现,读出韵母比读出声母更容易;而对于/a/、/i/、/e/这样的不圆唇音,判断正确率则比/o/、/u/、/ü/这样的圆唇音更高。
仅仅判断单个声母或韵母已经很难了,研究显示准确率通常仅为50%~70%。实际场景中的应用更复杂:汉语里的4个声调,无法通过口唇形状判断;上下文的联系,需要读唇语的人靠语言理解能力和判断推理能力自行推测。
唇读是聋校教学的内容之一,需要的不仅是视觉感受能力和语言理解能力,还有培养判断推理能力;而且需要注意力高度集中才能完成。既然人工学习困难重重,那人工智能能不能助一臂之力呢?
AI读唇语,准确率高达93.4%?
在学唇语上,AI确实已经比普通人牛掰不少了。2016年11月,牛津大学训练了一个AI,叫Lipnet。Lipnet在唇读测试中达到了93.4%的准确度,远远把人类52.3%的成绩甩在身后;而且,它还能几乎实时地将无声视频处理成文本。
AI怎么识别唇语呢?它先从图像中识别出人脸,提取人说话时口型变化的特征,通过嘴型特征来识别音素。音素是最小的语音单位,例如汉语中的韵母/a/就是一个音素,AI可以依据不同的发音动作来分析音素。识别口型对应的发音后,AI可以进一步识别单词、句子,再将这些词句放在大数据里搜索,来判断哪个更可能是人会讲出的话。例如,“我是天才”还是“我是甜菜”,大数据会证明,前者的可能性更大。
Lipnet的表现看起来很不错,但其实,它更像是一个只会一项指定动作的AI。训练Lipnet的数据集有严重的局限性,这个数据集里虽然有成千上万个短视频,但视频高度相似——都是统一由志愿者念的,每个视频只有3秒钟,连打光都差不多。更“作弊”的是,每个句子都遵循以下的模式:
命令+颜色+介词+字母+数字+副词
Place red at C zero again
Set blue by A four please
这样的傻瓜句型让AI能快速掌握规律。所以,即便测试的结果很不错,也有很多人不买帐。
仍在进化的唇读AI
在Lipnet面世的不久后,牛津大学(又是它!)和谷歌旗下研究人工智能的Deepmind合作开发,推出了另一个AI。这个AI识别唇语的准确率为46.8%,而在同一项测试里,专业唇读者的准确率只有12.4%。
捕捉口型的变化来识别语句 | 参考文献 [1]
准确率降低了?并不是,相比于温室花朵的Lipnet,这个AI算是野战选手。训练它的数据集来自BBC上千个小时的政治视频,这里有不同的人、不同的口音和不同的打光,识别难度上了好几个台阶。研究者认为,它是在“野生”环境里摸爬滚打出来的,表现已经非常出色。
谷歌Deepmind联合开发的AI实时识别新闻中的唇语|参考文献 [1]
国内也有类似的读唇语软件。2017年,搜狗推出了可以识别中文唇语的AI。搜狗AI开放平台表示,他们的唇语识别在口语测试集上的准确率超过60%;在车载、智能家居的场景里,可以达到90%的准确率。不过最近两年,国内外关于读唇语AI的研究尚未有突破性的进展。
一只成熟的唇语识别AI,在未来可以有很多应用。
在背景音嘈杂的环境中,它可以准确识别对方在说什么,不管对方有没有发出声音。如果我们想在安静的公共场合用语音交流,或者想偷偷使唤siri定个时、放首歌,甚至为了保密而只动口型,都可以用唇语识别。
唇语识别也可以应用在身份认证中。现在的人脸识别系统,可能会被带有人像的图片、视频蒙混过关;如果能将人脸识别和口令密码相结合,并采用唇语识别技术进行检测,安全性将会大为提高。
当然, 对于拿着显微镜看剧的cp粉来说,唇语识别AI恐怕还是直达隐晦兄弟情的重要道具。可惜的是,经过一番搜索,我们仍未找到能够给任意视频识别唇语的理想AI。所以,拜托科技公司搞快点,嗑学家们需要你们!
不懂唇语,怎么嗑到糖!
参考文献:
[1]Chung, J. S., Senior, A., Vinyals, O., & Zisserman, A. (2017, July). Lip reading sentences in the wild. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 3444-3453). IEEE.
[2]Assael, Y. M., Shillingford, B., Whiteson, S., & De Freitas, N. (2016). Lipnet: End-to-end sentence-level lipreading. arXiv preprint arXiv:1611.01599.
[3]https://www.theverge.com/2016/11/24/13740798/google-deepmind-ai-lip-reading-tv
[4]https://www.theverge.com/2016/11/7/13551210/ai-deep-learning-lip-reading-accuracy-oxford
[5]https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro/
[6]https://ai.sogou.com/product/lip_recognition/
[7]任玉强;高安全性人脸识别身份认证系统中的唇语识别算法研究[D];中国科学院重庆绿色智能技术研究院;2016年
[8]如何评价近期搜狗推出的“唇语识别”系统?“唇语识别”有哪些应用场景?https://www.zhihu.com/question/264044094
https://en.wikipedia.org/wiki/Lip_reading
[9]雷江华, 张凤琴, 方俊明. (2004). 字词条件下聋生唇读汉字语音识别的实验研究. 中国特殊教育, 53(11), 37-39.
[10]雷江华, 鲍博. (2018). 我国听障学生唇读认知实验研究进展. 中国听力语言康复科学杂志, 16(3), 165-169.
[11]徐诚. (2013). 唇读研究回顾:从聋人到正常人. 华东师范大学学报(教育科学版), 31(1): 56-61.
本文来自微信公众号:果壳(ID:Guokr42),作者:小毛巾,麦麦