正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2023-01-31 22:30

《狂飙》里,孟德海的原台词到底是啥?

本文来自微信公众号:果壳 (ID:Guokr42),作者:小毛巾,麦麦、Luna,题图来自:《狂飙》


这个春节,你《狂飙》了吗?


这部口碑好剧,却在昨天突然变成“乱飙”,剧情(罕见地)无法自圆其说。大量的后期配音,使得孟德海“说话和口型对不上”。


观众将剧情混乱归结于后期的剧本改动,并努力读唇语对口型,试图找回原本的走向。因为这关系着重要任务“孟德海”是白还是黑,是大义灭亲的好书记,还是黑社会的保护伞。


狂飙一下变乱飙,大家都猜起原剧情了|@七百里加急递煎饼/weibo


比如劝说女婿杨健自首这一段,配音为“必须要为自己犯过的错负责”,而口型更像“这也是没办法”……


孟德海你到底说了啥啊?图源:《狂飙》


读唇语,读的不止是唇  


猜原剧情走向是唇读应用的新型场景。实际上,对于有听觉障碍的朋友来说,唇读是一种重要的交流方式。哪怕有助听器的帮助,视觉辅助也可以让他们“听”得更清楚。听力正常的人也常常会用到唇读——想一想,在嘈杂的餐馆里,为了听清楚别人说的话,你是不是也会不自觉地盯着对方看。


唇读要读的并不止是口唇,说话人的肌肉活动和面部表情也会提供许多信息;听者将这些视觉信息与大脑中储存的词语相联系和比较,从而理解说话人的语义。


说是“理解”,但在实际操作中却可能是“误解”,许多因素都会影响唇读的正确率。例如,以聋校学生为对象的几项研究发现,读出韵母比读出声母更容易;而对于/a/、/i/、/e/这样的不圆唇音,判断正确率则比/o/、/u/、/ü/这样的圆唇音更高。


仅仅判断单个声母或韵母已经很难了,研究显示准确率通常仅为50%~70%。实际场景中的应用更复杂:汉语里的4个声调,无法通过口唇形状判断;上下文的联系,需要读唇语的人靠语言理解能力和判断推理能力自行推测。


唇读是聋校教学的内容之一,需要的不仅是视觉感受能力和语言理解能力,还有培养判断推理能力;而且需要注意力高度集中才能完成。既然人工学习困难重重,那人工智能能不能助一臂之力呢?


AI读唇语,准确率高达93.4%?


在学唇语上,AI确实已经比普通人牛掰不少了。2016年11月,牛津大学训练了一个AI,叫Lipnet。Lipnet在唇读测试中达到了93.4%的准确度,远远把人类52.3%的成绩甩在身后;而且,它还能几乎实时地将无声视频处理成文本。


AI怎么识别唇语呢?它先从图像中识别出人脸,提取人说话时口型变化的特征,通过嘴型特征来识别音素。音素是最小的语音单位,例如汉语中的韵母/a/就是一个音素,AI可以依据不同的发音动作来分析音素。识别口型对应的发音后,AI可以进一步识别单词、句子,再将这些词句放在大数据里搜索,来判断哪个更可能是人会讲出的话。例如,“我是天才”还是“我是甜菜”,大数据会证明,前者的可能性更大。


Lipnet的表现看起来很不错,但其实,它更像是一个只会一项指定动作的AI。训练Lipnet的数据集有严重的局限性,这个数据集里虽然有成千上万个短视频,但视频高度相似——都是统一由志愿者念的,每个视频只有3秒钟,连打光都差不多。更“作弊”的是,每个句子都遵循以下的模式:


命令+颜色+介词+字母+数字+副词


Place red at C zero again


Set blue by A four please


这样的傻瓜句型让AI能快速掌握规律。所以,即便测试的结果很不错,也有很多人不买帐。


仍在进化的唇读AI  


在Lipnet面世的不久后,牛津大学(又是它!)和谷歌旗下研究人工智能的DeepMind合作开发,推出了另一个AI。这个AI识别唇语的准确率为46.8%,而在同一项测试里,专业唇读者的准确率只有12.4%。


捕捉口型的变化来识别语句 | 参考文献 [1]


准确率降低了?并不是,相比于温室花朵的Lipnet,这个AI算是野战选手。训练它的数据集来自BBC上千个小时的政治视频,这里有不同的人、不同的口音和不同的打光,识别难度上了好几个台阶。研究者认为,它是在“野生”环境里摸爬滚打出来的,表现已经非常出色。


谷歌DeepMind联合开发的AI实时识别新闻中的唇语|参考文献 [1]


国内也有类似的读唇语软件。2017年,搜狗推出了可以识别中文唇语的AI。搜狗AI开放平台表示,他们的唇语识别在口语测试集上的准确率超过60%;在车载、智能家居的场景里,可以达到90%的准确率。不过最近两年,国内外关于读唇语AI的研究尚未有突破性的进展。


一只成熟的唇语识别AI,在未来可以有很多应用。


在背景音嘈杂的环境中,它可以准确识别对方在说什么,不管对方有没有发出声音。如果我们想在安静的公共场合用语音交流,或者想偷偷使唤siri定个时、放首歌,甚至为了保密而只动口型,都可以用唇语识别。


唇语识别也可以应用在身份认证中。现在的人脸识别系统,可能会被带有人像的图片、视频蒙混过关;如果能将人脸识别和口令密码相结合,并采用唇语识别技术进行检测,安全性将会大为提高。


当然, 对于好不容易看到一部剧情在线、演员在线的电视剧,唇语识别AI恐怕还是圆了剧粉心中“最精彩的故事线”。


可惜的是,经过一番搜索,我们仍未找到能够给任意视频识别唇语的理想AI。所以,拜托科技公司搞快点,咱看点剧容易嘛!


立即找唇语翻译去!图源:《狂飙天》


参考文献

[1]Chung, J. S., Senior, A., Vinyals, O., & Zisserman, A. (2017, July). Lip reading sentences in the wild. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 3444-3453). IEEE.

[2]Assael, Y. M., Shillingford, B., Whiteson, S., & De Freitas, N. (2016). Lipnet: End-to-end sentence-level lipreading. arXiv preprint arXiv:1611.01599.

[3]https://www.theverge.com/2016/11/24/13740798/google-deepmind-ai-lip-reading-tv

[4]https://www.theverge.com/2016/11/7/13551210/ai-deep-learning-lip-reading-accuracy-oxford

[5]https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro/

[6]https://ai.sogou.com/product/lip_recognition/

[7]任玉强;高安全性人脸识别身份认证系统中的唇语识别算法研究[D];中国科学院重庆绿色智能技术研究院;2016年

[8]如何评价近期搜狗推出的“唇语识别”系统?“唇语识别”有哪些应用场景?https://www.zhihu.com/question/264044094

https://en.wikipedia.org/wiki/Lip_reading

[9]雷江华, 张凤琴, 方俊明. (2004). 字词条件下聋生唇读汉字语音识别的实验研究. 中国特殊教育, 53(11), 37-39.

[10]雷江华, 鲍博. (2018). 我国听障学生唇读认知实验研究进展. 中国听力语言康复科学杂志, 16(3), 165-169.

[11]徐诚. (2013). 唇读研究回顾:从聋人到正常人. 华东师范大学学报(教育科学版), 31(1): 56-61.


本文来自微信公众号:果壳 (ID:Guokr42),作者:小毛巾,麦麦、Luna

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
文集:
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: