正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2020-09-18 21:42
iOS 14翻译“太懂了”

本文来自微信公众号:数据实战派(ID:gh_ff93f845912e),作者:林檎,头图来自:Apple


2天前的苹果发布会因为低于预期,再为“乔布斯之后,苹果再无创新”的论调添砖加瓦,许多人感叹发布会毫无亮点,没想到2天后,苹果能够凭借iOS 14的一项功能更新的惊喜效果登上微博热搜。



“你懂个锤子”——what the f*** do you know?


“瓜娃子”——Dumb-ass。


“不样停车”——Don’t park。


“瓜皮”——Stupid。


“我一把把把把把住了”——I have got a handle。




苹果、腾讯、有道对“瓜皮”的翻译结果


没错,喜提热搜的便是昔日屡屡被吐槽落后的苹果翻译功能。


这个热门话题之下,许多用户晒出了自己使用iOS 14最新内置翻译功能得出的中翻英结果。根据我们的观察和体验,这些结果引发热议和新鲜感的一大原因在于,苹果的机器翻译居然读懂了许多非常规中文表达,包括方言、网络流行用语、行话、口误等等具有知名NLP话题“自然语言处理太难了”色彩的表达


在过去的几年里,苹果一直在努力提高其人工智能能力,机器翻译便是其中之一。这家公司在2016年吸引到了该领域的大牛人物,如卡内基梅隆大学研究员Russ Salakhutdinov。2019年,苹果聘请了谷歌人工智能专家 Ian Goodfellow 作为新的机器学习总监,与此同时,苹果还收购了一家人工智能初创公司Voysis,用以帮助改进Siri。


Siri本身也内置了机器翻译能力,不过,这些能力被认为远比不上谷歌、微软等行业先行者的工作。


直到今年的WWDC2020,苹果正式公布iOS 14系统,并首次引入基于iPhone神经网络引擎的翻译功能,宣称支持包括中文在内的11种语言,且用户可通过文章或语音进行翻译识别。据官方介绍,翻译APP是根据iPhone神经网络引擎实现语言转换的,且这个过程是在离线状态下完成,用户不用担心会被窃听的风险。


没想到,和苹果强调的离线保护隐私这一亮点相比,中英翻译质量成功“喧宾夺主”。



熟悉机器翻译的读者都清楚,近年来,机器翻译效果上的改进,主要得益于神经网络翻译模型的应用:从初期纯粹的词典匹配,到加入了语言学领域的专家知识实现规则翻译,发展到今天,基于语料库的统计机器翻译已经大行其道,机器翻译现步入神经网络发展阶段。影响神经网络翻译模型实际效果的关键之一,便在于被用来训练神经网络模型的语料库。被语料库训练过后的模型,可以实现更复杂的自动翻译,更好地处理不同的文法结构、辞汇辨识、惯用语的对应等。


这次iOS 14 能够有这样的翻译表现,其中一种大概率的可能性是,苹果把不少“小众”中文表达纳入了其机器翻译语料库更新之中:如果苹果的语料库中没有“瓜皮”这个词语的含义,或者根本不出现,那么模型在翻译的时候,很难或者根本无法翻译出准确的结果,因为它根本不知道可以翻译成“stupid”。


不过iOS 14翻译的结果也有可以诟病的地方,比如说它延续了中文语料库中的一些歧视性表达。比如将“阿三”翻译成了“An India”。如果这个结果出现在其他国度,恐怕苹果要吃大官司,这也是“小众”语料库的风险所在。


目前,苹果并没有公开研究透露iOS 14翻译功能更新的具体实现方法。但在其机器学习研究博客apple machine learning中,已经有超过5篇与机器翻译相关的研究,显然,这家公司意识到自己的行业落后位置。


而除了语料库的多元化之外,模型的更新、人机耦合等方法也能够带来改善效果。


最后多言一句,人机耦合这个概念,曾经因为国内厂商在机器翻译上的不当宣传而变得颇负面,但实际上,机器翻译文本,人类改进,机器再检查,“重复,直到翻译准确”,确实能够形成很好的反馈闭环。


包括网友们这次晒出的一些iOS 14翻译效果,也能证明人机耦合(以及人工翻译)的一大“壁垒级”价值,那就是,人类的语言表达总是实时更新的,而且其更新换代之中也总有具有创造性的表达/翻译。如果最初没有人把“工藤新一”写作“滚筒洗衣机”,相信苹果的模型也无法输出下面的这个翻译结果。



本文来自微信公众号:数据实战派(ID:gh_ff93f845912e),作者:林檎

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文
频道:

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: