一个会幻想的AI-虎嗅网

本文来自微信公众号：原理（ID：principia1687），作者：Takeko，题图来自：《银翼杀手2049》

在我们还是小婴儿的时候，都会通过咿呀学语和模仿的方式来学习语言。谁也不是一开始就会阅读文本的，因为那需要对世界有基本的认知和理解，以及解释并推断描述和关系的高级能力。相反，人类通过与环境的互动，基于物理和社会世界的背景来确定词汇并感知它们的含义，缓缓开启了我们的语言之旅。最终，我们可以构建出完整的句子，甚至传达极其复杂的想法。

类似的是，当人们开始学习一门外语和翻译时，也会调动其他感官信息，比如经典的识字卡可以将不熟悉的新单词与图像配对，帮助我们掌握和记忆。随后，经过一次又一次的练习，我们就可以在没有这些提示的情况下准确地理解、翻译从未见过的新句子，甚至长文。在这样一个过程中，根据原文想象出一幅场景，往往也颇有助益。

有意思的是，这其实就是一组研究团队开发的机器学习新模型的基础。这个模型被称为VALHALLA，其中一个经过训练的神经网络读到一种语言的源语句，可以“幻想”出它的图像，然后用语句加图像的组合将它翻译成目标语言。

团队发现，他们这种机器翻译的方法比纯文本翻译更准确。此外，它还为长句、“小众”语言的翻译以及一些特殊的限制情况提供了额外的帮助。

从训练开始：学习“幻想”

自然语言处理（NLP）是如今人工智能最热门的领域之一。其中一项核心任务就是极其实用的机器翻译，现在每天都有数百万人在使用这一功能。

随着近期深度学习的重大进步，在如何使用非文本信息，比如图像、音频或其他基础信息，来解决涉及语言的实际任务方面也出现了一些相当有趣的发展。

我们人类身处一个情境化的现实世界，当我们的大脑在执行语言处理任务时，也会利用到那些非文本信息。而目前最先进的NLP技术只利用文本数据。

团队由此推测，在推理中，将幻想图像和文本的配对可以模拟这种过程，就应该可以提高AI性能。

当我们学一门新语言或者进行翻译时，我们通常会在自己尝试之前得到一些例子和练习。机器翻译系统同样如此。这就是AI非常关键的训练过程。团队的想法是，能否利用“视觉幻想”，也就是想象视觉场景的能力，来改进机器翻译系统，而不是在推理过程中使用外部图像作为输入。这也更贴近我们应对现实世界的场景。

为了做到这一点，团队设计出了一个带有两个转换器的编码器-解码器结构，这是一种适合序列相关数据（比如语言）的神经网络模型，它可以关注一句话的关键词和语义。一个转换器负责产生视觉幻想，另一个则使用第一个转换器的输出进行多模态翻译。

VALHALLA的训练流水线概念。（图／Li， Y. et al.）

训练过程包含两个翻译流，一个是源语句和与之配对的真实图像，另一个是同一个源语句通过视觉幻想形成文本-图像配对。首先，真实图像和语句被词例化成转换器可以处理的表示，或者可以简单地理解成“切割”成更小的小块。然后，源语句再次被词例化，但这次是通过视觉幻想转换器，输出一个幻想结果，也就是这个语句的离散图像表示。

研究人员采用了自回归来比较现实和幻想表达的一致性，举个简单的例子，比如面对同义词的情况，提到的动物蝙蝠（bat）不能被幻想成棒球棒（bat）。随后，幻想转换器利用它们之间的差异来优化预测和视觉输出，从而确保上下文是连贯一致的。

然后，这两组词例同时通过多模态翻译转换器，每一组都包含句子表示和幻想或真实的图像。词例化的文本翻译输出会被比较，它们需要非常相似，也和另一种语言的目标句子相似。这其中的任何差异都会被反馈给翻译转换器，用来进一步优化。

测试：目标文本的可视化

在得当的训练下，AI可以建立起属于自己的“知识体系”，并可以将这些所学应用到具体场景中，根据前所未见的新数据迅速给出答案，也就是所谓推理的能力。

VALHALLA在没有视觉输入情况下的推理过程。（图／Li， Y. et al.）

为了测试他们的方法，团队将VALHALLA与其他最先进的多模态和纯文本翻译方法进行比较。他们使用了公共基准数据集，其中包含带有源语句的真实图像，以及一个用于翻译纯文本新闻文章的数据集。

研究人员测量了它在13项任务中的表现，包括了资源丰富的语言翻译（比如英语、德语和法语），“小众”语言或者叫资源不足的语言翻译（比如英语翻译成罗马尼亚语），以及非英语的翻译（比如西班牙语译为法语）。

团队还测试了不同的转换器模型大小的效果，准确性随语句长度的变化，以及在有限的文本背景下的翻译，在这种特殊情况下，一部分文本被隐藏了起来。

他们观察到，与纯文本翻译方法相比，模型有明显的改进，数据效率提高了，而且较小的模型比较大的基础模型表现更好。随着语句变长，VALHALLA比其他方法的性能有所提高。在部分句子被隐藏的测试中，VALHALLA甚至可以恢复并翻译原文。团队对此感到非常惊讶。

更令人惊喜的是，VALHALLA还表现出了一些出乎意料的特点，比如面对“小众”语言的翻译任务，AI的提高反而更为显著。这说明，以图像为基础的方法在这种情况下更有助益。

同时，这种性能上的提升，甚至在那些不容易与图像联系起来的文本类型上也出现了。简单来说，如果这种方法有助于翻译相当具象化的句子，比如“房子前停着一辆红汽车”，那似乎很合理。然而，即使在纯文本的新闻文章领域，这种方法也能在纯文本系统的基础上有所提高。

“黑箱”技术

虽然VALHALLA目前表现良好，但研究人员指出，它确实也有局限性，比如需要用图像来注释语句，这就会让模型的获取成本变得更高。此外，研究人员同样意识到，像VALHALLA这样的技术仍是一个“黑箱”，它假设幻想图像提供了有用的信息。因此团队还计划更详细地调查模型学习的内容和方式，从而验证这种方法。

未来，团队希望探索其他改善翻译的手段。除了图像，还有其他很多类型的多模态信息，包括语音、视频，甚至触摸或其他感官模式。类似的多模态基础，有可能使世界上许多“小众”语言的机器翻译受益。

#参考来源：

https://news.mit.edu/2022/hallucinating-better-text-translation-0606

http://www.svcl.ucsd.edu/publications/conference/2022/valhalla/main.pdf

本文来自微信公众号：原理（ID：principia1687），作者：Takeko

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

一个会幻想的AI

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜