MIT发布无监督语言翻译模型，向完全无监督词对齐再进一步-InfoQ

来自谷歌、Facebook 和亚马逊的翻译系统要求训练模型在数百万份被人类翻译成各种语言的文档中寻找模式——比如法律和政治文档或者新闻文章。给定一种语言的新词，它们可以找到另一种语言中相匹配的词和短语。

但是，这种翻译数据耗时且难以收集，对于全世界 7000 种语言中的许多语言来说，可能根本不存在这样的数据。最近，研究人员一直在开发“单语”模型，这种模型可以在两种语言的文本之间进行翻译，但没有两种语言之间直接的翻译信息。

近日，在自然语言处理实证方法大会上发表的一篇论文中，麻省理工学院计算机科学和人工智能实验室（CSAIL）的研究人员介绍了一种比单语模型运行得更快、更高效的模型。

该模型利用了统计学中的一个度量标准，称为 Gromov-Wasserstein 距离，它本质上是度量一个计算空间中点之间的距离，并将它们匹配到另一个空间中类似的距离点。他们将这一技术应用于两种语言的“词嵌入（word embeddings）”，即把词表示成向量的形式——从根本上说是数值数组——意思相似的词距离更近。这样，模型就可以根据相对距离快速地对齐两个嵌入中关系最密切的词或向量，这意味着它们可能可以直接翻译。

在实验中，研究人员的模型与最先进的单语模型一样准确——有时甚至更准确——但速度快许多，而且只使用了一小部分计算能力。

Tommi Jaakkola 是论文的合著者、CSAIL 研究人员，同时也是 MIT 电气工程与计算机科学系和数据、系统和社会研究所的 Thomas Siebel Professor。他说，”该模型会把两种语言中的词视为向量集，并把这些[向量]从一个集合映射到另一个集合，并基本上保持它们之间的关系。这种方法可以帮助翻译低资源的语言或方言，只要它们有足够的单语内容。”

该模型标志着我们向机器翻译的其中一个主要目标——完全无监督词对齐——迈进了一步， 文章第一作者、CSAIL 的博士 David Alvarez-Melis 说：“如果你没有任何匹配两种语言的数据……你可以映射两种语言，使用这些距离度量并对齐它们。”

关系最重要

针对无监督机器翻译的词嵌入对齐不是一个新概念。最近的研究训练神经网络直接匹配两种语言中词嵌入的向量或矩阵。但是，这些方法需要在训练过程中进行大量的调优，以获得完全正确的对齐方式，低效而费时。

另一方面，基于关系距离的向量度量和匹配是一种更有效的方法，不需要太多的调优。无论单词向量落在给定矩阵的哪个位置，单词之间的关系（即它们之间的距离）都将保持不变。例如，“father”的向量可能在两个矩阵中完全不同的区域。但是，“father”和“mother”的向量很可能总是距离很近。

Alvarez-Melis 说，“这些距离是不变的。通过观察距离，而不是向量的绝对位置，你可以跳过对齐，直接去匹配向量之间的对应关系。”

这就是 Gromov-Wasserstein 的用途所在。这一技术已经被应用在计算机科学中，比如帮助对齐图形设计中的图像像素。但是，这个度量似乎是为词对齐而“量身定制”的，Alvarez-Melis 说：“如果在一个空间中有一些点或词靠得很近，Gromov-Wasserstein 就会自动尝试在另一个空间中找到相应的点簇。”

为了进行训练和测试，研究人员使用了一个名为 FASTTEXT 的数据集。这是一个公开数据集，其中包含了 110 对语言。在这些嵌入及其他嵌入中，在相似的语境中出现越频繁的词，其向量会有紧密的匹配关系。“Mother”和“father”通常会很近，但都距离“house”远一些。

提供“软翻译”

该模型记录了密切相关但又彼此不同的向量，并为其他嵌入中距离相近的向量赋予一个概率值。这有点像“软翻译”，Alvarez-Melis 说，“因为它不是返回单个词的翻译，而是告诉你，这个向量或者词与其他语言中的这个向量或者词有很强的对应关系。”

例如，一年中的月份，在许多语言中都会一起出现。该模型会发现一个由 12 个向量组成的聚簇，它们在一个嵌入中聚集在一起，在另一个嵌入中也会类似地聚集。Alvarez-Melis 说：“模型不知道这是月份。它只知道，有一个包含 12 个点的聚簇与另一种语言中一个包含 12 个点的聚簇相一致，但它们与其他词不同，所以它们很可能匹配得很好。通过找到每个词的对应词，它就能同时对齐整个空间。”

Jaakkola 说，研究人员希望这项工作可以作为一项“可行性检查”，即运用 Gromov-Wasserstein 方法使机器翻译系统更快、更高效地运行并处理更多语言的可行性。

此外，该模型可能还有一个好处，它会自动生成一个值，该值可以解释为在数值尺度上量化语言之间的相似性。研究人员说，这可能对语言学研究很有用。该模型计算了两个嵌入中所有向量之间的距离，这依赖于句子结构和其他因素。如果向量都很接近，它们的分数就会更接近 0，而离得越远，分数就越高。例如，类似罗曼语的语言，如法语和意大利语，得分接近 1 分，而古代汉语和其他主要语言的得分在 6 到 9 分之间。

Alvarez-Melis 说：“这给了你一个准确、简单的数值来说明语言的相似度……并且可以用来分析语言之间的关系。”

查看英文原文：Model paves way for faster, more efficient translations of more languages