写点什么

MIT 发布无监督语言翻译模型,向完全无监督词对齐再进一步

2018 年 11 月 13 日

MIT发布无监督语言翻译模型,向完全无监督词对齐再进一步

来自谷歌、Facebook 和亚马逊的翻译系统要求训练模型在数百万份被人类翻译成各种语言的文档中寻找模式——比如法律和政治文档或者新闻文章。给定一种语言的新词,它们可以找到另一种语言中相匹配的词和短语。


但是,这种翻译数据耗时且难以收集,对于全世界 7000 种语言中的许多语言来说,可能根本不存在这样的数据。最近,研究人员一直在开发“单语”模型,这种模型可以在两种语言的文本之间进行翻译,但没有两种语言之间直接的翻译信息。


近日,在自然语言处理实证方法大会上发表的一篇论文中,麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员介绍了一种比单语模型运行得更快、更高效的模型。


该模型利用了统计学中的一个度量标准,称为 Gromov-Wasserstein 距离,它本质上是度量一个计算空间中点之间的距离,并将它们匹配到另一个空间中类似的距离点。他们将这一技术应用于两种语言的“词嵌入(word embeddings)”,即把词表示成向量的形式——从根本上说是数值数组——意思相似的词距离更近。这样,模型就可以根据相对距离快速地对齐两个嵌入中关系最密切的词或向量,这意味着它们可能可以直接翻译。


在实验中,研究人员的模型与最先进的单语模型一样准确——有时甚至更准确——但速度快许多,而且只使用了一小部分计算能力。


Tommi Jaakkola 是论文的合著者、CSAIL 研究人员,同时也是 MIT 电气工程与计算机科学系和数据、系统和社会研究所的 Thomas Siebel Professor。他说,”该模型会把两种语言中的词视为向量集,并把这些[向量]从一个集合映射到另一个集合,并基本上保持它们之间的关系。这种方法可以帮助翻译低资源的语言或方言,只要它们有足够的单语内容。”


该模型标志着我们向机器翻译的其中一个主要目标——完全无监督词对齐——迈进了一步, 文章第一作者、CSAIL 的博士 David Alvarez-Melis 说:“如果你没有任何匹配两种语言的数据……你可以映射两种语言,使用这些距离度量并对齐它们。”


关系最重要


针对无监督机器翻译的词嵌入对齐不是一个新概念。最近的研究训练神经网络直接匹配两种语言中词嵌入的向量或矩阵。但是,这些方法需要在训练过程中进行大量的调优,以获得完全正确的对齐方式,低效而费时。


另一方面,基于关系距离的向量度量和匹配是一种更有效的方法,不需要太多的调优。无论单词向量落在给定矩阵的哪个位置,单词之间的关系(即它们之间的距离)都将保持不变。例如,“father”的向量可能在两个矩阵中完全不同的区域。但是,“father”和“mother”的向量很可能总是距离很近。


Alvarez-Melis 说,“这些距离是不变的。通过观察距离,而不是向量的绝对位置,你可以跳过对齐,直接去匹配向量之间的对应关系。”


这就是 Gromov-Wasserstein 的用途所在。这一技术已经被应用在计算机科学中,比如帮助对齐图形设计中的图像像素。但是,这个度量似乎是为词对齐而“量身定制”的,Alvarez-Melis 说:“如果在一个空间中有一些点或词靠得很近,Gromov-Wasserstein 就会自动尝试在另一个空间中找到相应的点簇。”


为了进行训练和测试,研究人员使用了一个名为 FASTTEXT 的数据集。这是一个公开数据集,其中包含了 110 对语言。在这些嵌入及其他嵌入中,在相似的语境中出现越频繁的词,其向量会有紧密的匹配关系。“Mother”和“father”通常会很近,但都距离“house”远一些。


提供“软翻译”


该模型记录了密切相关但又彼此不同的向量,并为其他嵌入中距离相近的向量赋予一个概率值。这有点像“软翻译”,Alvarez-Melis 说,“因为它不是返回单个词的翻译,而是告诉你,这个向量或者词与其他语言中的这个向量或者词有很强的对应关系。”


例如,一年中的月份,在许多语言中都会一起出现。该模型会发现一个由 12 个向量组成的聚簇,它们在一个嵌入中聚集在一起,在另一个嵌入中也会类似地聚集。Alvarez-Melis 说:“模型不知道这是月份。它只知道,有一个包含 12 个点的聚簇与另一种语言中一个包含 12 个点的聚簇相一致,但它们与其他词不同,所以它们很可能匹配得很好。通过找到每个词的对应词,它就能同时对齐整个空间。”


Jaakkola 说,研究人员希望这项工作可以作为一项“可行性检查”,即运用 Gromov-Wasserstein 方法使机器翻译系统更快、更高效地运行并处理更多语言的可行性。


此外,该模型可能还有一个好处,它会自动生成一个值,该值可以解释为在数值尺度上量化语言之间的相似性。研究人员说,这可能对语言学研究很有用。该模型计算了两个嵌入中所有向量之间的距离,这依赖于句子结构和其他因素。如果向量都很接近,它们的分数就会更接近 0,而离得越远,分数就越高。例如,类似罗曼语的语言,如法语和意大利语,得分接近 1 分,而古代汉语和其他主要语言的得分在 6 到 9 分之间。


Alvarez-Melis 说:“这给了你一个准确、简单的数值来说明语言的相似度……并且可以用来分析语言之间的关系。”


查看英文原文:Model paves way for faster, more efficient translations of more languages


2018 年 11 月 13 日 07:15607
用户头像

发布了 1008 篇内容, 共 308.2 次阅读, 收获喜欢 273 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第七周总结

Bruce Xiong

关于性能压测

俊俊哥

性能测试

第7周 性能优化:性能优化是架构师展现自己技术全面性的时刻

陆不得

第七周总结

上山砍柴

第七周作业

Geek_a327d3

操作系统、性能优化

GalaxyCreater

性能优化

w7-分布式系统中性能的影响因素

麻辣

架构师训练营 week7 - 学习总结

devfan

架构师训练营 week7

devfan

架构师训练营 - 作业 7

进击的炮灰

【架构师训练营 - week7 -1】作业

早睡早起

Python Elasticsearch DSL 查询、过滤、聚合操作实例

AlwaysBeta

Python elasticsearch elastic

第7周

Geek_2b3614

第07周 优化系统性能-01 学习总结

Jaye

Python 实现 RabbitMQ 的六种工作模式(附 Python 代码)

AlwaysBeta

Python RabbitMQ 消息队列

架构师培训 -07 总结 性能测试与性能优化

刘敏

学习总结 - 架构师训练营 - 第七周

走过路过飞过

架构师训练营 No.7 周作业

连增申

RabbitMQ 的监控(附 Python 监控源码)

AlwaysBeta

Python RabbitMQ 消息队列 消息堆积处理

性能测试并发压力变大,系统如何变化

李朋

Week 07 总结

鱼_XueTr

性能压测

走过路过飞过

架构师训练营 No.7 周总结

连增申

ARTS打卡Week 08

teoking

ios LeetCode

第七周总结

Geek_a327d3

第07周 优化系统性能-01 命题作业

Jaye

【架构师训练营 - week7 -1】总结

早睡早起

第七周学习总结

潜默闻雨

Mac 环境下 RabbitMQ 的安装

AlwaysBeta

Mac RabbitMQ 消息队列

架构师训练营第七章作业

吴吴

使用 Redis 有序集合实现 IP 归属地查询

AlwaysBeta

Python redis 缓存

NLP领域的2020年大事记及2021展望

NLP领域的2020年大事记及2021展望

MIT发布无监督语言翻译模型,向完全无监督词对齐再进一步-InfoQ