免费下载!由 O’Reilly 出版的《NGINX 完全指南》中文版已正式上线 了解详情
写点什么

赢得 WMT 机器翻译大赛,Meta 的单个多语言模型是怎样炼成的?

  • 2022-02-08
  • 本文字数:2068 字

    阅读完需:约 7 分钟

赢得WMT机器翻译大赛,Meta的单个多语言模型是怎样炼成的?

构建一个通用的翻译系统,帮助每个人获取信息并更好地相互联系,是机器翻译(MT)领域的终极目标。但是,MT 领域需要消除一些基本的限制,才能使这样的未来成为现实。


本文最初发布于 Facebook AI 博客,由 InfoQ 中文站翻译并分享。


现如今,大多数 MT 系统都使用多组双语模型。通常,这需要为每个语言对和任务提供大量的标签实例。遗憾的是,这种方法对于许多训练数据稀少的语言无效(例如冰岛语和豪萨语)。它的高复杂性也使得它无法扩展到 Facebook 的实际应用中,上面每天有数十亿人用数百种语言发帖。


为了构建一个通用的翻译器,我们认为 MT 领域应该从双语模型转向多语言翻译——在这种情况下,一个模型可以同时翻译许多语言对,包括低资源(如冰岛语到英语)和高资源(如英语到德语)。多语言翻译是一种很有吸引力的方法——它更简单,更具可扩展性,而且更适合低资源语言。但直到现在,对于高资源语言对,这种方法的效果还比不上与专门为这些语言对训练的双语模型。因此,在许多语言中,提供高质量的翻译通常需要组合使用多个双语模型,而低资源语言被抛在了后面。


现在,我们取得了令人激动的突破:单个多语言模型首次在 14 个语言对的 10 个中超过了专门训练的最好的双语模型,赢得了 WMT 这个著名的 MT 竞赛。我们的单一多语言模型为低资源语言和高资源语言都提供了最好的翻译,这表明多语言方法确实是 MT 的未来


我们展示了在WMT比赛中,英译德翻译的质量随时间的推移逐步提升,其中多语言模型现在已经超过了双语模型。通常,英译德被认为是最具竞争力的翻译方向。我们公布了所有模型在Newstest 2021上的表现。


这项工作是以之前的突破性工作为基础,那些工作提高了低资源语言的翻译质量。然而,当加入拥有不同资源的语言时,先前的工作在基本能力方面就遇到了挑战——随着更多语言的加入,一个模型变得不堪重负,每一种语言都有自己独特的语言特性、字母和词汇。当高资源语言从大型多语言模型中受益时,低资源语言对就有可能过度拟合。


我们的模型获奖是 MT 领域一个令人兴奋的转折点,因为它表明,借助大规模数据挖掘、模型容量扩展方面的最新进展和更有效的基础设施,多语言模型有可能在高资源和低资源语言上都取得良好的效果。它使我们离构建一个通用的翻译器更近了一步,这个翻译器可以连接全世界所有语言的人,而不管翻译数据有多少。

大规模数据挖掘


为了训练 WMT 2021 模型,我们构建了两个多语言系统:任意语言到英语以及英语到任意语言。我们利用并行数据挖掘技术,在从网络上抓取的大型数据集中确认翻译,从而克服人工翻译的标准训练文档的局限性,如欧洲议会的演讲稿,并不是所有的翻译方向都有这样的文件。


我们的模型与提交给WMT '21的最佳模型的效果比较。上述数值是在WMT '21决赛测试集上取得的BLEU分数。


由于任何语言的单语数据量都大大超过了其并行数据,所以利用现有的单语数据来最大化 MT 系统的效果至关重要。对于单语数据的使用,最常见的技术之一是逆向翻译,我们用它赢得了2018年和2019年的英译德 WMT 新闻翻译任务。


我们在工作中大量增加了单语数据,包括来自所有八种语言的数亿个句子。我们对现有的单语数据进行了过滤,以减少噪音量,然后组合当前最强的多语言模型对它们进行了逆向翻译。

扩展模型容量


除了使用逆向翻译来扩展数据规模外,我们还将模型规模从 150 亿个参数扩展到 520 亿个参数,以增强多语言模型架构的能力。所有这些扩展工作都得益于 Facebook 最近推出的名为Fully Sharded Data Parallel的 GPU 内存节省工具,它使大规模训练的速度比以前的方法快了 5 倍。

更有效的基础设施


由于多语言模型本质上是对容量的竞争,它们必须在共享参数和针对不同语言的特殊化之间取得平衡。按比例扩展模型大小会导致计算成本的不可持续增加。


每种建模技术对最终提交的影响。我们使用最后一行(黑体字)作为WMT2021的提交,因为它在所有语言中都表现最好。上述数值是在WMT'21开发数据集上取得的BLEU分数。


我们使用了另一种方法,以便可以利用条件计算方法,对于每个训练实例,它只激活模型的一个子集。具体来说,我们训练稀疏门控专家混合(MoE)模型,其中每个标记都根据学习到的门控函数被路由到前 k 个专家 FeedForward 块。我们使用一个 Transformer 架构,在每一个可选的 Transformer 层中,用 Sparsely Gated Mixture-of-Experts 层取代 FeedForward 块,并在编码器和解码器中使用 top-2 门控。这样,每个输入序列都只使用所有模型参数的一个子集。


这些模型有助于向高资源方向的翻译从增加的专家模型容量中获益,同时又能通过共享模型容量实现向低资源方向的翻译。

机器翻译中“最后一公里”的挑战


机器翻译领域克服重重障碍,取得了令人印象深刻的进展,但大多数都集中在少数几种广泛使用的语言上。低资源翻译仍然是 MT 的 "最后一英里 "问题,也是该子领域目前公开的最大的挑战。


我们相信,我们在 WMT 2021 大会上的成功证明,多语言翻译是构建一个通用的翻译系统、为世界各地的人们提供高质量翻译的重要途径。我们已经证明,单个多语言模型可以为高资源语言和低资源语言提供比双语模型质量更高的翻译,并且更容易针对具体任务进行微调,例如翻译新闻文章。


这种“一个模型适用于多种语言”的方法也可能简化现实世界中翻译系统的开发——有可能用一个模型取代成千上万的模型,从而也就更容易为世界各地的人们带来新的应用和服务。


现在,我们正在研究克服接下来的挑战,从而使这些技术可以适用于 WMT 比赛中所涉及的语言之外的语言。例如,如何开发新的技术来支持单语数据更少的稀有语言,在这些语言中,像逆向翻译这样行之有效的技术是否还可能?


原文链接:

The first-ever multilingual model to win WMT, beating out bilingual models

2022-02-08 09:002604

评论

发布
暂无评论
发现更多内容

OBServer启动恢复解析

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 数据库大赛

BPM软件是什么?BPM软件跟BPA有关联吗?

低代码小观

企业管理 业务流程管理 信息管理

华为技术官珍藏版:SpringBoot全优笔记,面面俱到,实在太全面了

Java 架构 面试 微服务 后端

想了解Xtrabackup备份原理和常见问题分析,看这篇就够了

华为云开发者联盟

MySQL 数据库 华为云 备份 XtraBackup

不可思议!阿里大佬熬夜9天整理出749的HotSpot VM源码笔记

Java 架构 面试 程序人生 编程语言

看一遍就理解:MVCC原理详解

Java MySQL 架构 面试 后端

第 13 章 -《Linux 一学就会》- Linux文件系统结构

学神来啦

Linux 运维 linux学习

2021年10月4日Facebook史上最严重宕机复盘分析

郑州埃文科技

ip数据 网络波动 网动仪

细节理解!阿里内部Java高并发系统设计全彩手册曝光!霸榜GitHub

进击的王小二

Java 架构 高并发 Java性能调优

高并发中的 限流、熔断、降级、预热、背压!

进击的王小二

高并发 java

211本+985硕+计算机专业投面百度,坐等一周迎来三面,已拿offer

Java 程序员 架构 编程语言

架构实战营 毕业设计项目

蔸蔸

聊一聊物联网嵌入式芯片的内容结构

华为云开发者联盟

物联网 内存 存储 嵌入式 芯片

【优化技术专题】「线程间的高性能消息框架」再次细节领略Disruptor的底层原理和优势分析

洛神灬殇

Disruptor 异步高性能 高并发处理 性能提升 10月月更

Vue进阶(幺贰捌):Vue插槽:slot、slot-scope与指令v-slot应用讲解

No Silver Bullet

Vue 插槽 10月月更

这些行业用ERP系统会有很大帮助

低代码小观

企业管理 ERP

KubeVela 1.1 发布,开启混合环境应用交付新里程碑

阿里巴巴云原生

阿里云 云原生 KubeVela

物理服务器是什么意思?怎么构成?与云服务器有啥区别?

行云管家

云计算 服务器 云服务器 物理服务器

爱奇艺数据质量监控的探索和实践

爱奇艺技术产品团队

监控 数据治理 pingback

9. python 入门教程快速复习,序列,数值类型,字符串方法,列表、集合、字典方法,文件操作,解析式

梦想橡皮擦

10月月更

Superior Scheduler:带你了解FusionInsight MRS的超级调度器

华为云开发者联盟

大数据 hadoop 开源 调度器 FusionInsight MRS

直播回顾 | 云和恩墨范计杰:Oracle DBA的SQL编写技能提升宝典(含SQL资源)

墨天轮

oracle sql 函数

盘点后端领域的点点滴滴 | 引航计划|后端

xcbeyond

后端 引航计划 内容合集 技术专题合集

语音翻译器 Tech Support

凌天一击

架构实战课程 模块5作业

Frank

字节跳动是如何落地微前端的

字节跳动终端技术

字节跳动 大前端 Web应用开发

云资源是什么意思?有什么特点?

行云管家

云计算 云服务 多云服务 云资源

系统召回太慢?上 Milvus × PaddleRec 双剑合璧大法!

Zilliz

数据库 推荐算法 召回 向量检索

新一代容器平台ACK Anywhere,来了

阿里巴巴云原生

阿里云 云原生 ACK Anywhere

架构实战课程 模块6作业

Frank

企业运维监控管理系统我给推荐行云管家!

行云管家

云计算 运维 运维监控 云管平台

赢得WMT机器翻译大赛,Meta的单个多语言模型是怎样炼成的?_AI_Facebook AI_InfoQ精选文章