在近日召开的自然语言处理领域国际顶级学术会议ACL2019上，华人学者斩获了最佳长论文奖、最佳短论文奖和两篇杰出论文奖。其中，由中科院计算所张文、冯洋，腾讯孟凡东，伍斯特理工学院Di You和华为诺亚方舟实验室刘群合著的论文《Bridging the Gap between Training and Inference for Neural Machine Translation》获最佳长论文奖，该研究成果旨在弥合神经机器翻译在训练和推理过程之间的缺口。实验结果表明，该论文提出的方法在多个数据集上取得了显著的改进。本文将对这篇论文进行深入解读，这是AI前线第87篇论文导读。

神经机器翻译（NMT）基于上下文预测下一个词，依次生成目标语句。在训练时，模型以真实值作为上下文（context）进行预测，而在推理时，模型必须从头生成整个序列。这种输入上下文的差异会导致错误累积。此外，单词级别（word-level）的训练要求生成的序列与真实序列严格匹配，这会导致模型对不同但合理的翻译产生过度矫正。为了解决这一问题，研究人员提出不仅从真实值序列中采样得到上下文词（context word），也从模型的预测序列中采样得到上下文词。实验结果表明该方法在多个数据集上取得了显著的改进。

本论文斩获ACL 2019最佳长论文奖，获奖理由如下

该论文解决了seq2seq中长期存在的暴露偏差问题
论文所提出的解决方案是：在“基于来自参考语句的词”和“基于解码器输出的预选择词”之间切换
这个方法适用于当前的teacher-forcing训练范式，比scheduled sampling有所提升
论文的实验非常完善，结果令人信服，该方法可能影响机器翻译的未来
该方法也适用于其他seq2seq任务

1 介绍

暴露偏差

大多数NMT模型都基于编码器-解码器框架，这些模型基于之前的文本来预测下一个词，得到目标词的语言模型。在训练阶段，将真实词（ground truth word）用作上下文（context）输入，而在推理时，由于整个序列由得到的模型自行生成，所以将模型生成的前一个词用作上下文输入。因此，训练和推理时的预测词是从不同的分布中提取出来的：训练时的预测词是从数据分布中提取的，而推理时的预测词是从模型分布中提取的。这种差异称为暴露偏差，导致了训练和推理之间的差距。随着目标序列的增长，误差会随之累积，模型必须在训练时从未遇到的情况下进行预测。

为了解决这个问题，模型的训练和推理应该在相同的条件下进行。受Data As Demonstrator方法的启发，可以在训练过程中将真实词和预测词作为上下文一同输入网络。NMT模型通常采用交叉熵损失（cross-entropy loss）作为优化目标，这就要求在预测序列和真实序列在单词级别上严格的成对匹配。一旦模型生成一个偏离真实序列的单词，交叉熵损失将立即纠正错误，并将下一次生成拉回真实序列。然而，这导致了一个新的问题：一个句子通常有多个合理的翻译，不能因为模型产生了和真实值不同的单词，就说这个模型出错了。

参考语句：We should comply with the rule（我们应该遵守规则）。
候选1：We should abide with the rule（我们应该与规则住在一起）。
候选2：We should abide by the law（我们应该遵守法律）。
候选3：We should abide by the rule（我们应该尊重规律）。

一旦模型生成第三个目标词“abide”，交叉熵损失会迫使模型生成第四个词“with”（如候选1），从而具有更大的句子级别的相似性，并与参考语句一致，但是“by”才是正确的用法。然后，以“with”作为上下文生成“the rule”，从而模型生成的是“abide with the rule（与规则住在一起）”，这实际上是错误的。候选1就是一种过度矫正现象。另一个潜在的错误是，即使模型在”abide”之后预测正确的单词“by”，在生成后续翻译时，它也可能通过输入“by”而产生“the law”，这也是不恰当的（如候选2）。假设参考语句和训练标准让模型记住了 “the rule”始终跟在单词“with”后面的模式。为了帮助模型从这两种错误中恢复并给出正确的翻译（候选3），应该输入“with”作为上下文词，而不是“by”，即使之前预测的短语是“abide by”。此解决方案称为过度矫正恢复（Overcorrection Recovery, OR）。

这篇论文提出了一种方法弥合训练与推理之间的差距，提高NMT过度矫正的恢复能力。该方法首先从预测词中选择oracle词，然后从oracle词和真实词中采样得到上下文。作者不仅采用逐词贪婪搜索（word-by-word greedy search），而且还采用了语句级别（sentence-level）优化来选择oracle词。在训练开始时，模型大概率选择真实词作为上下文。随着模型的逐渐收敛，模型更多选择oracle词作为上下文。通过这种方式，训练过程从完全指导的方案转变为较少指导的方案。在这种机制下，模型有机会学习如何处理推理时所犯的错误，也能从替换翻译（alternative translation）的过度矫正中恢复过来。作者使用RNNSearch模型和Transformer模型进行了验证。结果表明，该方法能显著提高两种模型的性能。

2 基于RNN的NMT模型

作者以基于RNN的NMT为例介绍该方法。假设源序列和观察到的翻译分别为x={x1,x2,…}和y={y1, y2, …}。

编码器。采用双向门控循环单元来获取两个序列的隐状态。exi代表单词xi的嵌入矢量表示。

注意力。注意力机制用于提取源信息（源上下文矢量，source context vector）。在第j步，目标单词yj*和第i个源单词之间的相关性通过源序列进行评估：

解码器。解码器应用GRU的一个变体来解码目标信息。在第j步，目标隐状态sj由下式得到：

目标词典中所有词的概率Pj即可基于上一个真实词、源上下文矢量和隐状态得到：

3 方法

图1方法框架图

该方法的主要框架（如图1所示）是以一定的概率将真实词或之前预测的词（即oracle词）作为上下文。通过训练模型来处理测试期间出现的情况，也许可以减少训练和推理之间的差距。在这里，作者介绍了两种选择oracle单词的方法。一种方法是用贪婪搜索算法，在单词级别选择oracle单词，另一种方法是在语句级别选择最优的oracle序列。预测第j个目标单词yj包括以下步骤：

在第j-1步选择oracle单词。
从真实词y*(j-1)中以概率p采样，或从oracle词yoracle(j-1)中以概率1-p采样。
使用采样的单词作为y(j-1)，并用y(j-1)代替公式6和7中的y*(j-1)，然后继续使用基于注意力的NMT进行后续的预测。

3.1 如何选择oracle词

一般情况下，在第j步，NMT模型需要用真实值y*(j-1)作为上下文词（context word）来预测yj，所以我们可以选择一个oracle词yoracle(j-1)来近似上下文词。oracle词应该与真实值相似，或者是真实值的近义词。选择oracle词的一个方法是单词级别的贪婪搜索，输出每一步的oracle单词（word-level oracle，WO）。此外，也可以通过扩大搜索空间，对候选翻译按语句级别的衡量标准进行排序，例如BLEU、GLEU、ROUGE等指标。选择的翻译即为oracle语句，该翻译中的单词即为语句级别的oracle（sentence-level oracle，SO）。

单词级别oracle

对于第j-1步，选择oracle词的直接方法是从公式9得到的词概率分布Pj-1中选择概率最高的词，如图2所示。在实现中，作者采用Gumbel-max方法获得更鲁棒的oracle词。

图2 单词级别oracle（不含噪声）

图3 单词级别oracle加入Gumbel噪声

作者将Gumbel噪声以正则项的形式，加入公式8中的o(j-1)，如图3所示，然后经过softmax函数，y(j-1)的词分布可以近似为：

当τ趋近于0时，softmax函数近似为argmax函数，当τ接近无穷大时，逐渐变成均匀分布。最佳的单词级别oracle可由下式得到：

语句级别oracle

语句级别的oracle能够通过n-gram匹配得到更灵活的翻译。在这篇文章中，作者采用BLEU作为衡量指标。为了选择语句级别的oracle，作者首先对一个batch的所有句子进行束搜索，假设束大小为k，则得到k个最佳的候选翻译。然后计算每个候选翻译与真实值之间的BLEU分数，分数最高的则作为oracle语句。将其表示为：

那么在解码的第j步，语句级别oracle词即可表示为：

但是语句级别的oracle存在一个问题。当模型从真实词和语句级别oracle词中采样时，两个序列应该具有同样数量的单词。然而简单的束搜索解码算法不能保证这一点。因此作者引入了强制解码（force decoding）来确保两个序列的长度相同。

强制解码

假设真实序列的长度为|y|，强制解码的目的是生成一个长度为|y|的序列，后面跟着一个终止语句符号（EOS）。这样在束搜索中，当一个候选翻译的长度不等于|y*|，却以EOS终结语句时，强制解码会强制它生成|y|个单词：

当第j-1步，候选翻译的长度还没达到|y|，但是EOS已经是第j步的首选词时，则从词分布Pj中选择第二个候选词作为该翻译的第j个词。
当第|y|+1步时，如果EOS不是词分布的首选词，则让它成为候选翻译第|y|+1个词。

这样，就可确保所有的k个候选翻译的长度都为|y*|，然后再根据BLEU分数对k个候选翻译进行排序，然后选择第一个作为oracle语句。

3.2 衰减采样

作者采用衰减采样机制从真实词y(j-1)和oracle词yoracle(j-1)中采样得到上下文词y(j-1)。在训练开始时，由于模型没有经过良好的训练，使用yoracle(j-1)作为y(j-1)过于频繁会导致收敛非常缓慢，甚至陷入局部最优。另一方面，在训练结束时，如果上下文词y(j-1)在很大概率上仍然是从真实词y*(j-1)中选择的，则模型不会完全接触到推理时会遇到的情况，从而不知道如何在推理时采取行动。因此，从真实词中选择的概率p是不固定的，但随着训练的进行，它必须逐渐降低。在开始时，p=1，即模型完全基于真实词进行训练。随着模型逐渐收敛，模型将更多的从oracle词中选择上下文词。

根据训练epoch逐渐衰减采样概率p：

3.3 训练

用上述方法选择y(j-1)后，可根据公式（6）、（7）、（8）、（9）得到yj的词分布。目标是最大化真实值序列的概率。因此，通过最小化以下损失函数训练模型：

4 实验

4.1 NIST中译英（Zh->EN）

对于NIST中译英（Zh->EN）任务，作者采用了两个基线模型进行验证。

RNNsearch

表1中译英翻译任务实验结果

作者对比了三种对基于RNN的NMT模型进行增强的方法：Coverage、MRT和Distortion。与这三种方法对比，作者提出的基线系统RNNsearch的表现1）超越了Coverage，2）达到了与MRT和Distortion一样的表现。

作者与其他两个解决暴露偏差的方法进行了对比：SS-NMT和MIXER。从表1中可以看出，SS-NMT和MIXER都能取得一定的提升，但是作者提出的OR-NMT不仅超越了RNNSearch的基线，并且取得了更大的提升。与其他两个方法相比，OR-NMT在四个测试数据集上将BLEU分数提升了2.36分。

Transformer

作者在Transformer模型上测试了提出的方法。从表1可以看出，单词级别的oracle可以取得+0.54 BLEU分的提升，语句级别的方法可以进一步带来+1.0 BLEU分的提升。

4.2 因素分析

作者提出了单词级别oracle、语句级别oracle和在oracle选择中结合Gumbel噪声这三种方法来解决过度矫正的问题。表2给出了这三种因素的影响。

表2 中译英翻译任务因素分析实验

在只采用单词级别oracle时，模型表现提升了1.21 BLEU分数点，说明输入之前预测的词作为上下文可以减轻暴露误差。采用语句级别oracle时，可以进一步提升0.62 BLEU分数点。说明语句级别oracle的表现优于单词级别oracle。作者认为，这种优势可能来自于单词生成的更大的灵活性，它可以缓解过度矫正的问题。通过在单词级别oracle和语句级别oracle的生成过程中加入Gumbel噪声，模型的BLEU得分分别提高了0.56和0.53。这表明Gumbel噪声可以帮助选择每个oracle词，证明了Gumbel-Max提供了一种从分类分布中进行采样的有效和可靠的方法。

4.3 收敛性

作者研究了不同因素对收敛性的影响。图4给出了RNNsearch以及不同变体的训练损失曲线。图5给出了不同因素的BLEU分数值对比。可以看出，RNNsearch收敛较快，并且在第7个epoch达到最佳结果，但是第7个epoch后训练损失依然持续下降，所以RNNsearch的训练可能会过拟合。图4和图5也显示出，加入Gumbel噪声会稍微拖慢收敛速度，但是模型达到最佳表现后训练损失不会再继续下降。这表明oracle采样和Gumbel噪声能避免过拟合。

图4 中译英翻译任务不同因素的训练损失曲线

图5 验证集上中译英翻译任务不同因素的BLEU分数变化趋势

图6 MT03测试集上中译英翻译任务不同因素的BLEU分数变化趋势

图6给出了MT03数据集上的BLEU分数曲线。在语句级别oracle加入噪声时，可以得到最佳模型。没有噪声时，模型收敛后的BLEU分数较低。这也很好理解，在训练过程中如果没有正则项，只是一直重复使用模型自己的结果，容易导致过拟合。

4.4 序列长度

图7给出了在MT03测试集上从不同长度的源语句中生成翻译的BLEU分数值。从图中可以看出，论文的方法在所有的区间都对baseline有较大的提升，尤其是(10,20]、(40,50]和(70,80]区间。交叉熵损失需要预测序列与真实值序列完全相同，这对于较长的语句来说更难做到，而语句级别oracle可以减轻这种过度矫正。

图7 MT03测试集不同程度源语句模型表现对比

4.5 暴露偏差的影响

为了证明该方法带来的提升是由于解决了暴露偏差问题，作者从中译英训练数据中随机选择了1000对句子，然后用预训练的RNNSearch模型和提出的模型对源语句进行解码。RNNSearch模型的BLEU分数为24.87，而论文模型提升了2.18分。然后作者统计了论文模型预测分布中真实词的概率高于基线模型的数量，记为N。在参考语句中共有28266个词，N=18391，比例为18391/28266=65.06%，证明了该方法带来的提升是由于解决了暴露偏差问题。

4.6 英译德翻译实验

表3 英译德翻译任务实验结果

作者在WMT’14上也验证了所提方法。从表3中可以看出，论文提出的方法大大提升了基线模型的表现，并且优于其他相关方法。该实验说明论文模型对不同语言之间的翻译均有效。

5 总结

端到端的NMT模型训练时将真实值单词作为上下文，而模型推理时则由模型生成的前一个单词作为上下文。为了减少训练和推理之间的差异，在预测一个词时，作者从真实值单词或预测词中抽样得到一个词作为上下文输入。预测词，即oracle词，可以通过单词级别或语句级别优化生成。与单词级别oracle相比，语句级别oracle可以进一步增强模型的过度矫正恢复能力。为了使模型充分地暴露在推理时的环境中，作者采用衰减采样，从真实值单词采样得到上下文词。作者用两个基线模型和相关工作在真实翻译任务上进行了验证，该方法在所有数据集上都有显著提升。这篇论文很好地解决了seq2seq中存在的暴露偏差问题，用充分的实验证明了方法的有效性。

查看论文原文：

Bridging the Gap between Training and Inference for Neural Machine Translation

https://arxiv.org/abs/1906.02448

创作场景

中科院、华为等斩获 ACL 最佳长论文：如何弥合神经机器翻译在训练和推理之间的缺口？