5月20日，百度Wave Summit 2020深度学习开发者峰会上，ERNIE发布全新的语言生成预训练模型ERNIE-GEN，解决自然语言处理领域“生成”方向的难题，让机器不但能“理解”人类的意思，还能完成更高阶的“表达”。这项工作在4类语言生成任务，5项国际权威英文数据集上均取得SOTA。

此外，还被AI顶会IJCAI 2020收录。

在自然语言处理领域中，语言理解（NLU）和语言生成（NLG）是两大核心任务。百度发布的ERNIE-GEN预训练模型指向语言生成（NLG），这听起来很晦涩，实际上并不陌生。回顾一些经典科幻电影，比如《终结者》、《黑客帝国》中描述的未来机器人，他们能够流畅地实现和人类对话，这就是一个自然语言生成系统。日常生活中，手机输入法的联想词、对答如流的智能音箱、问答机器人等，都是常见自然语言生成领域问题。

可见自然语言生成技术非常重要，针对性地进行预训练模型的研发，也成为这个领域重要玩家的共识。从 2019 年以来，Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型，取得了一定进展。百度2019年3月推出预训练模型ERNIE，7月升级到ERNIE2.0。

之前，领域内的预训练模型主要关注于语言理解类任务，在生成任务上还处于探索阶段。如以BERT、ERNIE为代表的语言理解预训练模型在理解方面取得了许多突破，然而，对于序列到序列的自然语言生成任务，这些主流方法并未带来明显改进。早期如微软MASS和UniLM等工作在下游生成任务上取得了显著提升，但仍有问题亟待解决。

本次在ERNIE基础上推出的语言生成预训练模型ERNIE-GEN，针对之前工作中语言生成任务的核心难题，提出了多项创新方法，基于multi-flow机制，模型可以生成完整语义片段，显著提升了自然语言生成的任务效果。

ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程，使模型具备了语义完备短语生成的能力，如直接生成“New York”(而非“New”和“York”）。

此外，传统的自回归生成模型当前词的生成强依赖于上一个词，这种有偏的学习方式会在上文生成质量不佳时，导致后续的错误累积。ERNIE-GEN 提出Infilling生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制，ERNIE-GEN基于transformer设计了multi-flow attention结构。

最终据实验结果显示，ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话4类生成任务的5个公开数据中，均取得了SOTA效果。

目前，ERNIE-GEN的英文预训练模型已开源，而基于更大规模预训练数据集的ERNIE-GEN也正式发布于：

https://github.com/PaddlePaddle/ERNIE/。

ERNIE-GEN已应用于内部新闻标题生成等业务，未来还将支持机器翻译等更多类型的生成任务。

论文链接：https://arxiv.org/abs/2001.11314

项目地址: https://github.com/PaddlePaddle/ERNIE

创作场景

百度发布新模型 ERNIE-GEN