写点什么

百度发布新模型 ERNIE-GEN

  • 2020-05-22
  • 本文字数:1157 字

    阅读完需:约 4 分钟

百度发布新模型ERNIE-GEN

5 月 20 日,百度 Wave Summit 2020 深度学习开发者峰会上,ERNIE 发布全新的语言生成预训练模型 ERNIE-GEN,解决自然语言处理领域“生成”方向的难题,让机器不但能“理解”人类的意思,还能完成更高阶的“表达”。这项工作在 4 类语言生成任务,5 项国际权威英文数据集上均取得 SOTA。



此外,还被 AI 顶会 IJCAI 2020 收录。



在自然语言处理领域中,语言理解(NLU)和语言生成(NLG)是两大核心任务。百度发布的 ERNIE-GEN 预训练模型指向语言生成(NLG),这听起来很晦涩,实际上并不陌生。回顾一些经典科幻电影,比如《终结者》、《黑客帝国》中描述的未来机器人,他们能够流畅地实现和人类对话,这就是一个自然语言生成系统。日常生活中,手机输入法的联想词、对答如流的智能音箱、问答机器人等,都是常见自然语言生成领域问题。


可见自然语言生成技术非常重要,针对性地进行预训练模型的研发,也成为这个领域重要玩家的共识。从 2019 年以来,Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型,取得了一定进展。百度 2019 年 3 月推出预训练模型 ERNIE,7 月升级到 ERNIE2.0。


之前,领域内的预训练模型主要关注于语言理解类任务,在生成任务上还处于探索阶段。如以 BERT、ERNIE 为代表的语言理解预训练模型在理解方面取得了许多突破,然而,对于序列到序列的自然语言生成任务,这些主流方法并未带来明显改进。早期如微软 MASS 和 UniLM 等工作在下游生成任务上取得了显著提升,但仍有问题亟待解决。


本次在 ERNIE 基础上推出的语言生成预训练模型 ERNIE-GEN,针对之前工作中语言生成任务的核心难题,提出了多项创新方法,基于 multi-flow 机制,模型可以生成完整语义片段,显著提升了自然语言生成的任务效果。


ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程,使模型具备了语义完备短语生成的能力,如直接生成“New York”(而非“New”和“York”)。


此外,传统的自回归生成模型当前词的生成强依赖于上一个词,这种有偏的学习方式会在上文生成质量不佳时,导致后续的错误累积。ERNIE-GEN 提出 Infilling 生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制,ERNIE-GEN 基于 transformer 设计了 multi-flow attention 结构。


最终据实验结果显示,ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话 4 类生成任务的 5 个公开数据中,均取得了 SOTA 效果。



目前,ERNIE-GEN 的英文预训练模型已开源,而基于更大规模预训练数据集的 ERNIE-GEN 也正式发布于:


https://github.com/PaddlePaddle/ERNIE/


ERNIE-GEN 已应用于内部新闻标题生成等业务,未来还将支持机器翻译等更多类型的生成任务。


论文链接:https://arxiv.org/abs/2001.11314


项目地址: https://github.com/PaddlePaddle/ERNIE


2020-05-22 19:152825

评论

发布
暂无评论
发现更多内容

华为云虚拟专用网络VPN,为企业铺就数据上云的安全路

爱尚科技

红海竞争下,华为云CDN凭借什么冲出重围?

i生活i科技

CDN

华为云全球加速GA的“加速”,你真的了解嘛?

科技之光

外包学生管理系统架构设计

陈天境

前端工程师leetcode算法面试必备-二分搜索算法(中)

js2030code

JavaScript LeetCode

前端工程师leetcode算法面试必备-二分搜索算法(下)

js2030code

JavaScript LeetCode

华为云VPN为企业数据上云保驾护航

爱尚科技

华为云大数据BI赋能企业数字化发展

i生活i科技

华为云全球加速GA,敲开企业跨境业务的大门

科技之光

轻松解决企业数据高延时,华为云全球加速GA使用更灵活!

科技之光

Thanos 升级顺序分析

耳东@Erdong

Prometheus 版本 Thanos 升级迭代

华为云全球加速GA,赋能现代企业出海加速发展

科技之光

企业数字化转型?华为云CDN为你提供智能加速!

i生活i科技

CDN

网络堵塞?华为云CDN为你带来一站式解决方案

i生活i科技

CDN

《我有一个朋友》首集上线,曹操出行CEO讲述热爱经历

极客天地

10 分钟带你一览 SOFAStack 的 2022!

SOFAStack

开源 云原生 中间件

架构训练营 模块四

张建闯

架构实战营

从非洲到全球,看华为云连接CC如何助力出海企业更好发展

科技之光

耳东的2022 年度总结

耳东@Erdong

年度总结

华为云双十一、双十二系列直播圆满收官,助力企业获数智化发展商机

i生活i科技

CDN

深入理解 Linux 物理内存分配全链路实现

bin的技术小屋

Linux 操作系统 内核 内存分配

华为云虚拟专用网络VPN,如何解决企业出海难题

爱尚科技

远程办公小助手——华为云虚拟专用网络VPN

爱尚科技

SCQA模型

GeekYin

表达 讲故事能力

国产 ETL 工具 etl-engine

weigeonlyyou

postgresql Prometheus Clickhouse MySQL 数据库 InfluxDB Cluster

5分钟搞懂分布式可观测性

俞凡

架构 微服务 最佳实践 云原生

拒绝内卷挖掘境外新蓝海,华为云虚拟专用网络VPN有多特别?

爱尚科技

【深入浅出Sentinel原理及实战】「基础实战专题」零基础实现服务流量控制实战开发指南(2)

码界西柚

微服务 Alibaba Alibaba技术 1月日更 Sentinel 系统

在Windows绿色安装Go

独钓寒江

架构训练营 模块五

张建闯

架构实战营

5个接口性能提升的通用技巧

JAVA旭阳

Java

百度发布新模型ERNIE-GEN_AI&大模型_百度_InfoQ精选文章