写点什么

百度发布新模型 ERNIE-GEN

  • 2020-05-22
  • 本文字数:1157 字

    阅读完需:约 4 分钟

百度发布新模型ERNIE-GEN

5 月 20 日,百度 Wave Summit 2020 深度学习开发者峰会上,ERNIE 发布全新的语言生成预训练模型 ERNIE-GEN,解决自然语言处理领域“生成”方向的难题,让机器不但能“理解”人类的意思,还能完成更高阶的“表达”。这项工作在 4 类语言生成任务,5 项国际权威英文数据集上均取得 SOTA。



此外,还被 AI 顶会 IJCAI 2020 收录。



在自然语言处理领域中,语言理解(NLU)和语言生成(NLG)是两大核心任务。百度发布的 ERNIE-GEN 预训练模型指向语言生成(NLG),这听起来很晦涩,实际上并不陌生。回顾一些经典科幻电影,比如《终结者》、《黑客帝国》中描述的未来机器人,他们能够流畅地实现和人类对话,这就是一个自然语言生成系统。日常生活中,手机输入法的联想词、对答如流的智能音箱、问答机器人等,都是常见自然语言生成领域问题。


可见自然语言生成技术非常重要,针对性地进行预训练模型的研发,也成为这个领域重要玩家的共识。从 2019 年以来,Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型,取得了一定进展。百度 2019 年 3 月推出预训练模型 ERNIE,7 月升级到 ERNIE2.0。


之前,领域内的预训练模型主要关注于语言理解类任务,在生成任务上还处于探索阶段。如以 BERT、ERNIE 为代表的语言理解预训练模型在理解方面取得了许多突破,然而,对于序列到序列的自然语言生成任务,这些主流方法并未带来明显改进。早期如微软 MASS 和 UniLM 等工作在下游生成任务上取得了显著提升,但仍有问题亟待解决。


本次在 ERNIE 基础上推出的语言生成预训练模型 ERNIE-GEN,针对之前工作中语言生成任务的核心难题,提出了多项创新方法,基于 multi-flow 机制,模型可以生成完整语义片段,显著提升了自然语言生成的任务效果。


ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程,使模型具备了语义完备短语生成的能力,如直接生成“New York”(而非“New”和“York”)。


此外,传统的自回归生成模型当前词的生成强依赖于上一个词,这种有偏的学习方式会在上文生成质量不佳时,导致后续的错误累积。ERNIE-GEN 提出 Infilling 生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制,ERNIE-GEN 基于 transformer 设计了 multi-flow attention 结构。


最终据实验结果显示,ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话 4 类生成任务的 5 个公开数据中,均取得了 SOTA 效果。



目前,ERNIE-GEN 的英文预训练模型已开源,而基于更大规模预训练数据集的 ERNIE-GEN 也正式发布于:


https://github.com/PaddlePaddle/ERNIE/


ERNIE-GEN 已应用于内部新闻标题生成等业务,未来还将支持机器翻译等更多类型的生成任务。


论文链接:https://arxiv.org/abs/2001.11314


项目地址: https://github.com/PaddlePaddle/ERNIE


2020-05-22 19:152677

评论

发布
暂无评论
发现更多内容

2020中国云计算生态峰会召开 浪潮云摘得三项大奖

云服务

学习新语言步骤(有其他语言基础前提)

周周

云原生动态周报 |华为云主导抗疫药物筛选科研成果"神农项目"登上国际化学顶刊封面

华为云原生团队

GitHub 疫情 云原生 Prometheus 华为云

重学JS | 异步编程 Promise

梁龙先森

大前端 编程语言 28天写作

CSS12 - 清除浮动

Mr.Cactus

html/css

华为云张昆:支持全场景全业务,GaussDB加速企业数字化转型

华为云开发者联盟

数据库

对于我们程序员来说,基本面是什么呢?

Java架构师迁哥

浪潮云防勒索一站式解决方案,让勒索病毒“上云”无门

产品推荐

初识 D3.js :打造专属可视化

vivo互联网技术

JavaScript 数据分析 可视化 图表 D3

前端代码书写规范

Mr.Cactus

大前端 html/css

Python 使用SQLServer

IT蜗壳-Tango

七日更

DevSecOps:把合规融入DevOps

啸天

DevOps 安全 法律 DevSecOps 应用安全

再谈跨界 互联网+的建筑行业

张老蔫

28天写作

SpringCloud 从入门到精通 08--- Eureka集群

Felix

从根上理解高性能、高并发(四):深入操作系统,彻底理解同步与异步

JackJiang

网络编程 高并发 高性能 即时通讯

2020DevOps状态报告

禅道项目管理

DevOps 运维 开发 趋势 自动化测试

关于2020 我有12个关键词

阅读

Spring中@Import的作用

张健

即构推出低延迟直播产品L3,可将直播延迟降到1s

ZEGO即构

波场链智能合约软件开发|波场链智能合约APP系统开发

系统开发

CSS11 - 浮动

Mr.Cactus

html/css

2020DevOps状态报告——平台模型:扩展DevOps的新方法

禅道项目管理

DevOps 运维 开发 趋势 自动化测试

关于“存在”的一点思考

石君

28天写作 量子 世界为何存在

专科出身Java开发,2年进入苏宁,5年跳槽阿里,我晋升这么快的秘诀是什么?

Java架构追梦

Java 阿里巴巴 面试 架构师 成长路线

CodeDay#5 启动报名| 带你深入探索支付宝终端动态化实践

蚂蚁集团移动开发平台 mPaaS

小程序 mPaaS 2021年度技术盘点与展望 热门活动

anyRTC-语音连麦demo上线

anyRTC开发者

音视频 WebRTC 直播 实时语音 语音聊天室

链上智能合约APP开发|链上智能合约系统软件开发

系统开发

用技术的方式,在UI设计稿中设置随机码,保证高清

行者AI

Python

大数据知识专栏 - Zookeeper的Shell操作

小马哥

大数据 zookeeper ZooKeeper原理 28天写作

区块链即时通讯系统开发方案,IM聊天社交软件开发

v16629866266

Mobileye的创新科技与方案将助力自动驾驶汽车畅行世界、惠及大众

E科讯

百度发布新模型ERNIE-GEN_AI&大模型_百度_InfoQ精选文章