【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

百度发布新模型 ERNIE-GEN

  • 2020-05-22
  • 本文字数:1157 字

    阅读完需:约 4 分钟

百度发布新模型ERNIE-GEN

5 月 20 日,百度 Wave Summit 2020 深度学习开发者峰会上,ERNIE 发布全新的语言生成预训练模型 ERNIE-GEN,解决自然语言处理领域“生成”方向的难题,让机器不但能“理解”人类的意思,还能完成更高阶的“表达”。这项工作在 4 类语言生成任务,5 项国际权威英文数据集上均取得 SOTA。



此外,还被 AI 顶会 IJCAI 2020 收录。



在自然语言处理领域中,语言理解(NLU)和语言生成(NLG)是两大核心任务。百度发布的 ERNIE-GEN 预训练模型指向语言生成(NLG),这听起来很晦涩,实际上并不陌生。回顾一些经典科幻电影,比如《终结者》、《黑客帝国》中描述的未来机器人,他们能够流畅地实现和人类对话,这就是一个自然语言生成系统。日常生活中,手机输入法的联想词、对答如流的智能音箱、问答机器人等,都是常见自然语言生成领域问题。


可见自然语言生成技术非常重要,针对性地进行预训练模型的研发,也成为这个领域重要玩家的共识。从 2019 年以来,Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型,取得了一定进展。百度 2019 年 3 月推出预训练模型 ERNIE,7 月升级到 ERNIE2.0。


之前,领域内的预训练模型主要关注于语言理解类任务,在生成任务上还处于探索阶段。如以 BERT、ERNIE 为代表的语言理解预训练模型在理解方面取得了许多突破,然而,对于序列到序列的自然语言生成任务,这些主流方法并未带来明显改进。早期如微软 MASS 和 UniLM 等工作在下游生成任务上取得了显著提升,但仍有问题亟待解决。


本次在 ERNIE 基础上推出的语言生成预训练模型 ERNIE-GEN,针对之前工作中语言生成任务的核心难题,提出了多项创新方法,基于 multi-flow 机制,模型可以生成完整语义片段,显著提升了自然语言生成的任务效果。


ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程,使模型具备了语义完备短语生成的能力,如直接生成“New York”(而非“New”和“York”)。


此外,传统的自回归生成模型当前词的生成强依赖于上一个词,这种有偏的学习方式会在上文生成质量不佳时,导致后续的错误累积。ERNIE-GEN 提出 Infilling 生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制,ERNIE-GEN 基于 transformer 设计了 multi-flow attention 结构。


最终据实验结果显示,ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话 4 类生成任务的 5 个公开数据中,均取得了 SOTA 效果。



目前,ERNIE-GEN 的英文预训练模型已开源,而基于更大规模预训练数据集的 ERNIE-GEN 也正式发布于:


https://github.com/PaddlePaddle/ERNIE/


ERNIE-GEN 已应用于内部新闻标题生成等业务,未来还将支持机器翻译等更多类型的生成任务。


论文链接:https://arxiv.org/abs/2001.11314


项目地址: https://github.com/PaddlePaddle/ERNIE


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-05-22 19:152244

评论

发布
暂无评论
发现更多内容

python数据分析-pandas基础(4)-数据映射apply

AIWeker

Python Python数据分析 11月月更

华为云会议,云上办公更轻松高效

路过的憨憨

Note.js框架中的cluster集群和断言测试的实战剖析

恒山其若陋兮

前端 11月月更

在child_process域和错误的冒泡和捕获实践【Note.js】

恒山其若陋兮

前端 11月月更

架构实战营-模块5课后作业

Mr.M

万字长文!对比分析了多款存储方案,KeeWiDB最终选择自己来

腾讯云数据库

nosql 存储 NoSQL 数据库 腾讯云数据库 KeeWiDB

C++---类型萃取---is_array && is_enum/is_union/is_class

桑榆

C++ STL 11月月更

CDH5部署三部曲之一:准备工作

程序员欣宸

大数据 CDH 11月月更

支持向量机-选取与核函数相关的参数:degree & gamma & coef0

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

一文熟悉 Go 的分支结构(if - else-if - else、switch)

陈明勇

Go golang Switch if 11月月更

图神经网络之预训练大模型结合:ERNIESage在链接预测任务应用

汀丶人工智能

图神经网络 图学习 11月月更

涨薪50%,从小厂逆袭,坐上美团L8技术专家(面经+心得)

钟奕礼

Java Java 面试 java编程 程序员 java

腾讯云大神亲码“redis深度笔记”,不讲一句废话,全是精华

钟奕礼

Java java程序员 java面试 java编程

一个三年Java程序员的面试总结!绝对会对你有所帮助

钟奕礼

Java java面试 java编程 程序员 java

最近面试Java开发的感受:就以平时项目经验面试,通过估计很难

钟奕礼

Java java面试 java编程 程序员 java

极致性能!阿里巴巴Java性能优化实录Github首次开源

Java永远的神

JVM 设计模式 多线程 java程序员 Java性能优化

云原生基础组件选型出发点

穿过生命散发芬芳

11月月更 云原生落地

python小知识-hook函数

AIWeker

Python python小知识 11月月更

极客时间运维进阶训练营第五周作业

好吃不贵

面向大规模队列,百万并发的多优先级消费系统设计

阿里云视频云

阿里云 队列 消费系统

信息论与编码:线性分组码与性能参数

timerring

数据通信 11月月更 线性分组码

先到先得!阿里淘系内传322页Java并发编程核心讲义学习笔记

钟奕礼

Java java程序员 java面试 java编程

从零开始读源码,阿里最新JDK源码剖析笔记在架构师社区火了

程序员小毕

Java 程序员 后端 jdk源码 架构师

今年Java技术岗面试太难了,收藏93套BATJ等公司面试题集,已看哭

钟奕礼

java面试 java编程 Java‘’ 程序员‘

进军东南亚市场,腾讯云数据库TDSQL助力印尼BNC银行数字化转型

腾讯云数据库

金融行业 tdsql 腾讯云数据库 BNC

ipv6地址概述——了解ipv6地址

初学者

网络 11月月更

【网络安全必看】如何提升自身WEB渗透能力?

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

华为云桌面Workspace云上办公,方便得很!

路过的憨憨

824页23种设计模式全解析,搞定设计模式各种难题

小小怪下士

Java 程序员 设计模式

2022-11-26:给定一个字符串s,只含有0~9这些字符 你可以使用来自s中的数字,目的是拼出一个最大的回文数 使用数字的个数,不能超过s里含有的个数 比如 : 39878,能拼出的最大回文数是

福大大架构师每日一题

算法 rust 福大大

python数据分析-pandas基础3-数据对齐

AIWeker

Python Python数据分析 11月月更

百度发布新模型ERNIE-GEN_AI&大模型_百度_InfoQ精选文章