写点什么

百度发布新模型 ERNIE-GEN

  • 2020-05-22
  • 本文字数:1157 字

    阅读完需:约 4 分钟

百度发布新模型ERNIE-GEN

5 月 20 日,百度 Wave Summit 2020 深度学习开发者峰会上,ERNIE 发布全新的语言生成预训练模型 ERNIE-GEN,解决自然语言处理领域“生成”方向的难题,让机器不但能“理解”人类的意思,还能完成更高阶的“表达”。这项工作在 4 类语言生成任务,5 项国际权威英文数据集上均取得 SOTA。



此外,还被 AI 顶会 IJCAI 2020 收录。



在自然语言处理领域中,语言理解(NLU)和语言生成(NLG)是两大核心任务。百度发布的 ERNIE-GEN 预训练模型指向语言生成(NLG),这听起来很晦涩,实际上并不陌生。回顾一些经典科幻电影,比如《终结者》、《黑客帝国》中描述的未来机器人,他们能够流畅地实现和人类对话,这就是一个自然语言生成系统。日常生活中,手机输入法的联想词、对答如流的智能音箱、问答机器人等,都是常见自然语言生成领域问题。


可见自然语言生成技术非常重要,针对性地进行预训练模型的研发,也成为这个领域重要玩家的共识。从 2019 年以来,Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型,取得了一定进展。百度 2019 年 3 月推出预训练模型 ERNIE,7 月升级到 ERNIE2.0。


之前,领域内的预训练模型主要关注于语言理解类任务,在生成任务上还处于探索阶段。如以 BERT、ERNIE 为代表的语言理解预训练模型在理解方面取得了许多突破,然而,对于序列到序列的自然语言生成任务,这些主流方法并未带来明显改进。早期如微软 MASS 和 UniLM 等工作在下游生成任务上取得了显著提升,但仍有问题亟待解决。


本次在 ERNIE 基础上推出的语言生成预训练模型 ERNIE-GEN,针对之前工作中语言生成任务的核心难题,提出了多项创新方法,基于 multi-flow 机制,模型可以生成完整语义片段,显著提升了自然语言生成的任务效果。


ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程,使模型具备了语义完备短语生成的能力,如直接生成“New York”(而非“New”和“York”)。


此外,传统的自回归生成模型当前词的生成强依赖于上一个词,这种有偏的学习方式会在上文生成质量不佳时,导致后续的错误累积。ERNIE-GEN 提出 Infilling 生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制,ERNIE-GEN 基于 transformer 设计了 multi-flow attention 结构。


最终据实验结果显示,ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话 4 类生成任务的 5 个公开数据中,均取得了 SOTA 效果。



目前,ERNIE-GEN 的英文预训练模型已开源,而基于更大规模预训练数据集的 ERNIE-GEN 也正式发布于:


https://github.com/PaddlePaddle/ERNIE/


ERNIE-GEN 已应用于内部新闻标题生成等业务,未来还将支持机器翻译等更多类型的生成任务。


论文链接:https://arxiv.org/abs/2001.11314


项目地址: https://github.com/PaddlePaddle/ERNIE


2020-05-22 19:152865

评论

发布
暂无评论
发现更多内容

迄今为止最完整的DDD实践

阿里技术

架构 DDD

专访|严靖炜:从参与 MatrixOne 到论文入选 IEEE BMSB 2023

MatrixOrigin

数据库 云原生 超融合

基木鱼平台全链路升维,商家经营迎来AIGC生意经

极客天地

AI自动生成代码,是时候冷静下来思考如何保障代码安全了

云计算 华为云 代码检查 华为开发者大会 AI编程

敏捷在医疗器械开发中的应用 —— Q&A

ShineScrum

企业号 7 月 PK 榜,火热开启!

InfoQ写作社区官方

热门活动 企业号 7 月 PK 榜

升级企业数智化底座,助力企业实现数智连接

用友BIP

数智底座

使用 diffusers 训练你自己的 ControlNet 🧨

互联网工科生

controlnet

强化学习从基础到进阶-案例与实践[5.1]:Policy Gradient策略梯度-Cart pole游戏展示

汀丶人工智能

人工智能 深度学习 强化学习 策略梯度

毕业季 | 程序员初入职场必备软件开发神器

华为云开发者联盟

云计算 软件开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

高并发场景下,6种解决SimpleDateFormat类的线程安全问题方法

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示

汀丶人工智能

人工智能 深度学习 强化学习 DQN

解放开发者——5个好用的低代码开发平台

树上有只程序猿

全面解析 | 大模型时代如何利用弹性计算服务应对大算力挑战

阿里云弹性计算

云计算 弹性计算 AIGC

金域医学2023“域见杯”医检人工智能开发者大赛正式启动

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验

汀丶人工智能

人工智能 深度学习 强化学习 7月日更

打造数智物流底座,华为云DTSE助力物联云仓解锁物流新“速度”

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 6 月 PK 榜

🔥🔥🔥我可算把【年中复盘】玩明白了

禅道项目管理

总结 复盘

人脸识别技术在智能家居中的应用

数据堂

2023-06-30:给你一个 rows * cols 大小的矩形披萨和一个整数 k, 矩形包含两种字符: ‘A‘ (表示苹果)和 ‘.‘ (表示空白格子), 你需要切披萨 k-1 次,得到 k 块披

福大大架构师每日一题

Go 算法 rust Go 语言 福大大架构师每日一题

SQL 优化(三):使用覆盖索引

hungxy

神级程序员,都在用哪些生产力工具?

互联网工科生

程序员 工具 生产力

万木健康:用AIGC创造医生的第25个小时|TE洞察

TE智库

人工智能 AIGC 医疗健康

人脸识别技术在社交媒体中的应用

数据堂

【6.23-6.30】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

什么是MES?国内做MES系统的企业哪家好?

优秀

MES系统 mes

在找稳定的企业级数据云平台?奇点云DataSimba R4.9 LTS发布

奇点云

产品升级 奇点云 数据基础设施 DataSimba

百度发布新模型ERNIE-GEN_AI&大模型_百度_InfoQ精选文章