写点什么

百度发布新模型 ERNIE-GEN

  • 2020-05-22
  • 本文字数:1157 字

    阅读完需:约 4 分钟

百度发布新模型ERNIE-GEN

5 月 20 日,百度 Wave Summit 2020 深度学习开发者峰会上,ERNIE 发布全新的语言生成预训练模型 ERNIE-GEN,解决自然语言处理领域“生成”方向的难题,让机器不但能“理解”人类的意思,还能完成更高阶的“表达”。这项工作在 4 类语言生成任务,5 项国际权威英文数据集上均取得 SOTA。



此外,还被 AI 顶会 IJCAI 2020 收录。



在自然语言处理领域中,语言理解(NLU)和语言生成(NLG)是两大核心任务。百度发布的 ERNIE-GEN 预训练模型指向语言生成(NLG),这听起来很晦涩,实际上并不陌生。回顾一些经典科幻电影,比如《终结者》、《黑客帝国》中描述的未来机器人,他们能够流畅地实现和人类对话,这就是一个自然语言生成系统。日常生活中,手机输入法的联想词、对答如流的智能音箱、问答机器人等,都是常见自然语言生成领域问题。


可见自然语言生成技术非常重要,针对性地进行预训练模型的研发,也成为这个领域重要玩家的共识。从 2019 年以来,Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型,取得了一定进展。百度 2019 年 3 月推出预训练模型 ERNIE,7 月升级到 ERNIE2.0。


之前,领域内的预训练模型主要关注于语言理解类任务,在生成任务上还处于探索阶段。如以 BERT、ERNIE 为代表的语言理解预训练模型在理解方面取得了许多突破,然而,对于序列到序列的自然语言生成任务,这些主流方法并未带来明显改进。早期如微软 MASS 和 UniLM 等工作在下游生成任务上取得了显著提升,但仍有问题亟待解决。


本次在 ERNIE 基础上推出的语言生成预训练模型 ERNIE-GEN,针对之前工作中语言生成任务的核心难题,提出了多项创新方法,基于 multi-flow 机制,模型可以生成完整语义片段,显著提升了自然语言生成的任务效果。


ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程,使模型具备了语义完备短语生成的能力,如直接生成“New York”(而非“New”和“York”)。


此外,传统的自回归生成模型当前词的生成强依赖于上一个词,这种有偏的学习方式会在上文生成质量不佳时,导致后续的错误累积。ERNIE-GEN 提出 Infilling 生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制,ERNIE-GEN 基于 transformer 设计了 multi-flow attention 结构。


最终据实验结果显示,ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话 4 类生成任务的 5 个公开数据中,均取得了 SOTA 效果。



目前,ERNIE-GEN 的英文预训练模型已开源,而基于更大规模预训练数据集的 ERNIE-GEN 也正式发布于:


https://github.com/PaddlePaddle/ERNIE/


ERNIE-GEN 已应用于内部新闻标题生成等业务,未来还将支持机器翻译等更多类型的生成任务。


论文链接:https://arxiv.org/abs/2001.11314


项目地址: https://github.com/PaddlePaddle/ERNIE


2020-05-22 19:152876

评论

发布
暂无评论
发现更多内容

如何通过YashanDB数据库优化客户体验

数据库砖家

如何通过YashanDB提高数据的安全性

数据库砖家

如何通过YashanDB数据库提升数据管理效率

数据库砖家

在AI技术唾手可得的时代,挖掘新需求成为核心竞争力——某知名计算机控制AI框架需求洞察

qife122

AI需求分析 用户反馈挖掘

全面解析DoS攻击防护与应对策略

qife122

网络安全 漏洞防护

如何通过YashanDB数据库推动企业创新

数据库砖家

工业设计 自控设计经验总结(7)

万里无云万里天

设计师 工业 工厂运维

综合安防 维护经验总结(7)

万里无云万里天

工业 工厂运维 综合安防

网络安全工具与社区讨论月报

qife122

网络安全 社区讨论

如何通过YashanDB提高团队工作效率

数据库砖家

在AI技术快速实现创意的时代,挖掘游戏开发框架新需求成为关键

qife122

游戏开发 开源框架

HTB Eureka靶机渗透实战 - Spring Boot堆转储与Bash算术注入漏洞利用

qife122

spring-boot 命令注入

如何通过YashanDB数据库提升行业数据竞争力

数据库砖家

《独立开发者精选工具》第 019 期

Immerse

AWS Direct Connect在菲律宾马卡蒂市推出100G扩展服务

qife122

AWS 网络连接

NoSuchMethodException

刘大猫

人工智能 云计算 算法 物联网 大模型

如何通过YashanDB数据库提升业务连续性保障能力

数据库砖家

如何通过YashanDB数据库优化数据分析流程

数据库砖家

大数据-116 - Flink Sink 使用指南:类型、容错语义与应用场景 多种输出方式与落地实践

武子康

Java 大数据 flink spark 分布式

利用 YashanDB 来提升数据处理效率

数据库砖家

遇见 Kiro:从“爽感写代码”到“生产级落地”

掘金安东尼

Oracle云基础设施强势崛起:AI驱动的新一代云计算竞争格局

qife122

oracle 云计算

如何一个接口对接各大厂商的所有TTS(文本转语音)服务

程序猿DD

API TTS 文本转语音

Linux发行版切换技术全解析

qife122

Linux 虚拟化

如何通过YashanDB数据库实现数据资产价值最大化

数据库砖家

如何通过YashanDB数据库提升企业数据资产价值

数据库砖家

Perplexity发布搜索API,驱动下一代AI应用开发

qife122

AI AIAPI

量子计算机开发学习计划

执于业务

量子

Valley靶机渗透实战:从凭证复用到Python库劫持

qife122

渗透测试 权限提升

如何通过YashanDB提升机器学习数据处理效率

数据库砖家

通过 YashanDB 提升数据分析的准确性

数据库砖家

百度发布新模型ERNIE-GEN_AI&大模型_百度_InfoQ精选文章