NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

百度发布新模型 ERNIE-GEN

  • 2020-05-22
  • 本文字数:1157 字

    阅读完需:约 4 分钟

百度发布新模型ERNIE-GEN

5 月 20 日,百度 Wave Summit 2020 深度学习开发者峰会上,ERNIE 发布全新的语言生成预训练模型 ERNIE-GEN,解决自然语言处理领域“生成”方向的难题,让机器不但能“理解”人类的意思,还能完成更高阶的“表达”。这项工作在 4 类语言生成任务,5 项国际权威英文数据集上均取得 SOTA。



此外,还被 AI 顶会 IJCAI 2020 收录。



在自然语言处理领域中,语言理解(NLU)和语言生成(NLG)是两大核心任务。百度发布的 ERNIE-GEN 预训练模型指向语言生成(NLG),这听起来很晦涩,实际上并不陌生。回顾一些经典科幻电影,比如《终结者》、《黑客帝国》中描述的未来机器人,他们能够流畅地实现和人类对话,这就是一个自然语言生成系统。日常生活中,手机输入法的联想词、对答如流的智能音箱、问答机器人等,都是常见自然语言生成领域问题。


可见自然语言生成技术非常重要,针对性地进行预训练模型的研发,也成为这个领域重要玩家的共识。从 2019 年以来,Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型,取得了一定进展。百度 2019 年 3 月推出预训练模型 ERNIE,7 月升级到 ERNIE2.0。


之前,领域内的预训练模型主要关注于语言理解类任务,在生成任务上还处于探索阶段。如以 BERT、ERNIE 为代表的语言理解预训练模型在理解方面取得了许多突破,然而,对于序列到序列的自然语言生成任务,这些主流方法并未带来明显改进。早期如微软 MASS 和 UniLM 等工作在下游生成任务上取得了显著提升,但仍有问题亟待解决。


本次在 ERNIE 基础上推出的语言生成预训练模型 ERNIE-GEN,针对之前工作中语言生成任务的核心难题,提出了多项创新方法,基于 multi-flow 机制,模型可以生成完整语义片段,显著提升了自然语言生成的任务效果。


ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程,使模型具备了语义完备短语生成的能力,如直接生成“New York”(而非“New”和“York”)。


此外,传统的自回归生成模型当前词的生成强依赖于上一个词,这种有偏的学习方式会在上文生成质量不佳时,导致后续的错误累积。ERNIE-GEN 提出 Infilling 生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制,ERNIE-GEN 基于 transformer 设计了 multi-flow attention 结构。


最终据实验结果显示,ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话 4 类生成任务的 5 个公开数据中,均取得了 SOTA 效果。



目前,ERNIE-GEN 的英文预训练模型已开源,而基于更大规模预训练数据集的 ERNIE-GEN 也正式发布于:


https://github.com/PaddlePaddle/ERNIE/


ERNIE-GEN 已应用于内部新闻标题生成等业务,未来还将支持机器翻译等更多类型的生成任务。


论文链接:https://arxiv.org/abs/2001.11314


项目地址: https://github.com/PaddlePaddle/ERNIE


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-05-22 19:152246

评论

发布
暂无评论
发现更多内容

哪个年龄段学习web前端培训比较好

小谷哥

如何系统学习web前端技术知识

小谷哥

2022冲刺金九银十震撼发布!Java八股文+大厂面试真题,干货满满!

了不起的程序猿

Java java程序员 java面试

Kubernetes入坑篇

青柚1943

Kubernetes DevOps minikube

在线多行文本批量正则替换添加后缀工具

入门小站

工具

在线SQL转XML工具

入门小站

工具

新一代云原生消息队列 (二)

技术小生

pulsar Apache Pulsar 消息系统 7月月更

如何系统进行学习web前端开发工程师技术

小谷哥

Java 集合

Damon

7月月更

日志黑名单,真的能帮你省钱!

观测云

转行前端是自学好还是培训班好

小谷哥

Python图像处理丨图像腐蚀与图像膨胀

华为云开发者联盟

Python 软件 开发 图像处理

新书上市 | C 语言经典教材配套“习题解答”,原书累计印数 10 万 +

图灵教育

C语言

还不了解进程吗?就这一篇!

C++后台开发

网络编程 进程 通信 linux开发 C++开发

开鸿智谷 Niobe 407 正式并入OpenHarmony代码主干

科技汇

Chrome实现自动化测试:录制回放网页动作

和牛

测试

小程序容器技术让混合App开发效率提升

Geek_99967b

小程序容器

Web安全之Java反序列漏洞总结

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

泰凌微电子B91通用开发板合入OpenHarmony社区主干

科技汇

ArkUI路由跳转概览

坚果

HarmonyOS OpenHarmony 7月月更

AIOps落地五大原则(三):架构路线

BizSeer必示科技

人工智能 AIOPS

2022-07微软漏洞通告

火绒安全

microsoft 安全 漏洞

C 语言入门(四)

逝缘~

7月月更

StarRocks 成都见!企业如何打造极速统一的数据分析新范式,助力业务全方位升级

StarRocks

数据库 大数据 数据分析 国产数据库

ECCV2022 | 腾讯优图29篇论文入选,含人脸安全、图像分割、目标检测等多个研究方向

科技热闻

融云 x 天聊,用声音打造「无压力社交」栖息地

融云 RongCloud

《Linux设备驱动开发详解》读书笔记

贾献华

7月月更

Python|制作词云,改变词云字体颜色

AXYZdong

Python 7月月更

本周四晚19:00知识赋能第3期直播丨OpenHarmony智能家居项目之控制面板功能实现

OpenHarmony开发者

Open Harmony

Python3详细的数组基础操作-入门必备[列表的操作]

迷彩

数组 Python基础 列表 7月月更

从全球价值链视角看,京东云数智供应链对未来经济有何影响?

脑极体

百度发布新模型ERNIE-GEN_AI&大模型_百度_InfoQ精选文章