AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

百度发布新模型 ERNIE-GEN

  • 2020-05-22
  • 本文字数:1157 字

    阅读完需:约 4 分钟

百度发布新模型ERNIE-GEN

5 月 20 日,百度 Wave Summit 2020 深度学习开发者峰会上,ERNIE 发布全新的语言生成预训练模型 ERNIE-GEN,解决自然语言处理领域“生成”方向的难题,让机器不但能“理解”人类的意思,还能完成更高阶的“表达”。这项工作在 4 类语言生成任务,5 项国际权威英文数据集上均取得 SOTA。



此外,还被 AI 顶会 IJCAI 2020 收录。



在自然语言处理领域中,语言理解(NLU)和语言生成(NLG)是两大核心任务。百度发布的 ERNIE-GEN 预训练模型指向语言生成(NLG),这听起来很晦涩,实际上并不陌生。回顾一些经典科幻电影,比如《终结者》、《黑客帝国》中描述的未来机器人,他们能够流畅地实现和人类对话,这就是一个自然语言生成系统。日常生活中,手机输入法的联想词、对答如流的智能音箱、问答机器人等,都是常见自然语言生成领域问题。


可见自然语言生成技术非常重要,针对性地进行预训练模型的研发,也成为这个领域重要玩家的共识。从 2019 年以来,Google、Facebook、微软等先后发布了多个针对自然语言生成的预训练模型,取得了一定进展。百度 2019 年 3 月推出预训练模型 ERNIE,7 月升级到 ERNIE2.0。


之前,领域内的预训练模型主要关注于语言理解类任务,在生成任务上还处于探索阶段。如以 BERT、ERNIE 为代表的语言理解预训练模型在理解方面取得了许多突破,然而,对于序列到序列的自然语言生成任务,这些主流方法并未带来明显改进。早期如微软 MASS 和 UniLM 等工作在下游生成任务上取得了显著提升,但仍有问题亟待解决。


本次在 ERNIE 基础上推出的语言生成预训练模型 ERNIE-GEN,针对之前工作中语言生成任务的核心难题,提出了多项创新方法,基于 multi-flow 机制,模型可以生成完整语义片段,显著提升了自然语言生成的任务效果。


ERNIE-GEN 首次将短语、实体的预测引入生成预训练中。这种机制借鉴了人类写作的构思过程,使模型具备了语义完备短语生成的能力,如直接生成“New York”(而非“New”和“York”)。


此外,传统的自回归生成模型当前词的生成强依赖于上一个词,这种有偏的学习方式会在上文生成质量不佳时,导致后续的错误累积。ERNIE-GEN 提出 Infilling 生成机制并和噪声增强策略相结合有效缓解了这种生成过程中的错误累积。为了实现上述机制,ERNIE-GEN 基于 transformer 设计了 multi-flow attention 结构。


最终据实验结果显示,ERNIE-GEN 在文本摘要生成、问题生成、多轮问答和对话 4 类生成任务的 5 个公开数据中,均取得了 SOTA 效果。



目前,ERNIE-GEN 的英文预训练模型已开源,而基于更大规模预训练数据集的 ERNIE-GEN 也正式发布于:


https://github.com/PaddlePaddle/ERNIE/


ERNIE-GEN 已应用于内部新闻标题生成等业务,未来还将支持机器翻译等更多类型的生成任务。


论文链接:https://arxiv.org/abs/2001.11314


项目地址: https://github.com/PaddlePaddle/ERNIE


2020-05-22 19:152641

评论

发布
暂无评论
发现更多内容

文章类网站前端日期的显示该如何选择时区?

IT蜗壳-Tango

七日更 服务器时区

数字货币钱包APP系统开发|数字货币钱包软件开发

系统开发

焱融科技借公有云出海,服务国际知名卡车制造商自动驾驶业务

焱融科技

自动驾驶 分布式 存储 自动驾驶训练

android开发三大框架!国内一线互联网公司面试题汇总,终局之战

欢喜学安卓

android 程序员 面试 移动开发

大数据场景下Volcano高效调度能力实践

华为云开发者联盟

大数据 spark Kubernetes Volcano application

基于KubeEdge和Kuiper的边缘流式数据处理实践

华为云开发者联盟

spark 边缘计算 kuberedge kuiper 边缘流式数据

PolarDB-X 并行计算框架

PolarDB-X

数据库 sql 大数据

与前端训练营的日子 --Week13

SamGo

学习

管理的亲和力是怎么练成的?

一笑

管理 沟通与管理 28天写作

循环?还是递归?

xcbeyond

Java 算法 递归 28天写作

鸿蒙开发者beta!Github标星25K+超火的Android实战项目,赶紧收藏!

欢喜学安卓

android 程序员 面试 移动开发

OpsMind 前端低代码开发平台——MPlatform

OpsMind

大前端 低代码

当公元成了可以考古的年代「幻想短篇 17/28」

道伟

28天写作

[编程参考-连载] Snowflake 算法原理与对应的 Python 实现

穿甲兵

Python 算法

作业2

瑾瑾呀

区块链钱包APP系统开发|区块链钱包软件开发

系统开发

2020下半年可信边缘云评估结果揭晓,2021年新一轮评估正式开启

大数据 可信云 可信边缘云

Why me, why now Jan 25, 2021

王泰

28天写作

MySQL 5.6.35 索引优化导致的死锁案例解析

vivo互联网技术

MySQL 数据库 死锁

企业项目迁移go-zero全攻略(一)

万俊峰Kevin

微服务 microservice Go 语言

聊聊 Git 的三种传输协议及实现

Zoker

git 架构 DevOps

区块链数字钱包APP系统开发|区块链数字钱包软件开发

系统开发

使用 AWS CDK Python 从零开始构建 EKS 集群

郭旭东

AWS IaC AWS CDK

生活,在哪里都一样

熊斌

个人成长 28天写作

年会游戏:猜数字(前端特效)

德育处主任

CSS html 大前端 js 28天写作

数据库性能调优之始: analyze统计信息

华为云开发者联盟

数据库 sql GaussDB 语义

字节跳动&火山引擎:企业级机器学习平台建设实践

机器学习 云计算 AI 云原生

多币种钱包系统开发|多币种钱包软件APP开发

系统开发

Redis为什么变慢了?一文讲透如何排查Redis性能问题 | 万字长文

Kaito

redis 性能优化 后端

架构师训练营 - 第四周作业

Mark

使用 external version 进行 Elasticsearch 并发控制

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

百度发布新模型ERNIE-GEN_AI&大模型_百度_InfoQ精选文章