写点什么

比 BERT 提升近 10 个点!百度预训练模型 ERNIE 登顶 GLUE 榜单

  • 2019-12-11
  • 本文字数:1079 字

    阅读完需:约 4 分钟

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单

北京时间 12 月 10 日,百度预训练模型界 ERNIE 在自然语言处理领域权威数据集 GLUE 中登上榜首,并以 9 个任务平均得分首次突破 90 大关刷新该榜单历史,其超越微软 MTDNN-SMART, 谷歌 T5、ALBERT 等一众国际顶级预训练模型的表现。



众所周知,通用语言理解评估基准 GLUE 是自然语言处理领域最权威的排行榜之一,由纽约大学、华盛顿大学、谷歌 DeepMind 等机构联合推出,以其涵盖大量不同类型的 NLP 任务,包括自然语言推断、语义相似度、问答匹配、情感分析等 9 大任务,成为衡量自然语言处理研究进展的行业标准。因此,吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE 排行榜的效果,在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。此次能够超越国际顶尖公司及高校荣登榜首,背后是百度 NLP 技术的长足积累。


2018 年底以来,以 BERT 为代表的预训练模型大幅提升了自然语言处理任务的基准效果,取得了显著技术突破,基于大规模数据的预训练技术在自然语言处理领域变得至关重要。众 AI 公司纷纷发力预训练领域,相继发布了 XLNet、RoBERTa、ALBERT、T5 等预训练模型。百度也先后发布了 ERNIE 1.0、ERNIE 2.0,在 16 个中英数据集上取得了当时的 SOTA。


从 GLUE 排行榜上来看,BERT 使用预训练加微调的方式,相对过往的基线成绩大幅提升各任务的效果,首次突破了 80 大关。XLNet、RoBERTa、T5、MT-DNN-SMART 等模型则分布在 88-89 分范围,人类水平则是 87.1。


百度 ERNIE 此次登顶,成为首个突破 90 大关的模型,并在 CoLA、SST-2、QQP、WNLI 等数据集上达到 SOTA。相对 BERT 的 80.5 的成绩,提升近 10 个点,取得了显著的效果突破。



百度 ERNIE 2.0 原理示意图


ERNIE 2.0 持续学习的语义理解框架, 支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。


此次登顶的模型主要基于 ERNIE 2.0 持续学习语义理解框架下的系列优化。引入更多新预训练任务, 例如引入基于互信息的动态边界掩码算法。对预训练数据和模型结构也做了精细化调整。


同时,百度 ERNIE 2.0 的论文(https://arxiv.org/abs/1907.12412)已被国际人工智能顶级学术会议 AAAI-2020 收录,AAAI-2020 将于 2020 年 2 月 7 日-12 日在美国纽约举行, 届时百度的技术团队将会进一步展示近期的技术成果。


据悉,百度 ERNIE 预训练技术已广泛地应用于公司内外多个产品和技术场景,其在百度搜索、小度音箱、信息流推荐等一系列产品应用中提升技术效果和用户体验的同时也在逐步赋能各行各业。


2019-12-11 15:242381
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 574.3 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

阿里独家!GitHub上点击量超百万的「操作系统和计算机网络」PDF震撼开源

Java 程序员 面试 计算机 Alibaba

前端性能优化实战(一)

Augus

JavaScript 9月日更

Mp3文件结构全解析(二)

轻口味

android 音视频 9月日更

定时任务 Crontab 中的特殊字符

耳东@Erdong

crontab 9月日更

将进一步提高数字人民币的可得性 构建分布式数字身份认证体系

CECBC

芯慌遇上造车热,国产芯片的机会到了?

脑极体

python之深浅拷贝

秦时明月

CPU虚拟化,磁盘虚拟化,内存虚拟化,io虚拟化

hanaper

20+互联网公司Java面试考点大全,全网首发,应有尽有

Java 程序员 编程语言 java面试

进程和处理机管理中的进程控制

Regan Yue

操作系统 进程 9月日更 进程控制

记一下日志引起的bug

卢卡多多

日志 9月日更

java虚拟机GC学习笔记一

风翱

GC 9月日更

DPDK分析学习之全网唯一的DPDK教学课程丨虚拟化高性能专家之路

Linux服务器开发

网络协议 虚拟化 Linux服务器开发 DPDK 高性能网络

我的9年开源之路:395 Patch、20+Feature,背后只有努力与热爱

腾源会

腾讯云 开源 虚拟化 Linux内核 kvm

中小企业自媒体为何难做:定位不准期望值过高

石头IT视角

数字化的田亩里,华为正写一首陶渊明的诗

脑极体

支持 10 亿日流量的基础设施:当 Apahce APISIX 遇上腾讯

腾源会

腾讯云 开源 APISIX OTeam

深入探讨区块链价值及其对世界的影响

CECBC

腾讯圆梦,我整理收集了这份“2021常见Java面试真题汇总”

Java 架构 编程语言 java面试

【重磅】Apache InLong(incubating) 发布 0.10.0 版本

腾源会

Apache 开源 InLong

流程控制之for循环

秦时明月

工业互联网的两种极端想法和两点反思

iNeuOS工业互联网操作系统

大数据 物联网 智能制造 iNeuOS工业互联网

如何用时序数据库 CTSDB 与 TARS 结合,解决海量监控数据难题

腾源会

数据库 大数据 开源 TARS CTSDB

2022前端react面试题汇总

buchila11

React

如何做竞品分析?

石云升

产品经理 产品思维 9月日更 产品分析

基于线性预测的语音编码原理解析

拍乐云Pano

RTC 音频技术 python 数字信号

数据仓库和数据湖比较

奔向架构师

数据湖 9月日更

Alibaba竟流出全套的Java核心技术手册,看过的人都说好!

Java 程序员 架构 面试 计算机

WAF绕过总结+工具介绍

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

【经验分享】RTC 技术系列之视频编解码

声网

音视频

网络攻防学习笔记 Day146

穿过生命散发芬芳

9月日更 招投标

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单_AI&大模型_高高_InfoQ精选文章