AIGC革命已来,如何在企业场景落地?如何选择模型、怎样应用RAG、需要哪些组织流程配套? 了解详情
写点什么

比 BERT 提升近 10 个点!百度预训练模型 ERNIE 登顶 GLUE 榜单

  • 2019-12-11
  • 本文字数:1079 字

    阅读完需:约 4 分钟

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单

北京时间 12 月 10 日,百度预训练模型界 ERNIE 在自然语言处理领域权威数据集 GLUE 中登上榜首,并以 9 个任务平均得分首次突破 90 大关刷新该榜单历史,其超越微软 MTDNN-SMART, 谷歌 T5、ALBERT 等一众国际顶级预训练模型的表现。



众所周知,通用语言理解评估基准 GLUE 是自然语言处理领域最权威的排行榜之一,由纽约大学、华盛顿大学、谷歌 DeepMind 等机构联合推出,以其涵盖大量不同类型的 NLP 任务,包括自然语言推断、语义相似度、问答匹配、情感分析等 9 大任务,成为衡量自然语言处理研究进展的行业标准。因此,吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE 排行榜的效果,在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。此次能够超越国际顶尖公司及高校荣登榜首,背后是百度 NLP 技术的长足积累。


2018 年底以来,以 BERT 为代表的预训练模型大幅提升了自然语言处理任务的基准效果,取得了显著技术突破,基于大规模数据的预训练技术在自然语言处理领域变得至关重要。众 AI 公司纷纷发力预训练领域,相继发布了 XLNet、RoBERTa、ALBERT、T5 等预训练模型。百度也先后发布了 ERNIE 1.0、ERNIE 2.0,在 16 个中英数据集上取得了当时的 SOTA。


从 GLUE 排行榜上来看,BERT 使用预训练加微调的方式,相对过往的基线成绩大幅提升各任务的效果,首次突破了 80 大关。XLNet、RoBERTa、T5、MT-DNN-SMART 等模型则分布在 88-89 分范围,人类水平则是 87.1。


百度 ERNIE 此次登顶,成为首个突破 90 大关的模型,并在 CoLA、SST-2、QQP、WNLI 等数据集上达到 SOTA。相对 BERT 的 80.5 的成绩,提升近 10 个点,取得了显著的效果突破。



百度 ERNIE 2.0 原理示意图


ERNIE 2.0 持续学习的语义理解框架, 支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。


此次登顶的模型主要基于 ERNIE 2.0 持续学习语义理解框架下的系列优化。引入更多新预训练任务, 例如引入基于互信息的动态边界掩码算法。对预训练数据和模型结构也做了精细化调整。


同时,百度 ERNIE 2.0 的论文(https://arxiv.org/abs/1907.12412)已被国际人工智能顶级学术会议 AAAI-2020 收录,AAAI-2020 将于 2020 年 2 月 7 日-12 日在美国纽约举行, 届时百度的技术团队将会进一步展示近期的技术成果。


据悉,百度 ERNIE 预训练技术已广泛地应用于公司内外多个产品和技术场景,其在百度搜索、小度音箱、信息流推荐等一系列产品应用中提升技术效果和用户体验的同时也在逐步赋能各行各业。


2019-12-11 15:242077
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 486.0 次阅读, 收获喜欢 1963 次。

关注

评论

发布
暂无评论
发现更多内容

大规模数据如何实现数据的高效追溯

华为云开发者联盟

大数据 后端 华为云 企业号九月金秋榜

什么是数据质量管理?企业怎样做好数据质量管理?

雨果

数据质量

如何在 ACK 中使用 MSE Ingress

阿里巴巴中间件

阿里云 容器 微服务 云原生 ingress

Baklib|FAQ常见问题对产品推广的重要性

Baklib

产品 FAQ

写出优秀的产品手册文档的技巧

Baklib

文档 产品手册

学员在web前端培训机构应该怎么学习

小谷哥

Linux vim的使用和配置

挚爱光小胖

Linux vim教程

微服务治理热门技术揭秘:动态读写分离

阿里巴巴中间件

数据库 阿里云 微服务 云原生

5 分钟比较理解 require() vs import()

掘金安东尼

前端 9月月更

Java培训学习技术需要具备哪些能力

小谷哥

贝斯的圆桌趴 |科技公司内部 SaaS 工具大公开

Bytebase

OneFlow源码解析:Tensor类型体系与Local Tensor

OneFlow

深度学习 源码解析 算子

访问控制系统的质量评价

权说安全

网络安全 零信任 访问控制

干货 | 如何实现软件自动化部署?

嘉为蓝鲸

运维 IT 应用发布 应用部署

知识管理对企业的作用不容小觑

Baklib

知识管理 企业

Java开发培训的就业方向有哪些?

小谷哥

设计模式的艺术 第十四章享元设计模式练习(开发一个多功能文档编辑器,在文本文档中可以插入图片、动画、视频等多媒体资料。为了节省系统资源,相同的图片、动画和视频在同一个文档中只需保存一份,但是可以多次重复出现,而且它们每次出现时位置和大小均可不同)

代廉洁

设计模式的艺术

python os模块

zxhtom

9月月更

融云视频会议,助力政企高效协同

融云 RongCloud

会议 音视频技术 政企

怎么来选择大数据培训课程

小谷哥

Linux系统安装配置Tomcat

Linux Tomccat 9月月更

Android技术分享| Activity 过渡动画 — 让切换更加炫酷

anyRTC开发者

android 音视频 动画 移动开发 Activity

软件测试 | 测试开发 | Jenkins 踩坑(四)|基于接口自动化测试完成 Jenkins+GitHub+Allure 的结合

测吧(北京)科技有限公司

测试

elasticsearch的字符串动态映射

程序员欣宸

elasticsearch 9月月更

Spring源码解析(十一)Spring扩展接口InstantiationAwareBeanPostProcessor解析

石臻臻的杂货铺

spring 9月月更

TiFlash 源码解读(八)TiFlash 表达式的实现与设计

PingCAP

源码阅读 TiDB TiDB 源码解读

如何选择比较靠谱的数据培训班?

小谷哥

干货 | 企业数字化转型过程中,传统IT和数字型IT能否严格区分?

嘉为蓝鲸

运维 转型 IT 数字化 研发

零信任态势评估:安全控制自动化

权说安全

零信任 动态评估

太牛了,这是我见过把微服务讲的最全最好的SpringCloud架构进阶

程序知音

Java 架构 微服务 SpringCloud 后端技术

画一个 “月饼” 陪我过中秋,使用 ESP32-C3 制作炫彩月饼

矜辰所致

电路设计 ESP32-C3 9月月更

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单_AI&大模型_高高_InfoQ精选文章