写点什么

比 BERT 提升近 10 个点!百度预训练模型 ERNIE 登顶 GLUE 榜单

  • 2019-12-11
  • 本文字数:1079 字

    阅读完需:约 4 分钟

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单

北京时间 12 月 10 日,百度预训练模型界 ERNIE 在自然语言处理领域权威数据集 GLUE 中登上榜首,并以 9 个任务平均得分首次突破 90 大关刷新该榜单历史,其超越微软 MTDNN-SMART, 谷歌 T5、ALBERT 等一众国际顶级预训练模型的表现。



众所周知,通用语言理解评估基准 GLUE 是自然语言处理领域最权威的排行榜之一,由纽约大学、华盛顿大学、谷歌 DeepMind 等机构联合推出,以其涵盖大量不同类型的 NLP 任务,包括自然语言推断、语义相似度、问答匹配、情感分析等 9 大任务,成为衡量自然语言处理研究进展的行业标准。因此,吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE 排行榜的效果,在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。此次能够超越国际顶尖公司及高校荣登榜首,背后是百度 NLP 技术的长足积累。


2018 年底以来,以 BERT 为代表的预训练模型大幅提升了自然语言处理任务的基准效果,取得了显著技术突破,基于大规模数据的预训练技术在自然语言处理领域变得至关重要。众 AI 公司纷纷发力预训练领域,相继发布了 XLNet、RoBERTa、ALBERT、T5 等预训练模型。百度也先后发布了 ERNIE 1.0、ERNIE 2.0,在 16 个中英数据集上取得了当时的 SOTA。


从 GLUE 排行榜上来看,BERT 使用预训练加微调的方式,相对过往的基线成绩大幅提升各任务的效果,首次突破了 80 大关。XLNet、RoBERTa、T5、MT-DNN-SMART 等模型则分布在 88-89 分范围,人类水平则是 87.1。


百度 ERNIE 此次登顶,成为首个突破 90 大关的模型,并在 CoLA、SST-2、QQP、WNLI 等数据集上达到 SOTA。相对 BERT 的 80.5 的成绩,提升近 10 个点,取得了显著的效果突破。



百度 ERNIE 2.0 原理示意图


ERNIE 2.0 持续学习的语义理解框架, 支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。


此次登顶的模型主要基于 ERNIE 2.0 持续学习语义理解框架下的系列优化。引入更多新预训练任务, 例如引入基于互信息的动态边界掩码算法。对预训练数据和模型结构也做了精细化调整。


同时,百度 ERNIE 2.0 的论文(https://arxiv.org/abs/1907.12412)已被国际人工智能顶级学术会议 AAAI-2020 收录,AAAI-2020 将于 2020 年 2 月 7 日-12 日在美国纽约举行, 届时百度的技术团队将会进一步展示近期的技术成果。


据悉,百度 ERNIE 预训练技术已广泛地应用于公司内外多个产品和技术场景,其在百度搜索、小度音箱、信息流推荐等一系列产品应用中提升技术效果和用户体验的同时也在逐步赋能各行各业。


2019-12-11 15:242353
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 570.5 次阅读, 收获喜欢 1979 次。

关注

评论

发布
暂无评论
发现更多内容

今日头条一面:十道经典面试题解析,Redis如何实现高可扩展

Java 程序员 后端

从一次线下读书会获得的收获,linux使用教程

Java 程序员 后端

CANN 5.0黑科技解密 | 算力虚拟化,让AI算力“物尽其用”

华为云开发者联盟

AI 算力 CANN 昇腾 算力虚拟化

从构建小系统到架构分布式大系统,Spring Boot2的精髓全在这里了

Java 程序员 后端

从腾讯T3-3大佬手上获得的Java架构进阶PDF文档,图文并茂,真香(1)

Java 程序员 后端

从腾讯T3-3大佬手上获得的Java架构进阶PDF文档,图文并茂,真香

Java 程序员 后端

今年,我在字节跳动面试了九次【已意向书,mongodb入门pdf

Java 程序员 后端

架构实战营-毕业总结

王晓宇

架构实战营

从 0 到 1,带你解剖 MVP 的神秘之处,并自己动手实现 MVP !

Java 程序员 后端

优秀如我毅然和女票分手,面试字节跳动技术四面吊打面试官,终获取到Offer

Java 程序员 后端

你们初刷leetcode时会怀疑自己的智商吗?,java中级面试题下载

Java 程序员 后端

从Java小白到拿到30k offer,分享自己的学习路程,java基础案例教程pdf百度云

Java 程序员 后端

从某度外包逆袭成为阿里架构师,分享我的Java进阶成长笔记

Java 程序员 后端

作为java程序员,在金三银四季你遇到过哪些质量很高的java面试?

Java 程序员 后端

你技术这么好,总要改变点什么把!(1),2021我的Java大厂面试之旅

Java 程序员 后端

你知道你和高薪的距离在哪里吗?这份“并发编程笔记,redis分布式锁原理java

Java 程序员 后端

代码简洁之道--笔记,2021华为Java面试真题

Java 程序员 后端

优质高效!基于Spring-boot-admin的微服务监控系统实现

Java 程序员 后端

你以为在做的是微服务?不!你只是做了个比单体还糟糕的分布式单体

Java 程序员 后端

从Mybatis源码到Spring动态数据源底层原理分析系列一、Mybatis初始化源码浅析

Java 程序员 后端

从单体式架构迁移到微服务架构,3年Java开发工程师面试经验分享

Java 程序员 后端

以GraalVM原生镜像的方式运行Spring Boot应用程序,mybatisjoin原理

Java 程序员 后端

你不会仅仅把Redis作为缓存的工具吧?给你一亿个keys,如何高效统计

Java 程序员 后端

你技术这么好,总要改变点什么把!,java面试项目中你遇到的难题

Java 程序员 后端

你知道 Java 类是如何被加载的吗?,mybatis从入门到精通pdf百度云

Java 程序员 后端

从小公司跳槽到阿里,靠着刷多套面试题,成功拿到蚂蚁金服P7Offer

Java 程序员 后端

优化技术专题-线程间的高性能消息框架-深入浅出Disruptor的使用和原理

Java 程序员 后端

从Mybatis源码到Spring动态数据源底层原理分析系列二、Mybatis执行器源码分析

Java 程序员 后端

下班约会时来了新需求,咋办?

华为云开发者联盟

ide 开发 代码 华为云 华为云DevStar

作为分布式服务框架,我用大白话给你解释Zookeeper的选举机制!

Java 程序员 后端

你曾遇到过哪些大厂的-Java-面试?,mysql入门书籍哪本好

Java 程序员 后端

比BERT提升近10个点!百度预训练模型ERNIE登顶GLUE榜单_AI&大模型_高高_InfoQ精选文章