比BERT提升近10个点！百度预训练模型ERNIE登顶GLUE榜单_AI&大模型_高高

【AICon】探索八个行业创新案例，教你在教育、金融、医疗、法律等领域实践大模型技术！ >>> 了解详情 



 写点什么

北京时间 12 月 10 日，百度预训练模型界 ERNIE 在自然语言处理领域权威数据集 GLUE 中登上榜首，并以 9 个任务平均得分首次突破 90 大关刷新该榜单历史，其超越微软 MTDNN-SMART, 谷歌 T5、ALBERT 等一众国际顶级预训练模型的表现。

众所周知，通用语言理解评估基准 GLUE 是自然语言处理领域最权威的排行榜之一，由纽约大学、华盛顿大学、谷歌 DeepMind 等机构联合推出，以其涵盖大量不同类型的 NLP 任务，包括自然语言推断、语义相似度、问答匹配、情感分析等 9 大任务，成为衡量自然语言处理研究进展的行业标准。因此，吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE 排行榜的效果，在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。此次能够超越国际顶尖公司及高校荣登榜首，背后是百度 NLP 技术的长足积累。

2018 年底以来，以 BERT 为代表的预训练模型大幅提升了自然语言处理任务的基准效果，取得了显著技术突破，基于大规模数据的预训练技术在自然语言处理领域变得至关重要。众 AI 公司纷纷发力预训练领域，相继发布了 XLNet、RoBERTa、ALBERT、T5 等预训练模型。百度也先后发布了 ERNIE 1.0、ERNIE 2.0，在 16 个中英数据集上取得了当时的 SOTA。

从 GLUE 排行榜上来看，BERT 使用预训练加微调的方式，相对过往的基线成绩大幅提升各任务的效果，首次突破了 80 大关。XLNet、RoBERTa、T5、MT-DNN-SMART 等模型则分布在 88-89 分范围，人类水平则是 87.1。

百度 ERNIE 此次登顶，成为首个突破 90 大关的模型，并在 CoLA、SST-2、QQP、WNLI 等数据集上达到 SOTA。相对 BERT 的 80.5 的成绩，提升近 10 个点，取得了显著的效果突破。

百度 ERNIE 2.0 原理示意图

ERNIE 2.0 持续学习的语义理解框架, 支持增量引入不同角度的自定义预训练任务，通过多任务学习对模型进行训练更新，每当引入新任务时，该框架可在学习该任务的同时，不遗忘之前学到过的信息。

此次登顶的模型主要基于 ERNIE 2.0 持续学习语义理解框架下的系列优化。引入更多新预训练任务, 例如引入基于互信息的动态边界掩码算法。对预训练数据和模型结构也做了精细化调整。

同时，百度 ERNIE 2.0 的论文（https://arxiv.org/abs/1907.12412）已被国际人工智能顶级学术会议 AAAI-2020 收录，AAAI-2020 将于 2020 年 2 月 7 日-12 日在美国纽约举行, 届时百度的技术团队将会进一步展示近期的技术成果。

据悉，百度 ERNIE 预训练技术已广泛地应用于公司内外多个产品和技术场景，其在百度搜索、小度音箱、信息流推荐等一系列产品应用中提升技术效果和用户体验的同时也在逐步赋能各行各业。

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

比 BERT 提升近 10 个点！百度预训练模型 ERNIE 登顶 GLUE 榜单

公众号推荐：

评论

小程序与微服务架构如何进行结合

ChatGPT“爆红”启示：工业AI如何掀起新型“工业革命”？

软件测试 | 普罗米修斯 - HTTP API调用PromQL

PCB板漏孔、漏槽怎么办？看工程师避坑“SOP”

安卓手机的网络权限，全网最全解答

API+DevOps：华为云API Arts一体化平台，端到端呵护您的API

软件测试| 普罗米修斯 - 基本使用

Airserver2023免费手机投屏电脑工具

Camtasia 2023体验版有哪些新功能

我嘞个去——原来软件开发根本不需要会编码（看我10分钟应用上线）

【网易云商】概念解读稳定性保障

OpenMLDB SQL 与标准 SQL 的主要差异

AntDB数据库首个社区版正式发布，携手生态更多可能

腾讯云助力河北打造人社一体化公共服务平台,显著提升治理能力和服务水平

解决方案| anyRTC 融合其他厂商视频会议系统方案

链上抢币机器人什么原理？夹子开发源码公开

江苏鸿程大数据：基于鲲鹏DevKit开发数据报告生成平台，数据库查询效率提升30%

猫咪在逐步壮大--PUSS通证深度解析

前端刷完这12道滑动窗口，就可以出山面试了

软件测试 | 跨平台设备管理方案Selenium Grid

mysongbook2023吉他谱永久免费版

Exposure2023绿色版本人像滤镜插件下载

存量设备 0 改造，平滑迁移阿里云 IoT 物联网平台最佳实践——实践类

软件测试 | 简历中应该如何描述才能体现出软技能的实力？

软件测试 | 普罗米修斯 - 自定义exporter

OpenMLDB 社区月报 | 2023 年 2 月

足不出户，搞定IoT设备故障诊断和恢复——实践类

ONES 获得 SOC2 Type1 鉴证报告，数据安全能力受权威认可

LP分红、加池分红U、杀机器人、防巨鲸、八代邀请分红的智能合约教程

FlagOpen大模型技术开源体系，开启大模型时代“新Linux”生态

软件测试 | HTTPS 的通信加解密过程，证书为什么更安全？

创作场景

比 BERT 提升近 10 个点！百度预训练模型 ERNIE 登顶 GLUE 榜单

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载