全新NLP标准SuperGLUE问世：语言模型集体掉“分”，BERT勉强过线_AICon_Facebook 博客

阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见，现购票可享受 9 折优惠｜AICon 了解详情 



 写点什么

NLP 领域再获突破，Facebook AI 利用半监督学习技术与 RoBERTa 新方法，在第四届机器翻译大会上拔得头筹。随着 NLU 系统发展的不断加速，GLUE 榜单开始被各大“玩家”不断“刷分”，为了提高 NLP 技术“区分度”，Facebook AI 与纽约大学、DeepMind 以及华盛顿大学联合打造出SuperGLUE，为 NLP 研究设置了一项更高的标准。

自然语言理解（NLU）和语言翻译，可谓一系列重要应用的关键所在。在它们的帮助下，我们有望大规模识别并删除恶意内容，并将来自世界各地且使用不同语言的人们联系起来。不过，虽然近年来基于深度学习的方法加速了语言处理能力的提升，但在涉及那些难以获取大量标记训练数据的任务时，现有系统的功能仍然相当有限。

最近，Facebook AI 在 NLP 领域取得了令人印象深刻的突破。利用半监督与自监督学习技术，他们利用未标记数据实现了超越纯监督系统的性能表现。我们在第四届机器翻译大会（WMT19）比赛的多个语种项目中获得第一名，而这一切都要归功于这种全新的半监督训练方法。此外，我们还引入了一种新的自监督预训练方法，即 RoBERTa，其能够在多种语言理解任务中带来优于一切现有 NLU 系统的表现。在某些情况下，该系统甚至带来了优于人类基准的表现——包括英-德翻译以及另外五项 NLU 基准测试。总体来讲，NLU 系统的发展速度极为惊人，并开始在不少现有基准测试当中触及上限。为了继续推进最新技术的发展，我们与纽约大学（NYU）、DeepMind Technologies 以及华盛顿大学（UW）合作开发出一种全新基准测试、排名PyTorch工具包，其中包含我们希望在研究中进一步推动的各项挑战性任务。

这些新工具，将共同帮助我们创建出更为强大的内容理解系统，其有望翻译数百种语言并理解其中的模糊性元素、上下文参考以及常识推理等复杂问题——同时，减少大多数现有系统当中存在的、对大量标记训练数据的严重依赖。

翻译准确性迎来突破

对于神经机器翻译（NMT）模型而言，监督训练通常需要准备大量语句以作为翻译参考。然而，我们很难找到大量高质量的双语数据，这就迫使研究人员选择使用单语言数据。反向翻译（半监督学习技术）能够帮助我们在一定程度上克服这个问题。我们最近提交至 WMT 的内容，就建立在我们早期关于大规模抽样反向翻译的基础之上，而且当时我们就借此在去年的 WMT 大赛上拔得头筹。

今年，我们又引入了一种新方法：生成多种候选翻译内容，并选择其中在三种不同模型分数间最为平衡的项目作为最优答案，以进一步改进我们的翻译系统。这三种模型分别为正向、反向以及流畅。正向分数考察候选翻译结果能否准确捕捉原始句子的含义。反向分数取决于我们如何从候选翻译当中重建原始句子。而流畅分数则衡量候选翻译的流利程度，并通过查看大量单语数据通过自监督方式进行训练。在对这三项评分加以平衡之后，我们即可获得效果更好的翻译结果。

作为结果，与上一年相比，我们这一次将英语到德语翻译任务的表现提高了 4.5 BLEU（用于衡量所生成翻译内容，与专业参考内容之间重合程度的指标），这无疑是一项巨大的进步。根据人类专家的评估，我们的模型在四项翻译任务当中排名第一，分别为：英语到德语、德语到英语、英语到俄语、俄语到英语。另据 WMT 大赛评委的评估，我们在英语到德语的翻译表现上甚至已经优于人类翻译。

上图所示为这项技术的基本原理：首先，正向模型会翻译一个句子，例如从德语翻译为英语，并由此生成一组英语翻译或者说假设结果。接下来，反向模型将这些英语假设翻译成德语，并由系统评估由英语翻译出的德语与原本的德语句子之间的对比情况。最后，语言模型对英语翻译结果的流利程度做出判断。

我们还将训练扩大到规模更大的数据集当中，其中约包含由英语翻译为德语的约 100 亿字文本。与去年相比，我们在半监督训练中使用的文本总达到两倍以上，这进一步提高了翻译的准确率。

改进自监督的预训练方法

我们最近对自然语言处理（NLP）领域的最大突破之一做出了优化与改进，即由谷歌公司在 2018 年提出的 BERT，全称为基于双向 Transformer 的编码器表示。BERT 之所以具有革命性，是因为它证明了自监督训练技术有可能达到甚至超越传统标签密集型监督方法所能实现的性能。例如，我们可以利用 BERT 以及相关方法推动对话式 AI 的前沿研究、改进内容理解系统，并改善低资源与无监督场景下的翻译质量。

由于谷歌公司开源了 BERT，我们得以复制该项目并确定设计变更，从而进一步提高其有效性。我们引入了所谓健壮优化 BERT 预训练方案，简称 RoBERTa，也正是它为我们带来了这一波最新的理想结果。

RoBERTa 修改了 BERT 中的一些关键超参数，包括删除 BERT 的下一句预训练目标，并使用数量更多的小批量训练配合更高的学习率。与 BERT 相比，我们的整体数据量增长了十倍以上。这种方法也成功在当前广泛使用的 NLP 基准、通用语言理解评估（GLUE）以及通过考查的重新理解（RACE）方面取得了前所未有的好成绩。

以上图表展示了 RoBERTa 在各类任务中的实际结果，我们在其中预先传输了更长也更多的数据。可以看到，其在每一行当中都获得了比上一行更好的结果。

凭借着高达 88.5 的平均得分，RoBERTa 在 GLUE 排行榜上名列前茅，甚至足以匹敌平均得分为 88.4 的前任领先者 XLNet-Large。此外，RoBERTa 还在另几种语言理解基准中提升了最新技术水平，具体包括 MNLI、QNLI、RTE、STS-B 以及 RACE 任务等。

这一成就，源自我们在发掘不依赖数据标签的自监督系统性能与潜力方面投入的巨大努力。

NLP 研究的下一个前沿

作为衡量研究进展的行业性标准，GLUE 旨在涵盖大量 NLP 任务，因此在其中获取良好成绩的唯一方法就是构建起真正通用的工具，用以解决大部分新的语言理解问题。

在发布后的一年之内，一部分 NLP 模型（包括 RoBERTa）已经在 GLUE 基准测试当中超越了人类的表现。目前的模型已经提出一种令人惊讶的高效方法，能够将大型文本数据集中的语言模型预训练同简单的多任务、迁移学习技术结合起来。

这种快速进步，正是大规模 AI 社区共同合作的结果。通过一系列 NLP 竞赛、基准测试以及代码发布，如今我们终于能够不断加快模型复制、改进以及先进结果发布等工作的执行速度。随着 GPT 与 BERT 的推出，GLUE 的模型性能开始急剧上升，且最近开始与人类翻译表现发生交叉，如下图所示：

虽然目前的模型能够在特定 GLUE 任务当中超越人类表现，但其仍无法解决某些人类能够完美搞定的任务。为了给 NLP 研究设置一项更高的标准，Facebook AI 与纽约大学、DeepMind 以及华盛顿大学合作打造出 SuperGLUE。这是一项更为强大的基准，拥有全面的人类基准素材。我们也正在全面发布 SuperGLUE，希望帮助更多语言理解研究人员不断推进最新技术发展。

我们在原始与最新基准的创建当中，一直与多家合作伙伴保持协作，其中纽约大学长期引领着相关努力。SuperGLUE 遵循 GLUE 的开发思路，能够提供可总结各项 NLP 任务进度的个位数指标。除了新的基准测试之外，我们还发布了用于自展研究的排行榜与 PyTorch 工具包。

SuperGLUE 当中包含一系列相当困难的 NLP 任务，希望以这些侧重于机器学习领域内诸多核心创新方向（包样本效率、迁移、多任务以及自监督学习等）的任务为基础，帮助研究人员更好地测试自己的创造性新方法。为了挑战研究人员，我们选择了多种任务类型，包含大量最先进方法尚未解决、但人类却能轻松搞定的细微问题。为了检查这些任务，我们还为其收集了基于 BERT 以及人类翻译的基准测试数据。

这套新的基准包含八个不同且各具挑战的任务，包括选择合理的替代方案（COPA）——这是一项因果推理任务，系统会得到一个前提性句子，并需要从两个可能的选项当中选出与之相符的原因或结果。值得注意的是，人类在 COPA 当中拥有 100%的准确率表现，而 BERT 的准确率则只有 74%。这意味着其中还存在巨大的提升空间。

我们还在其中添加了不少独特的前沿组件，作为模型中测量偏见状况的诊断工具。具体来讲，我们引入了 Winogender，用于测试自动共参考解析系统当中是否存在性别偏见。SuperGLUE 还囊括一项名为 BooIQ 的问答任务，其中每个例子都包含一个简短的段落，以及与其内容相关的是或否判断问题；我们可以将其作为自然问题（Natural Questions）基准测试的理想代理。

上图所示为 SuperGLUE 中的五项示例任务。粗体文本代表各任务的一部分示例格式，斜体文本为模型输入的部分，带下划线的文本是输入中经过特殊标记的部分，而等宽字体则代表预期的模型输出结果。

类似于 GLUE，新的基准测试还包含面向语言理解任务建立而成的公开排行榜，其能够直接使用现有数据，并附有个位数性能指标与分析工具包。

我们最近针对新的基准对 RoBERTa 进行了测试，并发现其性能优于全部现有 NLU 系统，甚至在多语句阅读理解（MultiRC）任务中超越了人类表现。尽管如此，RoBERTa 在多项 SuperGLUE 任务中仍与人类基准存在巨大差距，这说明即使是当今最先进的 NLU 系统，也仍然具有不少局限。

为了进一步挑战 AI 系统的极限，我们还引入了第一套长篇幅问题回答数据集以及配套基准测试，这要求机器提升既长又复杂的答案——现有算法以往从未经历过这样的挑战。目前的问答系统专注于解决比较琐碎的问题，例如水母是否有大脑等。此次公布的新挑战，要求机器对开放式的问题做出深入解答以及详尽阐述，例如“水母是如何在没有大脑的情况下活动的？”现有算法在这方面的表现远远不及人类，而此次新挑战的出现将促使 AI 整合来自不同来源的信息，从而为开放式问题提供复杂的回应。

本文中提到的所有工作，都只是更为宏大的远景规划中的一部分，代表着迅速推进的语言处理技术的最新成果。通过发布新的进度衡量标准，引入半监督与自监督学习新方法，同时利用更大规模的数据进行训练，我们希望有效激发下一代创新方案的产生。相信通过这种相互挑战的持续发展方式，NLP 研究社区终将构建起更为强大的语言处理系统。

英文原文:New advances in natural language processing to better connect people

公众号推荐：

2024 年 1 月，InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》，揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步，预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」，回复「大模型报告」免费获取电子版研究报告。

发布

暂无评论

创作场景

全新 NLP 标准 SuperGLUE 问世：语言模型集体掉“分”，BERT 勉强过线

翻译准确性迎来突破

改进自监督的预训练方法

NLP 研究的下一个前沿

公众号推荐：

评论

技术干货 | 如何在 Library 中使用/依赖 mPaaS？

《本人娶刘亦菲的可行性报告》原文

剖析MySQL黑盒——MySQL架构设计

腾讯云发布“创新成长快线”，首期向创业者赠送10亿分钟实时音视频时长

分布式消息中间件（1）：Rabbitmq入门到高可用实战！学会了这个还怕被B站面试官看不起？

chia奇亚分币软件开发|chia奇亚分币APP系统开发

JAVA 中 -> 是什么意思？

推荐一个还不错的YouTube视频下载软件

xch挖矿APP开发|xch挖矿系统软件开发

【死磕JVM】什么是JVM调优？

聪明人的训练（二十六）

洞悉MySQL底层架构：一举拿下腾讯美团滴滴offer，持续更新中

linux高性能服务器编程--高性能服务器程序框架

分布式消息中间件（2）：Kafka系统学习—集群搭建与使用、副本机制和实时日志统计流程

聚力边缘计算共建数字中国丨浪潮边缘云ICP Edge 2.0 全新发布

SpringCloud整合统一异常处理

成功入职腾讯大厂分享我的成功秘籍：10W字复习大纲手册

系统高可用之健康检查和健康度量那些事

chia奇亚挖矿软件开发|chia奇亚挖矿APP系统开发

开发也可以如此简单！华为云发布两款开发工具

数据驱动的元数据组件

Substrate 合约书之合约语言框架

为工地装上大脑，落实企业安全管理责任

云原生开发者须具备的1+N技能，开启第二曲线

Android 关于CPU类型的so文件兼容问题（ABI）

刹车失灵，数据的刹车是否也会失灵？

IT 专业的高校大学生编程技能及就业问卷调研

百度集团资深副总裁李震宇：Apollo开放平台打造全球最强自动驾驶量产引擎助力车企造好车

java单元测试代码自动生成

合作伙伴眼中的鸿蒙，专访海雀科技研发总监李尹

怎么理解组织？

创作场景

全新 NLP 标准 SuperGLUE 问世：语言模型集体掉“分”，BERT 勉强过线

翻译准确性迎来突破

改进自监督的预训练方法

NLP 研究的下一个前沿

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载