NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

全新 NLP 标准 SuperGLUE 问世:语言模型集体掉“分”,BERT 勉强过线

  • 2019-08-16
  • 本文字数:3979 字

    阅读完需:约 13 分钟

全新NLP标准SuperGLUE问世:语言模型集体掉“分”,BERT勉强过线

NLP 领域再获突破,Facebook AI 利用半监督学习技术与 RoBERTa 新方法,在第四届机器翻译大会上拔得头筹。随着 NLU 系统发展的不断加速,GLUE 榜单开始被各大“玩家”不断“刷分”,为了提高 NLP 技术“区分度”,Facebook AI 与纽约大学、DeepMind 以及华盛顿大学联合打造出SuperGLUE,为 NLP 研究设置了一项更高的标准。


自然语言理解(NLU)和语言翻译,可谓一系列重要应用的关键所在。在它们的帮助下,我们有望大规模识别并删除恶意内容,并将来自世界各地且使用不同语言的人们联系起来。不过,虽然近年来基于深度学习的方法加速了语言处理能力的提升,但在涉及那些难以获取大量标记训练数据的任务时,现有系统的功能仍然相当有限。


最近,Facebook AI 在 NLP 领域取得了令人印象深刻的突破。利用半监督与自监督学习技术,他们利用未标记数据实现了超越纯监督系统的性能表现。我们在第四届机器翻译大会(WMT19)比赛的多个语种项目中获得第一名,而这一切都要归功于这种全新的半监督训练方法。此外,我们还引入了一种新的自监督预训练方法,即 RoBERTa,其能够在多种语言理解任务中带来优于一切现有 NLU 系统的表现。在某些情况下,该系统甚至带来了优于人类基准的表现——包括英-德翻译以及另外五项 NLU 基准测试。总体来讲,NLU 系统的发展速度极为惊人,并开始在不少现有基准测试当中触及上限。为了继续推进最新技术的发展,我们与纽约大学(NYU)、DeepMind Technologies 以及华盛顿大学(UW)合作开发出一种全新基准测试、排名PyTorch工具包,其中包含我们希望在研究中进一步推动的各项挑战性任务。


这些新工具,将共同帮助我们创建出更为强大的内容理解系统,其有望翻译数百种语言并理解其中的模糊性元素、上下文参考以及常识推理等复杂问题——同时,减少大多数现有系统当中存在的、对大量标记训练数据的严重依赖。

翻译准确性迎来突破

对于神经机器翻译(NMT)模型而言,监督训练通常需要准备大量语句以作为翻译参考。然而,我们很难找到大量高质量的双语数据,这就迫使研究人员选择使用单语言数据。反向翻译(半监督学习技术)能够帮助我们在一定程度上克服这个问题。我们最近提交至 WMT 的内容,就建立在我们早期关于大规模抽样反向翻译的基础之上,而且当时我们就借此在去年的 WMT 大赛上拔得头筹。


今年,我们又引入了一种新方法:生成多种候选翻译内容,并选择其中在三种不同模型分数间最为平衡的项目作为最优答案,以进一步改进我们的翻译系统。这三种模型分别为正向、反向以及流畅。正向分数考察候选翻译结果能否准确捕捉原始句子的含义。反向分数取决于我们如何从候选翻译当中重建原始句子。而流畅分数则衡量候选翻译的流利程度,并通过查看大量单语数据通过自监督方式进行训练。在对这三项评分加以平衡之后,我们即可获得效果更好的翻译结果。


作为结果,与上一年相比,我们这一次将英语到德语翻译任务的表现提高了 4.5 BLEU(用于衡量所生成翻译内容,与专业参考内容之间重合程度的指标),这无疑是一项巨大的进步。根据人类专家的评估,我们的模型在四项翻译任务当中排名第一,分别为:英语到德语、德语到英语、英语到俄语、俄语到英语。另据 WMT 大赛评委的评估,我们在英语到德语的翻译表现上甚至已经优于人类翻译。



上图所示为这项技术的基本原理:首先,正向模型会翻译一个句子,例如从德语翻译为英语,并由此生成一组英语翻译或者说假设结果。接下来,反向模型将这些英语假设翻译成德语,并由系统评估由英语翻译出的德语与原本的德语句子之间的对比情况。最后,语言模型对英语翻译结果的流利程度做出判断。


我们还将训练扩大到规模更大的数据集当中,其中约包含由英语翻译为德语的约 100 亿字文本。与去年相比,我们在半监督训练中使用的文本总达到两倍以上,这进一步提高了翻译的准确率。

改进自监督的预训练方法

我们最近对自然语言处理(NLP)领域的最大突破之一做出了优化与改进,即由谷歌公司在 2018 年提出的 BERT,全称为基于双向 Transformer 的编码器表示。BERT 之所以具有革命性,是因为它证明了自监督训练技术有可能达到甚至超越传统标签密集型监督方法所能实现的性能。例如,我们可以利用 BERT 以及相关方法推动对话式 AI 的前沿研究、改进内容理解系统,并改善低资源与无监督场景下的翻译质量。


由于谷歌公司开源了 BERT,我们得以复制该项目并确定设计变更,从而进一步提高其有效性。我们引入了所谓健壮优化 BERT 预训练方案,简称 RoBERTa,也正是它为我们带来了这一波最新的理想结果。


RoBERTa 修改了 BERT 中的一些关键超参数,包括删除 BERT 的下一句预训练目标,并使用数量更多的小批量训练配合更高的学习率。与 BERT 相比,我们的整体数据量增长了十倍以上。这种方法也成功在当前广泛使用的 NLP 基准、通用语言理解评估(GLUE)以及通过考查的重新理解(RACE)方面取得了前所未有的好成绩。



以上图表展示了 RoBERTa 在各类任务中的实际结果,我们在其中预先传输了更长也更多的数据。可以看到,其在每一行当中都获得了比上一行更好的结果。


凭借着高达 88.5 的平均得分,RoBERTa 在 GLUE 排行榜上名列前茅,甚至足以匹敌平均得分为 88.4 的前任领先者 XLNet-Large。此外,RoBERTa 还在另几种语言理解基准中提升了最新技术水平,具体包括 MNLI、QNLI、RTE、STS-B 以及 RACE 任务等。


这一成就,源自我们在发掘不依赖数据标签的自监督系统性能与潜力方面投入的巨大努力。

NLP 研究的下一个前沿

作为衡量研究进展的行业性标准,GLUE 旨在涵盖大量 NLP 任务,因此在其中获取良好成绩的唯一方法就是构建起真正通用的工具,用以解决大部分新的语言理解问题。


在发布后的一年之内,一部分 NLP 模型(包括 RoBERTa)已经在 GLUE 基准测试当中超越了人类的表现。目前的模型已经提出一种令人惊讶的高效方法,能够将大型文本数据集中的语言模型预训练同简单的多任务、迁移学习技术结合起来。


这种快速进步,正是大规模 AI 社区共同合作的结果。通过一系列 NLP 竞赛、基准测试以及代码发布,如今我们终于能够不断加快模型复制、改进以及先进结果发布等工作的执行速度。随着 GPT 与 BERT 的推出,GLUE 的模型性能开始急剧上升,且最近开始与人类翻译表现发生交叉,如下图所示:



虽然目前的模型能够在特定 GLUE 任务当中超越人类表现,但其仍无法解决某些人类能够完美搞定的任务。为了给 NLP 研究设置一项更高的标准,Facebook AI 与纽约大学、DeepMind 以及华盛顿大学合作打造出 SuperGLUE。这是一项更为强大的基准,拥有全面的人类基准素材。我们也正在全面发布 SuperGLUE,希望帮助更多语言理解研究人员不断推进最新技术发展。


我们在原始与最新基准的创建当中,一直与多家合作伙伴保持协作,其中纽约大学长期引领着相关努力。SuperGLUE 遵循 GLUE 的开发思路,能够提供可总结各项 NLP 任务进度的个位数指标。除了新的基准测试之外,我们还发布了用于自展研究的排行榜与 PyTorch 工具包。


SuperGLUE 当中包含一系列相当困难的 NLP 任务,希望以这些侧重于机器学习领域内诸多核心创新方向(包样本效率、迁移、多任务以及自监督学习等)的任务为基础,帮助研究人员更好地测试自己的创造性新方法。为了挑战研究人员,我们选择了多种任务类型,包含大量最先进方法尚未解决、但人类却能轻松搞定的细微问题。为了检查这些任务,我们还为其收集了基于 BERT 以及人类翻译的基准测试数据。


这套新的基准包含八个不同且各具挑战的任务,包括选择合理的替代方案(COPA)——这是一项因果推理任务,系统会得到一个前提性句子,并需要从两个可能的选项当中选出与之相符的原因或结果。值得注意的是,人类在 COPA 当中拥有 100%的准确率表现,而 BERT 的准确率则只有 74%。这意味着其中还存在巨大的提升空间。


我们还在其中添加了不少独特的前沿组件,作为模型中测量偏见状况的诊断工具。具体来讲,我们引入了 Winogender,用于测试自动共参考解析系统当中是否存在性别偏见。SuperGLUE 还囊括一项名为 BooIQ 的问答任务,其中每个例子都包含一个简短的段落,以及与其内容相关的是或否判断问题;我们可以将其作为自然问题(Natural Questions)基准测试的理想代理。



上图所示为 SuperGLUE 中的五项示例任务。粗体文本代表各任务的一部分示例格式,斜体文本为模型输入的部分,带下划线的文本是输入中经过特殊标记的部分,而等宽字体则代表预期的模型输出结果。


类似于 GLUE,新的基准测试还包含面向语言理解任务建立而成的公开排行榜,其能够直接使用现有数据,并附有个位数性能指标与分析工具包。


我们最近针对新的基准对 RoBERTa 进行了测试,并发现其性能优于全部现有 NLU 系统,甚至在多语句阅读理解(MultiRC)任务中超越了人类表现。尽管如此,RoBERTa 在多项 SuperGLUE 任务中仍与人类基准存在巨大差距,这说明即使是当今最先进的 NLU 系统,也仍然具有不少局限。




为了进一步挑战 AI 系统的极限,我们还引入了第一套长篇幅问题回答数据集以及配套基准测试,这要求机器提升既长又复杂的答案——现有算法以往从未经历过这样的挑战。目前的问答系统专注于解决比较琐碎的问题,例如水母是否有大脑等。此次公布的新挑战,要求机器对开放式的问题做出深入解答以及详尽阐述,例如“水母是如何在没有大脑的情况下活动的?”现有算法在这方面的表现远远不及人类,而此次新挑战的出现将促使 AI 整合来自不同来源的信息,从而为开放式问题提供复杂的回应。


本文中提到的所有工作,都只是更为宏大的远景规划中的一部分,代表着迅速推进的语言处理技术的最新成果。通过发布新的进度衡量标准,引入半监督与自监督学习新方法,同时利用更大规模的数据进行训练,我们希望有效激发下一代创新方案的产生。相信通过这种相互挑战的持续发展方式,NLP 研究社区终将构建起更为强大的语言处理系统。


英文原文:New advances in natural language processing to better connect people


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-08-16 14:3113428

评论

发布
暂无评论
发现更多内容

组件简介 - 大屏云极简使用手册

shulinwu

数据可视化 大屏可视化 智慧大屏可视化 大屏

融云 IM 在 Electron 平台上的设计实践

融云 RongCloud

用好这28个工具,开发效率爆涨|云效工程师指北

阿里云云效

云计算 阿里云 云原生 研发工具 研发

数据可视化大屏 - 大屏云极简使用手册

shulinwu

可视化 数据可视化 大屏可视化 智慧大屏可视化 大屏

一文带你看懂HarmonyOS应用上架

HarmonyOS开发者

HarmonyOS 应用开发

徐徐春风迎3月,月度更文活动准点发车啦!

InfoQ写作社区官方

3月程序媛福利 3月月更 热门活动

Python 中 base64 编码与解码

AlwaysBeta

Python 程序员 编程语言 base64

虎符研究院关于 Manta Network平行链解决方案的分享

区块链前沿News

虎符交易所 币圈后浪

联通实时计算平台演进与实践

Apache Flink

大数据 flink 开源 编程 实时计算

大数据培训_文科生的你到底适不适合学习编程

@零度

大数据开发 培训学习

C++学习网站

C语言与CPP编程

c++

Android包体积优化上篇- 资源混淆优化

百度Geek说

百度 前端 后端 优化 包体积

跨团队协作:提高团队生产力的 7 种策略

小炮

团队管理 知识管理 团队协作 办公效率

数据系统提供商极道科技加入龙蜥社区

OpenAnolis小助手

Linux 开源 数据系统

“碳中和”背后的创新科技!

青云技术社区

云计算 碳中和

应用数仓ODBC前,这些问题你需要先了解一下

华为云开发者联盟

数据库 GaussDB(DWS) 驱动 ODBC 驱动管理器

vivo全球商城全球化演进之路—多语言解决方案

vivo互联网技术

架构 后端 服务器

星环 KunDB 2.2 发布,为高并发事务与查询混合的业务系统提供一个新选择

星环科技

数据库

星环科技ArgoDB 3.2正式发布,全面升级易用性、性能和安全

星环科技

数据库

低代码平台设计探索,如何更好赋能开发者

雯雯写代码

低代码 开发平台 开发者,

Elastic 与 AWS 和解、英伟达 660亿 收购 ARM 失败|2月开源月报

腾源会

开源 腾源会

云原生时代,政企混合云场景IT监控和诊断的难点和应对之道

华为云开发者联盟

微服务架构 混合云 华为云Stack IT监控 SDN网络

NFT盲盒商城游戏系统开发技术

薇電13242772558

NFT

赋能金融领域,国密改造让安全合规更加牢固

电子信息发烧客

安全

Java中停止线程的3种方式

CRMEB

2021年中国收藏玩具行业市场洞察分析

易观分析

盲盒 潮玩

活动预告 | DataOps + MLOps Meetup

第四范式开发者社区

人工智能 机器学习 开源 DevOps MLOps

云原生多云应用利器 -- Karmada 控制器

Daocloud 道客

Kubernetes 云原生 多云管理 Karmada

web前端培训_哪些学习方法对零基础比较有用

@零度

前端开发 培训学习

用 python selenium 爬简书,Python自动化领域之 Selenium WebDriver 学习第2篇

梦想橡皮擦

Python 3月月更

易观分析对《关于银行业保险业数字化转型的指导意见》的解读

易观分析

银行 数字化

全新NLP标准SuperGLUE问世:语言模型集体掉“分”,BERT勉强过线_AICon_Facebook 博客_InfoQ精选文章