写点什么

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

2021 年 1 月 14 日

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

隶属于 Facebook、纽约大学(NYU)、华盛顿大学和 DeepMind 的研究人员在 2019 年底推出了SuperGLUE,这是一种新的人工智能基准,用于总结各种语言任务的研究进展。基于去年发布的 GLUE 基准,SuperGLUE 包含了一系列更难的语言理解挑战、改进的资源以及公开的排行榜


在 SuperGLUE 推出时,在排行榜上,表现最好的模型和人类的表现有近 20 分的差距。但截至 1 月初,有两个模型,一个是来自微软的 DeBERTa,另一个是来自谷歌的 T5+Meena,它们已经超越了人类的基准线,成为第一批超越人类的模型。


纽约大学数据科学中心助理教授 Sam Bowman 表示,这一成就反映了机器学习的创新,包括自监督学习,即模型从未标记的数据集中学习,并制定了将洞察力用于目标任务的方法。


“这些数据集反映了一些最难的监督语言理解任务数据集,这些数据集在两年前是免费提供的。没有理由相信 SuperGLUE 将能够检测到自然语言处理的进一步进展,至少会超过剩下的一小部分”,Sam Bowman 说。


但是 SuperGLUE 并非人类语言能力的完美测试,也并非完整测试。DeBERTa 背后的微软团队在一篇博文中也指出,他们的模型“绝非”达到自然语言理解的人类级智能。他们表示,这需要研究突破,以及衡量它们及其效果的新基准。


SuperGLUE


正如研究人员在介绍 SuperGLUE 的论文《SuperGLUE:通用语言理解系统更严格的基准》(SuperGLUE: A Stickier Benchmark forGeneral-Purpose Language Understanding Systems)所写的那样,他们的基准旨在成为一个简单的而又有难度的衡量标准,用以衡量英语通用语言理解技术的进展。它包括 8 个语言理解任务,它们来自于已有的数据,并配有性能度量和分析工具包。


这些任务是:


  • 布尔问题(Boolean Questions,BoolQ):要求模型回答一个关于维基百科文章中包含答案的短文的问题。这是一些谷歌用户通过谷歌搜索提交的问题。


  • CommitmentBankCB):要求模型识别 文本中包含的假设,包括《华尔街日报》的信息来源,并确定该假设是否成立。


  • 合理选择(Choice of plausible alternatives,COPA): 提供了一个关于博客主题的前提语句,以及一本与摄影相关的百科全书,模型必须从中确定两种可能选择的因果关系。


  • 多句阅读理解(Multi-Sentence Reading Comprehension,MultiRC):这是一项问答式的任务,其中每个样本都包含一段上下文段落、一个关于该段落的问题,以及一系列可能的答案。一种模型必须预测哪些答案是真的,哪些答案是假的。


  • 基于常识推理数据集的阅读理解(Reading Comprehension with Commonsense Reasoning Dataset,ReCoRD):模型根据 CNN 和《每日邮报》的选文列表中预测被掩盖的单词和短语,在这些选文中,同一单词或短语可能以多种不同的形式表达,所有这些都被认为是正确的。


  • 识别文本内容(Recognizing Textual Entailment,RTE):挑战自然语言模型,以确定一个文本摘录的真实性是否来自另一个文本摘录。


  • Word-in-ContextWiC):为两个文本片段和一个多义词(即具有多重含义的单词)提供模型,并要求它们判定这个单词是否在两个句子中有相同的含义。


  • Winograd 模式挑战(Winograd Schema Challenge,WSC):是一项任务,在这项任务中,模型给定小说书中的段落,必须回答关于歧义代词先行词的多项选择题。它被设计为图灵测试的改进。


SuperGLUE 也尝试在 Winogender 图式的模型中测量性别偏见,这些模型是仅由句子中某一代词的性别不同的句对。


但,研究人员指出,这种方法有其局限性,因为它只能提供积极的预测值:较差的偏见分数清楚地表明模型显示出性别偏见,而良好的分数并不意味着模型是无偏见的。而且,它并不包括一切形式的性别或社会偏见,因此它只是一种粗略的偏见衡量标准。


为了建立人类表现的基线,研究人员借鉴了 WiC、MultiRC、RTE 和 ReCoRD 的现有文献,并通过亚马逊的 Mechanical Turk 平台雇佣了众包注释员。


每个众包人员每小时的平均工资为 23.75 美元,他们完成了一个短期培训阶段,之后才会使用说明和常见问题来对多达 30 个选定测试集样本进行注释。

架构改进


尽管 DeBERTa 背后的微软研究人员在 1 月 6 日发表的一篇题为《微软 DeBERT 在 SuperGLUE 基准上超越人类》(Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark)的博文中提供了他们的工作细节,但是谷歌团队还没有提供关于其模型性能改进的细节。


DeBERTa 并非新鲜事,它是去年开源的,但研究人员表示,他们已经训出练一个包含 15 亿个参数(即模型用来进行预测的内部变量)的更大版本。它将以开源的方式发布,并集成到下一个版本的微软图灵自然语言表示模型中,支持诸如 Bing、Office、Dynamics 和 Azure 认知服务等产品。


DeBERTa 是通过掩蔽语言建模进行预训练的,这是一项填空任务,教会模型使用与被掩蔽标记相关的词来预测被掩蔽的词应该是什么。DeBERTa 利用上下文词的内容和位置信息来建立掩蔽语言模型,比如它能够识别出“a new store opened beside the new mall”句子中的“store”和“mall”扮演着不同的句法角色。


与其他一些模型不同的是,DeBERTa 在语言建模过程中将词的绝对位置考虑在内。此外,它还对模型中转换后的输入数据进行参数计算,并根据词的相对位置衡量词之间依赖关系的强弱。举例来说,DeBERTa 会理解“deep”和“learning”这两个词相邻出现时,依赖关系要比单独出现在不同句子中更强。


DeBERTa 还受益于对抗训练,这种技术利用对训练数据进行小幅度改变而获得的对抗样本。在训练过程中,这些对抗样本被输入到模型中,提高了模型的泛化能力。


微软研究人员希望下一步探索如何让 DeBERTa 能够泛化到新的子任务或基本的解决问题的能力,这个概念被称为“合成泛化”(compositional generalization)。未来的一条路可能是更加明确地融合所谓的合成结构,这可能需要将人工智能与符号推理,换句话说,按照数学和逻辑规则操纵符号和表达式。


“DeBERTa 在 SuperGLUE 上超越人类的表现标志着向通用人工智能迈进的重要里程碑,”微软研究人员写道。“但与 DeBERTa 不同的是,人类非常善于利用从不同任务中学到的知识来解决一个新的任务,并不需要或很少需要特定任务的演示。”


新基准


根据 Bowman 的说法,SuperGLUE 的继任者尚未出现,至少在短期内是如此。但是人工智能研究界越来越多的共识是,未来的基准,特别是在语言领域,要起作用,就必须考虑到更广泛的伦理、技术和社会挑战。


例如,一些研究表明,流行的基准在评估现实中的人工智能性能方面效果不佳。一份最新报告显示,自然语言处理模型给出的 60%~70% 的答案都嵌入在基准训练集中,这表明模型通常只是在记忆答案。在对超过 3000 篇人工智能论文进行的元分析中,另一项研究发现,用来衡量人工智能和机器学习模型的指标往往不一致,追踪不规则,并且信息也不特别丰富。


一部分原因是因为诸如 OpenAI 的GPT-3、谷歌的 T5+Meena 和微软的 DeBERTa 这样的语言模型,通过将公共网络中的样本内化,学会了如何写出与人类相似的文本。它们使用诸如电子书、维基百科和 Reddit 这样的社会媒体平台来推断整句话甚至整段话。


结果是,语言模型经常会放大这些公共数据中编码的偏见;部分培训数据并非不常见,它们来自具有普遍性别、种族和宗教偏见的社区。 OpenAI 是一家人工智能研究公司,它指出,这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边,把“Islam”放在 terrorism 旁边。


今年 4 月,英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员发表了一份研究报告,报告指出,一些最流行的模型存在着很强的刻板印象,包括谷歌的BERTXLNet、OpenAI 的GPT-2和 Facebook 的RoBERTa


据 Middlebury Institute of International Studies 称,恶意行为者可能会利用这种偏见,通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐,从而“使个人处于极端的极右思想和行为之中,成为暴力的个人”。


大部分已有的语言基准不能捕捉到这一点。在 SuperGLUE 发表的两年中,它的发现激发了人们,或许未来的基准可以做到这一点。


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

2021 年 1 月 14 日 14:29852
用户头像
刘燕 InfoQ记者

发布了 506 篇内容, 共 156.8 次阅读, 收获喜欢 937 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营

请简述 JVM 垃圾回收原理

orchid9

第九周学习总结

Meow

第九周作业

solike

一致性hash算法

落朽

极客时间架构 1 期:第 9 周 性能优化(三) - 学习总结

Null

极客时间架构 1 期:第 9 周 性能优化(三) - 命题作业

Null

大数据和Hadoop平台介绍

MySQL从删库到跑路

大数据 hadoop

训练营第五周作业

大脸猫

极客大学架构师训练营

Snowpack - 更快的前端构建工具

曲迪

效率工具 前端 前端工程化 前端进阶

数据库工程师整理最常见mysql面试题,每一道都是工作面试经典

小Q

MySQL 数据库 学习 架构 面试

第五周学习总结

晴空万里

极客大学架构师训练营

常见的负载均衡实现方案

幸福小子

负载均衡架构

第五周 作业

Geek_9527

week5 作业二

shuyaxx

文件上传踩坑记及文件清理原理探究

比伯

Java 大数据 编程 架构 计算机

第9周作业2

Yangjing

极客大学架构师训练营

第五周作业

晴空万里

极客大学架构师训练营

第九周作业

极客大学架构师训练营

Netty源码解析 -- 对象池Recycler实现原理

binecy

Netty 对象存储 高性能

第九周学习总结

orchid9

第九周作业

Meow

第九周作业总结

Geek_ce484f

极客大学架构师训练营

训练营第九周作业 2

仲夏

极客大学架构师训练营

架构师训练营 1 期 - 第九周作业(vaik)

行之

极客大学架构师训练营

Python进阶——如何正确使用魔法方法?(上)

Kaito

Python

架构师 01 期,第九周课后作业

子文

架构师训练营第九周课后练习

薛凯

架构师训练营 1 期 - 第九周总结(vaik)

行之

极客大学架构师训练营

第九周作业

Geek_ce484f

极客大学架构师训练营

一致性 hash 算法的实现

幸福小子

一致性Hash算法

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现-InfoQ