写点什么

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

  • 2021-01-14
  • 本文字数:3340 字

    阅读完需:约 11 分钟

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

隶属于 Facebook、纽约大学(NYU)、华盛顿大学和 DeepMind 的研究人员在 2019 年底推出了SuperGLUE,这是一种新的人工智能基准,用于总结各种语言任务的研究进展。基于去年发布的 GLUE 基准,SuperGLUE 包含了一系列更难的语言理解挑战、改进的资源以及公开的排行榜


在 SuperGLUE 推出时,在排行榜上,表现最好的模型和人类的表现有近 20 分的差距。但截至 1 月初,有两个模型,一个是来自微软的 DeBERTa,另一个是来自谷歌的 T5+Meena,它们已经超越了人类的基准线,成为第一批超越人类的模型。


纽约大学数据科学中心助理教授 Sam Bowman 表示,这一成就反映了机器学习的创新,包括自监督学习,即模型从未标记的数据集中学习,并制定了将洞察力用于目标任务的方法。


“这些数据集反映了一些最难的监督语言理解任务数据集,这些数据集在两年前是免费提供的。没有理由相信 SuperGLUE 将能够检测到自然语言处理的进一步进展,至少会超过剩下的一小部分”,Sam Bowman 说。


但是 SuperGLUE 并非人类语言能力的完美测试,也并非完整测试。DeBERTa 背后的微软团队在一篇博文中也指出,他们的模型“绝非”达到自然语言理解的人类级智能。他们表示,这需要研究突破,以及衡量它们及其效果的新基准。


SuperGLUE


正如研究人员在介绍 SuperGLUE 的论文《SuperGLUE:通用语言理解系统更严格的基准》(SuperGLUE: A Stickier Benchmark forGeneral-Purpose Language Understanding Systems)所写的那样,他们的基准旨在成为一个简单的而又有难度的衡量标准,用以衡量英语通用语言理解技术的进展。它包括 8 个语言理解任务,它们来自于已有的数据,并配有性能度量和分析工具包。


这些任务是:


  • 布尔问题(Boolean Questions,BoolQ):要求模型回答一个关于维基百科文章中包含答案的短文的问题。这是一些谷歌用户通过谷歌搜索提交的问题。


  • CommitmentBankCB):要求模型识别 文本中包含的假设,包括《华尔街日报》的信息来源,并确定该假设是否成立。


  • 合理选择(Choice of plausible alternatives,COPA): 提供了一个关于博客主题的前提语句,以及一本与摄影相关的百科全书,模型必须从中确定两种可能选择的因果关系。


  • 多句阅读理解(Multi-Sentence Reading Comprehension,MultiRC):这是一项问答式的任务,其中每个样本都包含一段上下文段落、一个关于该段落的问题,以及一系列可能的答案。一种模型必须预测哪些答案是真的,哪些答案是假的。


  • 基于常识推理数据集的阅读理解(Reading Comprehension with Commonsense Reasoning Dataset,ReCoRD):模型根据 CNN 和《每日邮报》的选文列表中预测被掩盖的单词和短语,在这些选文中,同一单词或短语可能以多种不同的形式表达,所有这些都被认为是正确的。


  • 识别文本内容(Recognizing Textual Entailment,RTE):挑战自然语言模型,以确定一个文本摘录的真实性是否来自另一个文本摘录。


  • Word-in-ContextWiC):为两个文本片段和一个多义词(即具有多重含义的单词)提供模型,并要求它们判定这个单词是否在两个句子中有相同的含义。


  • Winograd 模式挑战(Winograd Schema Challenge,WSC):是一项任务,在这项任务中,模型给定小说书中的段落,必须回答关于歧义代词先行词的多项选择题。它被设计为图灵测试的改进。


SuperGLUE 也尝试在 Winogender 图式的模型中测量性别偏见,这些模型是仅由句子中某一代词的性别不同的句对。


但,研究人员指出,这种方法有其局限性,因为它只能提供积极的预测值:较差的偏见分数清楚地表明模型显示出性别偏见,而良好的分数并不意味着模型是无偏见的。而且,它并不包括一切形式的性别或社会偏见,因此它只是一种粗略的偏见衡量标准。


为了建立人类表现的基线,研究人员借鉴了 WiC、MultiRC、RTE 和 ReCoRD 的现有文献,并通过亚马逊的 Mechanical Turk 平台雇佣了众包注释员。


每个众包人员每小时的平均工资为 23.75 美元,他们完成了一个短期培训阶段,之后才会使用说明和常见问题来对多达 30 个选定测试集样本进行注释。

架构改进


尽管 DeBERTa 背后的微软研究人员在 1 月 6 日发表的一篇题为《微软 DeBERT 在 SuperGLUE 基准上超越人类》(Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark)的博文中提供了他们的工作细节,但是谷歌团队还没有提供关于其模型性能改进的细节。


DeBERTa 并非新鲜事,它是去年开源的,但研究人员表示,他们已经训出练一个包含 15 亿个参数(即模型用来进行预测的内部变量)的更大版本。它将以开源的方式发布,并集成到下一个版本的微软图灵自然语言表示模型中,支持诸如 Bing、Office、Dynamics 和 Azure 认知服务等产品。


DeBERTa 是通过掩蔽语言建模进行预训练的,这是一项填空任务,教会模型使用与被掩蔽标记相关的词来预测被掩蔽的词应该是什么。DeBERTa 利用上下文词的内容和位置信息来建立掩蔽语言模型,比如它能够识别出“a new store opened beside the new mall”句子中的“store”和“mall”扮演着不同的句法角色。


与其他一些模型不同的是,DeBERTa 在语言建模过程中将词的绝对位置考虑在内。此外,它还对模型中转换后的输入数据进行参数计算,并根据词的相对位置衡量词之间依赖关系的强弱。举例来说,DeBERTa 会理解“deep”和“learning”这两个词相邻出现时,依赖关系要比单独出现在不同句子中更强。


DeBERTa 还受益于对抗训练,这种技术利用对训练数据进行小幅度改变而获得的对抗样本。在训练过程中,这些对抗样本被输入到模型中,提高了模型的泛化能力。


微软研究人员希望下一步探索如何让 DeBERTa 能够泛化到新的子任务或基本的解决问题的能力,这个概念被称为“合成泛化”(compositional generalization)。未来的一条路可能是更加明确地融合所谓的合成结构,这可能需要将人工智能与符号推理,换句话说,按照数学和逻辑规则操纵符号和表达式。


“DeBERTa 在 SuperGLUE 上超越人类的表现标志着向通用人工智能迈进的重要里程碑,”微软研究人员写道。“但与 DeBERTa 不同的是,人类非常善于利用从不同任务中学到的知识来解决一个新的任务,并不需要或很少需要特定任务的演示。”


新基准


根据 Bowman 的说法,SuperGLUE 的继任者尚未出现,至少在短期内是如此。但是人工智能研究界越来越多的共识是,未来的基准,特别是在语言领域,要起作用,就必须考虑到更广泛的伦理、技术和社会挑战。


例如,一些研究表明,流行的基准在评估现实中的人工智能性能方面效果不佳。一份最新报告显示,自然语言处理模型给出的 60%~70% 的答案都嵌入在基准训练集中,这表明模型通常只是在记忆答案。在对超过 3000 篇人工智能论文进行的元分析中,另一项研究发现,用来衡量人工智能和机器学习模型的指标往往不一致,追踪不规则,并且信息也不特别丰富。


一部分原因是因为诸如 OpenAI 的GPT-3、谷歌的 T5+Meena 和微软的 DeBERTa 这样的语言模型,通过将公共网络中的样本内化,学会了如何写出与人类相似的文本。它们使用诸如电子书、维基百科和 Reddit 这样的社会媒体平台来推断整句话甚至整段话。


结果是,语言模型经常会放大这些公共数据中编码的偏见;部分培训数据并非不常见,它们来自具有普遍性别、种族和宗教偏见的社区。 OpenAI 是一家人工智能研究公司,它指出,这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边,把“Islam”放在 terrorism 旁边。


今年 4 月,英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员发表了一份研究报告,报告指出,一些最流行的模型存在着很强的刻板印象,包括谷歌的BERTXLNet、OpenAI 的GPT-2和 Facebook 的RoBERTa


据 Middlebury Institute of International Studies 称,恶意行为者可能会利用这种偏见,通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐,从而“使个人处于极端的极右思想和行为之中,成为暴力的个人”。


大部分已有的语言基准不能捕捉到这一点。在 SuperGLUE 发表的两年中,它的发现激发了人们,或许未来的基准可以做到这一点。


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

2021-01-14 14:291952
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 535.3 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

怎么填充PPT底色?分享2个办公必备的PPT技巧!

彭宏豪95

职场 PPT PPT模板 办公软件 AI生成PPT

Python的众多包管理器

我再BUG界嘎嘎乱杀

Python 编程 后端 开发语言

高性能存储 SIG 月度动态:优化 xfs dax reflink 时延,独立选型并维护 mdadm 和 ledmon

OpenAnolis小助手

操作系统 高性能存储 龙蜥社区SIG

阶跃星辰启动「繁星计划」开放平台;运动迁移框架 MotionClone 无需训练,一键克隆视频运动丨 RTE 开发者日报

声网

本周五开讲!AI 时代的运维开发工具 OS Copilot 陪跑班,分享云上最佳实践案例

OpenAnolis小助手

Alibaba Cloud Linux OS Copilot 运维开发工具

优秀Java 开发者都在参与的项目

XIAOJUSURVEY

maven 服务端 springboot Java 8

“Pandabuy事件后,淘宝代购集运系统如何强化仿牌敏感词风控策略“

tbapi

淘宝代购集运系统 Pandabuy 逆向海淘系统

说说RabbitMQ延迟队列实现原理?

王磊

Java 面试

“SelectDB 实时数据仓库解决方案”入围工信部“信息技术应用创新典型解决方案”

SelectDB

数据库 大数据 数据仓库 云原生 信创

告别 CentOS,开源操作系统与时代同步更需“根”的力量

OpenAnolis小助手

操作系统 龙蜥社区 CentOS 停服

JDBC 最佳实践

FunTester

Python数据结构:字典详解(创建、访问、修改、字典方法)

我再BUG界嘎嘎乱杀

Python 编程 数据结构 后端 开发语言

电商新时代,商家还能怎样赚钱?

自象限

数据可视化在石油新能源行业的应用:深度探索与前沿趋势

不在线第一只蜗牛

数据挖掘 数据分析 低代码 数据可视化

线上观看 3 万+!「智能可观测运维技术MeetUp」精彩回顾,探讨智能体构建新方向

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥meetup 可观测技术

轻松应用 RapidMiner 内置案例模板实现数据挖掘详解(下篇)

Altair RapidMiner

人工智能 数据挖掘 算法 数据分析 altair

腾讯特别调薪8%,年底十三薪分摊到月薪:福利升级还是另有深意?

王中阳Go

腾讯 面经

玩转 Easysearch 语法

极限实验室

数据库 搜索引擎 easysearch 极限科技 征文系列

企业全历史行为数据助ToB企业决策层开启营销的上帝视角

客户在哪儿AI

ToB营销 ToB增长 ToB销售

K8S 中的 CRI、OCI、CRI shim、containerd

快乐非自愿限量之名

Kubernetes 容器

破局移动影像,华为的化境是绝无止境

脑极体

AI

22 位委员参会,第 25 次龙蜥社区运营委员会圆满结束

OpenAnolis小助手

操作系统 龙蜥社区

蓝易云 - dockerfile命令详解

百度搜索:蓝易云

Docker Linux 运维 Dockerfile 云服务器

Cloud Kernel SIG 月度动态:发布 ANCK 3 个版本,5.10 kABI/kAPI 策略变更

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥社区SIG Cloud Kernel

高性能网络SIG月度动态:virtio技术委员会通过flow director提案,netdim调节特性正式合入上游社区

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥社区SIG

用这2款AIPPT软件,让你的Markdown生成PPT!

彭宏豪95

人工智能 PPT 在线白板 AIGC AI生成PPT

阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!

我再BUG界嘎嘎乱杀

Python 大数据 编程 后端 开发语言

蓝易云 - 云服务器利用Docker搭建sqli-labs靶场环境

百度搜索:蓝易云

Docker 云计算 云服务器 服务器租用 高防服务器

Databend 完美适配 KubeSphere 企业版 4.1.1,让云原生技术更普及

Databend

2024中国PMO高峰论坛在京成功召开

财见

数字化转型赋能绿色发展:深入探索与实践

快乐非自愿限量之名

低代码 数字化 绿色转型

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现_AI&大模型_Kyle Wiggers_InfoQ精选文章