2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

  • 2021-01-14
  • 本文字数:3340 字

    阅读完需:约 11 分钟

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现

隶属于 Facebook、纽约大学(NYU)、华盛顿大学和 DeepMind 的研究人员在 2019 年底推出了SuperGLUE,这是一种新的人工智能基准,用于总结各种语言任务的研究进展。基于去年发布的 GLUE 基准,SuperGLUE 包含了一系列更难的语言理解挑战、改进的资源以及公开的排行榜


在 SuperGLUE 推出时,在排行榜上,表现最好的模型和人类的表现有近 20 分的差距。但截至 1 月初,有两个模型,一个是来自微软的 DeBERTa,另一个是来自谷歌的 T5+Meena,它们已经超越了人类的基准线,成为第一批超越人类的模型。


纽约大学数据科学中心助理教授 Sam Bowman 表示,这一成就反映了机器学习的创新,包括自监督学习,即模型从未标记的数据集中学习,并制定了将洞察力用于目标任务的方法。


“这些数据集反映了一些最难的监督语言理解任务数据集,这些数据集在两年前是免费提供的。没有理由相信 SuperGLUE 将能够检测到自然语言处理的进一步进展,至少会超过剩下的一小部分”,Sam Bowman 说。


但是 SuperGLUE 并非人类语言能力的完美测试,也并非完整测试。DeBERTa 背后的微软团队在一篇博文中也指出,他们的模型“绝非”达到自然语言理解的人类级智能。他们表示,这需要研究突破,以及衡量它们及其效果的新基准。


SuperGLUE


正如研究人员在介绍 SuperGLUE 的论文《SuperGLUE:通用语言理解系统更严格的基准》(SuperGLUE: A Stickier Benchmark forGeneral-Purpose Language Understanding Systems)所写的那样,他们的基准旨在成为一个简单的而又有难度的衡量标准,用以衡量英语通用语言理解技术的进展。它包括 8 个语言理解任务,它们来自于已有的数据,并配有性能度量和分析工具包。


这些任务是:


  • 布尔问题(Boolean Questions,BoolQ):要求模型回答一个关于维基百科文章中包含答案的短文的问题。这是一些谷歌用户通过谷歌搜索提交的问题。


  • CommitmentBankCB):要求模型识别 文本中包含的假设,包括《华尔街日报》的信息来源,并确定该假设是否成立。


  • 合理选择(Choice of plausible alternatives,COPA): 提供了一个关于博客主题的前提语句,以及一本与摄影相关的百科全书,模型必须从中确定两种可能选择的因果关系。


  • 多句阅读理解(Multi-Sentence Reading Comprehension,MultiRC):这是一项问答式的任务,其中每个样本都包含一段上下文段落、一个关于该段落的问题,以及一系列可能的答案。一种模型必须预测哪些答案是真的,哪些答案是假的。


  • 基于常识推理数据集的阅读理解(Reading Comprehension with Commonsense Reasoning Dataset,ReCoRD):模型根据 CNN 和《每日邮报》的选文列表中预测被掩盖的单词和短语,在这些选文中,同一单词或短语可能以多种不同的形式表达,所有这些都被认为是正确的。


  • 识别文本内容(Recognizing Textual Entailment,RTE):挑战自然语言模型,以确定一个文本摘录的真实性是否来自另一个文本摘录。


  • Word-in-ContextWiC):为两个文本片段和一个多义词(即具有多重含义的单词)提供模型,并要求它们判定这个单词是否在两个句子中有相同的含义。


  • Winograd 模式挑战(Winograd Schema Challenge,WSC):是一项任务,在这项任务中,模型给定小说书中的段落,必须回答关于歧义代词先行词的多项选择题。它被设计为图灵测试的改进。


SuperGLUE 也尝试在 Winogender 图式的模型中测量性别偏见,这些模型是仅由句子中某一代词的性别不同的句对。


但,研究人员指出,这种方法有其局限性,因为它只能提供积极的预测值:较差的偏见分数清楚地表明模型显示出性别偏见,而良好的分数并不意味着模型是无偏见的。而且,它并不包括一切形式的性别或社会偏见,因此它只是一种粗略的偏见衡量标准。


为了建立人类表现的基线,研究人员借鉴了 WiC、MultiRC、RTE 和 ReCoRD 的现有文献,并通过亚马逊的 Mechanical Turk 平台雇佣了众包注释员。


每个众包人员每小时的平均工资为 23.75 美元,他们完成了一个短期培训阶段,之后才会使用说明和常见问题来对多达 30 个选定测试集样本进行注释。

架构改进


尽管 DeBERTa 背后的微软研究人员在 1 月 6 日发表的一篇题为《微软 DeBERT 在 SuperGLUE 基准上超越人类》(Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark)的博文中提供了他们的工作细节,但是谷歌团队还没有提供关于其模型性能改进的细节。


DeBERTa 并非新鲜事,它是去年开源的,但研究人员表示,他们已经训出练一个包含 15 亿个参数(即模型用来进行预测的内部变量)的更大版本。它将以开源的方式发布,并集成到下一个版本的微软图灵自然语言表示模型中,支持诸如 Bing、Office、Dynamics 和 Azure 认知服务等产品。


DeBERTa 是通过掩蔽语言建模进行预训练的,这是一项填空任务,教会模型使用与被掩蔽标记相关的词来预测被掩蔽的词应该是什么。DeBERTa 利用上下文词的内容和位置信息来建立掩蔽语言模型,比如它能够识别出“a new store opened beside the new mall”句子中的“store”和“mall”扮演着不同的句法角色。


与其他一些模型不同的是,DeBERTa 在语言建模过程中将词的绝对位置考虑在内。此外,它还对模型中转换后的输入数据进行参数计算,并根据词的相对位置衡量词之间依赖关系的强弱。举例来说,DeBERTa 会理解“deep”和“learning”这两个词相邻出现时,依赖关系要比单独出现在不同句子中更强。


DeBERTa 还受益于对抗训练,这种技术利用对训练数据进行小幅度改变而获得的对抗样本。在训练过程中,这些对抗样本被输入到模型中,提高了模型的泛化能力。


微软研究人员希望下一步探索如何让 DeBERTa 能够泛化到新的子任务或基本的解决问题的能力,这个概念被称为“合成泛化”(compositional generalization)。未来的一条路可能是更加明确地融合所谓的合成结构,这可能需要将人工智能与符号推理,换句话说,按照数学和逻辑规则操纵符号和表达式。


“DeBERTa 在 SuperGLUE 上超越人类的表现标志着向通用人工智能迈进的重要里程碑,”微软研究人员写道。“但与 DeBERTa 不同的是,人类非常善于利用从不同任务中学到的知识来解决一个新的任务,并不需要或很少需要特定任务的演示。”


新基准


根据 Bowman 的说法,SuperGLUE 的继任者尚未出现,至少在短期内是如此。但是人工智能研究界越来越多的共识是,未来的基准,特别是在语言领域,要起作用,就必须考虑到更广泛的伦理、技术和社会挑战。


例如,一些研究表明,流行的基准在评估现实中的人工智能性能方面效果不佳。一份最新报告显示,自然语言处理模型给出的 60%~70% 的答案都嵌入在基准训练集中,这表明模型通常只是在记忆答案。在对超过 3000 篇人工智能论文进行的元分析中,另一项研究发现,用来衡量人工智能和机器学习模型的指标往往不一致,追踪不规则,并且信息也不特别丰富。


一部分原因是因为诸如 OpenAI 的GPT-3、谷歌的 T5+Meena 和微软的 DeBERTa 这样的语言模型,通过将公共网络中的样本内化,学会了如何写出与人类相似的文本。它们使用诸如电子书、维基百科和 Reddit 这样的社会媒体平台来推断整句话甚至整段话。


结果是,语言模型经常会放大这些公共数据中编码的偏见;部分培训数据并非不常见,它们来自具有普遍性别、种族和宗教偏见的社区。 OpenAI 是一家人工智能研究公司,它指出,这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边,把“Islam”放在 terrorism 旁边。


今年 4 月,英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员发表了一份研究报告,报告指出,一些最流行的模型存在着很强的刻板印象,包括谷歌的BERTXLNet、OpenAI 的GPT-2和 Facebook 的RoBERTa


据 Middlebury Institute of International Studies 称,恶意行为者可能会利用这种偏见,通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐,从而“使个人处于极端的极右思想和行为之中,成为暴力的个人”。


大部分已有的语言基准不能捕捉到这一点。在 SuperGLUE 发表的两年中,它的发现激发了人们,或许未来的基准可以做到这一点。


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

2021-01-14 14:292531
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 606.2 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

从技术突破到产业价值|焱融YRCache推理方案连续入选两大行业标杆案例

焱融科技

AI推理 大模型推理 YRCache

一次编译器优化的陷阱

天翼云开发者社区

CDN

工业+ AI 实践:AI 大模型与智能体深度融合工业 CAD/CAE/PLM

行云创新

智能体 工业智能体 AI 大模型 AI+工业 AI辅助 CAD 设计

简单竞态条件漏洞如何击垮全球SaaS平台

qife122

网络安全 竞态条件

2025 SECon+AgentX 大会 — AI 原生应用架构专场

阿里巴巴云原生

阿里云 云原生

通过条件访问策略增强企业的安全性

运维有小邓

密码管理

还有谁?不会用DeepSeek + Spec Driven Design来设计CAD复杂零件

行云创新

AI大模型 CAD设计 AI辅助CAD设计 AI+工业

元数据的"分"与"合":面向 AI 时代的高性能分布式文件系统设计

焱融科技

AI 分布式文件系统 大模型训练 元数据管理

关于EPOLL触发的事件说明

天翼云开发者社区

CDN 网络

2025骁龙AI大赛报名常见问题 FAQ

极市平台

龙蜥操作系统装机量突破1000万,市占率近50%,首发支持RISC-V RVA23预览版!

OpenAnolis小助手

操作系统 龙蜥操作系统大会

具身开放日点燃生态引擎,智源以开源开放驱动具身智能创新

智源研究院

数字孪生项目开发的技术

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

腾讯音乐如何基于 AutoMQ 降低 Kafka 50%+ 成本

AutoMQ

谷歌Nano Banana Pro来袭:会推理的AI,重塑视觉创作

GPU算力

益和热力性能优化实践:从 SQL Server 到时序数据库 TDengine

TDengine

焱融科技亮相数据存储产业大会斩获重磅荣誉,CTO当选首批认证专家

焱融科技

AI存储 2025数据存储产业大会

下周感恩节!文心快码助力感恩节抽奖页快速开发

Comate编码助手

AI 代码助手 文心快码 文心快码Zulu 文心快码3.5S AI编程助手

如何借助ETL工具实现库存运营分析

谷云科技RestCloud

数据库 数据处理 数据传输 ETL 数据集成

相得益彰:Mem0 记忆框架与亚马逊云科技的企业级 AI 实践

亚马逊云科技 (Amazon Web Services)

人工智能

性能优化 | HarmonyOS预加载,三步即可提升APP页面的响应速度

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

阿里云 Elasticsearch 的 AI 革新:高性能、低成本、智能化的搜索新纪元

阿里云大数据AI技术

人工智能 elasticsearch 阿里云 搜索 检索

并发丢数据深度剖析:JED的锁机制与事务实战踩坑及解决方案

京东零售技术

基于华为开发者空间-云开发环境(容器)+MaaS大模型构建智能写作助手应用

华为云开发者联盟

人工智能 华为 程序员 华为云开发者联盟 华为开发者空间

数字孪生项目的开发方法与流程

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

基于华为开发者空间开发平台-云开发环境(容器),完成贪吃蛇小游戏开发

华为云开发者联盟

Python 华为 程序员 华为开发者空间

时序数据库 TDengine 荣获第8届 AiDD 峰会“AI 研发应用场景创新奖”

TDengine

骁龙AI大赛公开课一答疑汇总来啦

极市平台

Java与AI融合创新!龙蜥邀您参加 GreenTeaJUG MeetUp

OpenAnolis小助手

Java 操作系统 Meetup

Nano Banana Pro实测!用Lovart搞定全流程营销,效率开挂!

阿星AI工作室

学习 产品 AI 设计 人工智能、

Karmada 用户组再迎新成员,共绩科技正式加入 !

华为云原生团队

云计算 容器 云原生 Karmada

微软和谷歌的 AI 模型在 SuperGLUE 语言基准上超越了人类的表现_AI&大模型_Kyle Wiggers_InfoQ精选文章