【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

微软图灵通用语言表示模型 T-ULRv2 位居 XTREME 排行榜榜首

  • 2020-12-26
  • 本文字数:2295 字

    阅读完需:约 8 分钟

微软图灵通用语言表示模型 T-ULRv2 位居 XTREME 排行榜榜首

今天,我们很高兴地宣布,图灵多语言模型(Turing multilingual language model,T-ULRv2)目前位居 Google XTREME 公共排行榜榜首。该模型是由 Microsoft 图灵团队与 Microsoft Research 合作开发的,该模型的平均得分高出阿里巴巴(VECO)之前的最好成绩 3.5 分。为了实现这一点,除了预训练模型之外,我们还使用了“StableTune”,这是一种基于稳定性训练的新型多语言微调技术。排行榜上的其他模型包括 XLM-R、 mBERT、XLM 等。以前最好的提交之一也是来自 Microsoft 使用 FILTER 提交的。



通用语言表示


Microsoft 图灵团队长期以来,一直认为语言表示应该是通用的。在这篇发表于 2018 年的论文 中,我们提出了一种以无监督方式训练语言不可知表示的方法。这种方法允许用一种语言对训练过的模型进行微调,并以零样本学习的方式应用于另一种语言。这将克服要求标签数据以每种语言训练模型的挑战。自从这篇论文发表以来,无监督的预训练语言建模已成为所有自然语言处理模型的支柱,而基于 Transformer 的模型是所有这类创新的核心。


作为 Microsoft 大型人工智能的一部分,图灵系列的自然语言模型一直在推动 Microsoft 产品中的下一代人工智能体验。图灵通用语言表示模型(T-ULRv2)是我们最新的跨语言创新,它结合了我们最近的创新 InfoXLM,从而创建了一个通用模型,在同一个向量空间中表示 94 种语言。在最近的一篇博文中,我们讨论了如何使用 T-ULR 对 Microsoft Bing(微软必应)的所有支持语言和地区的智能答案进行扩展。同样的模型也被用于扩展 Microsoft Word 语义搜索功能,使其扩展到英语之外,并为 Microsoft Outlook 和 Microsoft Team 提供回复建议。我们将很快向用户提供这些通用的体验。



Microsoft Bing 的西班牙语和阿拉伯语智能答案的示例,由 T-ULR 提供支持。



Microsoft Word 语义搜索的法语示例,由 T-ULR 提供支持。


这些真实的产品场景要求极高的质量,因此为我们的人工智能模型提供了完美的测试平台。结果,我们的大多数模型在自然语言处理任务的正确性和性能都接近最新水平。


XTREME 基准


多语言编码器的跨语言迁移评估(The C ross-lingual TR ansfer E valuation of M ultilingual E ncoders,XTREME)基准涵盖了跨越 12 个语系的 40 种不同类型的语言,其中包括 9 项任务,这些任务需要对不同级别的语法或语义进行推理。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖率和训练数据的可用性。


XTREME 中包含的任务涵盖了一系列的范式,包括句子文本分类、结构化预测、句子检索和跨语言问答。因此,为了使模型在 XTREME 基准中获得成功,它们必须学习泛化到许多标准跨语言迁移设置的表示。


有关基准测试、语言和任务的完整描述,请参阅《XTREME:用于评估跨语言泛化的大规模多语言多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization.


T-ULRv2:数据、架构和预训练


图灵通用语言表示(T-ULRv2)是一种具有 24 个层和 1024 个隐状态的 Transformer 架构,共有 5.5 亿个参数。T-ULRv2 预训练有三个不同的任务:多语言屏蔽语言建模(multilingual masked language modeling,MMLM)、翻译语言建模(translation language modeling,TLM)和跨语言对比(cross-lingual contrast,XLCo)。MMLM 任务(又称为 Cloze 任务)的目标是从不同语言的输入预测被屏蔽的标记。T-URLv2 使用一个由 94 种语言组成的网络多语言数据库进行 MMLM 任务训练。与 MMLM 一样,TLM 任务也是预测被屏蔽的标记,但预测是受到以串联的翻译对的限制。例如,给定一对英语和法语的句子,模型可以通过关注周围的英语标记或其法语翻译来预测被屏蔽的英语标记。这有助于模型对齐不同语言中的表示。



XLCo 还使用了并行训练数据。任务的目标是最大化平行句表示之间的互信息。与 MMLM 和 TLM 中的最大化令牌序列互信息不同,XLCo 的目的是跨语言序列级的互信息。在 TLM 和 XLCo 任务中,T-URLv2 都使用 14 个语言对的翻译并行数据。


XLCo 的损失函数如下:



随后将其添加到 MMLM 和 TLM 损失中,以获得跨语言预训练的总体损失:



T-ULRv2 发布信息


在 Microsoft Ignite 2020 上,我们宣布图灵模型将可用于构建自定义应用程序,作为私人预览的一部分。T-ULRv2 也将成为该计划的一部分。如果你有兴趣了解更多关于此图灵模型和其他图灵模型的更多信息,可以给我们提交申请。我们正在与 Azure 认知服务(Azure Cognitive Services)密切合作,使用图灵模型为当前和未来的语言服务提供支持。现有的 Azure 认知服务客户将通过 API 自动从这些改进中受益。


让我们的人工智能体验民主化


在 Microsoft,全球化不仅仅是一个研究问题。这是一个我们必须正视的产品挑战。世界各地都有 Windows。Microsoft Office 和 Microsoft Bing 在 200 个地区有 100 多种语言版本。我们的客户遍布世界的每一个角落,他们以自己的母语来使用我们的产品。为了使我们的产品体验真正民主化,以赋予所有用户权利,并在全球范围内有效地扩展,我们正在推动多语言模型的边界。其结果是像 T-ULRv2 这样的与语言无关的表示形式可以改善所有语言的产品体验。


作者介绍


Saurabh Tiwary,是 Microsoft 副总裁兼杰出工程师。


周明博士,是微软亚洲研究院副院长、国际计算语言学协会(ACL)主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。


原文链接


https://www.microsoft.com/en-us/research/blog/microsoft-turing-universal-language-representation-model-t-ulrv2-tops-xtreme-leaderboard/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-12-26 14:001480

评论

发布
暂无评论
发现更多内容

gRPC,爆赞

AlwaysBeta

golang 编程 gRPC 后端 Go 语言

隐蔽的角落-这次我们只聊Cilium IPAM

Lance

实践篇 -- Redis客户端缓存在SpringBoot应用的探究

binecy

缓存 springboot redis sentinel

存量时代会员深度运营逻辑

boshi

深度思考 运营

在线下划线转驼峰,驼峰转下划线工具

入门小站

工具

拿蚂蚁offer,全靠阿里P8大牛总结的Java架构开发手册

Java 编程 程序员 架构 面试

SpringBoot 实战:在 RequestBody 中优雅的使用枚举参数(原理篇)

看山

Java Spring Boot Effective Spring 10月月更

业界良心啊!第五次更新的Spring Cloud Alibaba升级太多内容

Java 编程 程序员 IT 计算机

Leetcode 题目解析:279. 完全平方数

程序员架构进阶

算法 LeetCode 动态规划 10月月更

python 数据库编程,这篇是针对 mysql 的,滚雪球学Python第4季第13篇

梦想橡皮擦

10月月更

Serverless 工程实践 | 零基础上手 Knative 应用

阿里巴巴云原生

阿里云 Serverless 云原生 Knative

Node.js 日志之 winston 实践

devpoint

nodejs winston logger 10月月更

Prometheus 基础查询(一)

耳东@Erdong

Prometheus 10月月更

CSS架构之Components层

Augus

CSS 10月月更

IM系统消息丢失问题排查反思

轻口味

IM Android; 10月月更

【LeetCode】Fizz Buzz Java题解

Albert

算法 LeetCode 10月月更

linux中vi,vim操作技巧

入门小站

Linux

前后端、多语言、跨云部署,全链路追踪到底有多难?

阿里巴巴云原生

阿里云 云原生 全链路追踪

ToB产品如何自传播(下)

石云升

产品经理 产品思维 10月月更

Groovy 记录(2)-CompilationUnit

春秋易简

趣说Node.js的回调函数

Regan Yue

node.js JavaScrip Regan Yue 10月月更

双非学历为进大厂天天刷Java面试题,面试却履败,原因竟是算法?

Java 编程 程序员 架构 IT

【Vuex 源码学习】第十二篇 - Vuex 插件机制的实现

Brave

源码 vuex 10月月更

「架构师教程」二十年架构师「马士兵」大牛的Java高级架构师教程

Java 编程 程序员 IT 计算机

并发相关的性质学习笔记

风翱

并发 10月月更

”微博评论“的高性能高可用计算架构

缘分呐

架构设计实战

面试作弊神器?!阿里P8亲自撰写的这份Java最新面试手册

Java 程序员 架构 面试 后端

SSRF漏洞实例分析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞分析

阿里架构师总结Go语言和java语言之间的对比联系

hanaper

Facebook宕机事故,暴露了上云不是唯一的答案

脑极体

粪菌移植的背后,肠道菌那些你不知道的事儿

脑极体

微软图灵通用语言表示模型 T-ULRv2 位居 XTREME 排行榜榜首_软件工程_周明_InfoQ精选文章