NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

微软图灵通用语言表示模型 T-ULRv2 位居 XTREME 排行榜榜首

  • 2020-12-26
  • 本文字数:2295 字

    阅读完需:约 8 分钟

微软图灵通用语言表示模型 T-ULRv2 位居 XTREME 排行榜榜首

今天,我们很高兴地宣布,图灵多语言模型(Turing multilingual language model,T-ULRv2)目前位居 Google XTREME 公共排行榜榜首。该模型是由 Microsoft 图灵团队与 Microsoft Research 合作开发的,该模型的平均得分高出阿里巴巴(VECO)之前的最好成绩 3.5 分。为了实现这一点,除了预训练模型之外,我们还使用了“StableTune”,这是一种基于稳定性训练的新型多语言微调技术。排行榜上的其他模型包括 XLM-R、 mBERT、XLM 等。以前最好的提交之一也是来自 Microsoft 使用 FILTER 提交的。



通用语言表示


Microsoft 图灵团队长期以来,一直认为语言表示应该是通用的。在这篇发表于 2018 年的论文 中,我们提出了一种以无监督方式训练语言不可知表示的方法。这种方法允许用一种语言对训练过的模型进行微调,并以零样本学习的方式应用于另一种语言。这将克服要求标签数据以每种语言训练模型的挑战。自从这篇论文发表以来,无监督的预训练语言建模已成为所有自然语言处理模型的支柱,而基于 Transformer 的模型是所有这类创新的核心。


作为 Microsoft 大型人工智能的一部分,图灵系列的自然语言模型一直在推动 Microsoft 产品中的下一代人工智能体验。图灵通用语言表示模型(T-ULRv2)是我们最新的跨语言创新,它结合了我们最近的创新 InfoXLM,从而创建了一个通用模型,在同一个向量空间中表示 94 种语言。在最近的一篇博文中,我们讨论了如何使用 T-ULR 对 Microsoft Bing(微软必应)的所有支持语言和地区的智能答案进行扩展。同样的模型也被用于扩展 Microsoft Word 语义搜索功能,使其扩展到英语之外,并为 Microsoft Outlook 和 Microsoft Team 提供回复建议。我们将很快向用户提供这些通用的体验。



Microsoft Bing 的西班牙语和阿拉伯语智能答案的示例,由 T-ULR 提供支持。



Microsoft Word 语义搜索的法语示例,由 T-ULR 提供支持。


这些真实的产品场景要求极高的质量,因此为我们的人工智能模型提供了完美的测试平台。结果,我们的大多数模型在自然语言处理任务的正确性和性能都接近最新水平。


XTREME 基准


多语言编码器的跨语言迁移评估(The C ross-lingual TR ansfer E valuation of M ultilingual E ncoders,XTREME)基准涵盖了跨越 12 个语系的 40 种不同类型的语言,其中包括 9 项任务,这些任务需要对不同级别的语法或语义进行推理。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖率和训练数据的可用性。


XTREME 中包含的任务涵盖了一系列的范式,包括句子文本分类、结构化预测、句子检索和跨语言问答。因此,为了使模型在 XTREME 基准中获得成功,它们必须学习泛化到许多标准跨语言迁移设置的表示。


有关基准测试、语言和任务的完整描述,请参阅《XTREME:用于评估跨语言泛化的大规模多语言多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization.


T-ULRv2:数据、架构和预训练


图灵通用语言表示(T-ULRv2)是一种具有 24 个层和 1024 个隐状态的 Transformer 架构,共有 5.5 亿个参数。T-ULRv2 预训练有三个不同的任务:多语言屏蔽语言建模(multilingual masked language modeling,MMLM)、翻译语言建模(translation language modeling,TLM)和跨语言对比(cross-lingual contrast,XLCo)。MMLM 任务(又称为 Cloze 任务)的目标是从不同语言的输入预测被屏蔽的标记。T-URLv2 使用一个由 94 种语言组成的网络多语言数据库进行 MMLM 任务训练。与 MMLM 一样,TLM 任务也是预测被屏蔽的标记,但预测是受到以串联的翻译对的限制。例如,给定一对英语和法语的句子,模型可以通过关注周围的英语标记或其法语翻译来预测被屏蔽的英语标记。这有助于模型对齐不同语言中的表示。



XLCo 还使用了并行训练数据。任务的目标是最大化平行句表示之间的互信息。与 MMLM 和 TLM 中的最大化令牌序列互信息不同,XLCo 的目的是跨语言序列级的互信息。在 TLM 和 XLCo 任务中,T-URLv2 都使用 14 个语言对的翻译并行数据。


XLCo 的损失函数如下:



随后将其添加到 MMLM 和 TLM 损失中,以获得跨语言预训练的总体损失:



T-ULRv2 发布信息


在 Microsoft Ignite 2020 上,我们宣布图灵模型将可用于构建自定义应用程序,作为私人预览的一部分。T-ULRv2 也将成为该计划的一部分。如果你有兴趣了解更多关于此图灵模型和其他图灵模型的更多信息,可以给我们提交申请。我们正在与 Azure 认知服务(Azure Cognitive Services)密切合作,使用图灵模型为当前和未来的语言服务提供支持。现有的 Azure 认知服务客户将通过 API 自动从这些改进中受益。


让我们的人工智能体验民主化


在 Microsoft,全球化不仅仅是一个研究问题。这是一个我们必须正视的产品挑战。世界各地都有 Windows。Microsoft Office 和 Microsoft Bing 在 200 个地区有 100 多种语言版本。我们的客户遍布世界的每一个角落,他们以自己的母语来使用我们的产品。为了使我们的产品体验真正民主化,以赋予所有用户权利,并在全球范围内有效地扩展,我们正在推动多语言模型的边界。其结果是像 T-ULRv2 这样的与语言无关的表示形式可以改善所有语言的产品体验。


作者介绍


Saurabh Tiwary,是 Microsoft 副总裁兼杰出工程师。


周明博士,是微软亚洲研究院副院长、国际计算语言学协会(ACL)主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。


原文链接


https://www.microsoft.com/en-us/research/blog/microsoft-turing-universal-language-representation-model-t-ulrv2-tops-xtreme-leaderboard/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-12-26 14:001484

评论

发布
暂无评论
发现更多内容

泪洒阿里,面试惜败闭关2月金九银十再战Alibaba!

钟奕礼

Java 编程 架构 后端 java面试

文盘Rust -- 如何把配置文件打包到二进制文件里

TiDB 社区干货传送门

开发语言

推理网络精度不达标,5个方法轻松搞定

华为云开发者联盟

人工智能 网络 算子 企业号九月金秋榜

画一个 “月饼” 陪我过中秋,玩转炫彩 “月饼” 之 基本测试

矜辰所致

中秋 月饼 ESP32-C3 9月月更

面试以前上司,能力一般,不想给他通过,但他卑微哀求,怎么办?

钟奕礼

Java 编程 架构 面试 后端

袋鼠云产品功能更新报告01期丨用诚心倾听您的需求

袋鼠云数栈

大数据培训班学习靠谱吗?

小谷哥

TiDB监控节点扩缩容操作(是否保留历史数据)

TiDB 社区干货传送门

监控 集群管理 备份 & 恢复 扩/缩容

50岁还在写代码,大龄前端程序员到底有多吃香

千锋IT教育

未来3年,公司想不倒闭,就尽量避免在这5点上犯错!

CRMEB

TiDB跨版本升级--新人首次尝试🧐

TiDB 社区干货传送门

迁移 实践案例 集群管理 管理与运维 备份 & 恢复

开源公开课丨ChengYing安装原理剖析

袋鼠云数栈

中秋团圆的N种方式,华为用户get了吗?

最新动态

使用 JDBC 连接 TiDB Cloud

TiDB 社区干货传送门

开发语言 应用适配 数据库连接

基于TiCDC同步的主从集群数据校验

TiDB 社区干货传送门

备份 & 恢复

B2B企业节,永洪科技

科技云未来

历经70+场面试,我发现了大厂面试的bug,并总结其中心得

钟奕礼

Java 编程 架构 java面试

TiDB 在 Pinterest丨从 HBase 到 TiDB:我们如何实现零停机在线数据迁移

TiDB 社区干货传送门

不下载软件,可以把电脑本地文件快速传到远端服务器里吗?

行云管家

服务器 云端 远程 本地

ChunJun Meetup演讲分享 | 基于袋鼠云开源框架的数仓一体化建设探索

袋鼠云数栈

【JS】大白话-深拷贝与浅拷贝-及其原生JS实现方式

Sam9029

JavaScript 前端 深拷贝 浅拷贝 9月月更

TiUniManager部署和使用感受

TiDB 社区干货传送门

集群管理 安装 & 部署 6.x 实践

神器 SpringDoc 横空出世!最适合 SpringBoot 的API文档工具来了

Java快了!

SP【ring

VLDB'22 HiEngine极致RTO论文解读

华为云开发者联盟

数据库 云原生 后端 华为云 企业号九月金秋榜

严禁外传,字节跳动2022秋招Java岗位架构师面试题(暂定版)发布

钟奕礼

Java 编程 程序员 架构 java面试

字节码增强技术之 Java Agent 入门

Java快了!

java;

强扩展、强一致、高可用…GaussDB成为游戏行业的心头爱

华为云开发者联盟

数据库 后端 开发 游戏 企业号九月金秋榜

直击行业痛点,华为云助力实景三维建设更快更好

sofiya

强强联合!数衍科技携手华为云助力企业生态数据建设

sofiya

leetcode 543. Diameter of Binary Tree 二叉树的直径(简单)

okokabcd

Java LeetCode 数据结构与算法

运维去大公司好还是小公司好?你怎么看?

行云管家

运维 IT IT运维

微软图灵通用语言表示模型 T-ULRv2 位居 XTREME 排行榜榜首_软件工程_周明_InfoQ精选文章