NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌发布 TyDi QA 语料库,涵盖 11 种不同类型语言

  • 2020-02-10
  • 本文字数:1846 字

    阅读完需:约 6 分钟

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

为了鼓励对多语言问答技术的研究,近日,谷歌发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。


本文已获原作者授权,InfoQ 整理并翻译。


问答技术帮助人们在日常生活中遇到问题时,如“乌贼的墨汁可以安全食用吗?”之类的问题,用户可以通过询问语音助理或键入搜索内容并期望得到答案。去年,我们向研究社区发布了英语版的自然问题数据集,以提供反映真实用户需求的挑战。然而,世界上还有成千上万不同的语言,其中许多语言使用非常不同的方法来构造语义。例如,在英语中,一个物体(“book”)和多个物体(“books”);而在阿拉伯语中,也有第三种形式表示,除了单数(“كتاب”,kitab)或复数(“كتب”, kutub)之外,还有表示两个物体 (“كتابان”,kitaban) 。此外,有一些语言,如日语,在单词之间并不使用空格。要创建这样一种机器学习系统,能够理解语言表达意义的多种方式,真不啻为一项挑战,而训练这样的系统,需要从它们将应用到的不同语言中获得样本。


为了鼓励对多语言问答技术的研究,今天,我们发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。在我们的论文《TyDi QA:不同类型语言中信息查询问答系统的基准》(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)中描述,我们的语料库的灵感来自于类型多样性,这是一种概念,即不同的语言以不同的结构方式来表达意义。因为我们为这个语料库选择了一组在类型上彼此相距较远的语言,我们期望,在这个数据集上表现良好的模型,能够推广到世界上的大量语言。

类型多样的语言集

TyDi QA 包括了来自 11 种语言的超过 200000 个问答对,代表了一系列不同的语言现象和数据挑战。其中许多语言使用的是非拉丁字母,如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语(Telugu)和泰语。还有一些单词的构成方式很复杂,如阿拉伯语、芬兰语、印尼语、斯瓦希里语(Kiswahili)、俄语等。日语使用四种字母,如:



由四种颜色表示,而韩文字母本身具有很强的组合型。这些语言的范围也很广,从网上有很多可用数据(如英语和阿拉伯语)到只有很少的数据(如孟加拉语和斯瓦希里语)。我们期望,能够应对这些挑战的系统将在许多语言中取得成功。

创建真实数据

研究社区使用的许多早期 QA 数据集都是这样创建的:首先给人们一篇文章,然后要求他们根据阅读文章的内容写出问题来创建。然而,由于人们在写下每个问题时都能够看到答案,这种方法产生的问题往往包含与答案相同的单词。因此,针对这类数据进行训练的机器学习算法更倾向于单词匹配,而忽略了满足用户需求所需的更细微的答案。


为了构建一个更自然的数据集,我们从那些想要得到答案但还不知道答案的人那里收集了问题。为了激发问题的灵感,我们向人们展示了维基百科(Wikipedia)用他们的母语写成的一段有趣的内容。然后,我们让他们提一个问题,任何问题都可以,只要我给他们看的内容没有回答,并且他们实际上想知道答案。这类似于当你在大街上闲逛时,你的好奇心可能会引发关于你所看到的有趣事物的问题。我们鼓励他们在提出问题时发挥想象力。比如,一篇关于冰的文章,会让你想到夏天的冰棒吗?棒极了!问问是谁发明了冰棒。重要的是,问题是直接用某种语言写就的,而不是翻译,因此许多问题不同于那些在英语版语料库中看到的问题。孟加拉语中有一个问题:“সফেদা ফল খেতে কেমন?”(人心果(Sapodilla)是什么味道?)从来没听说过人心果吗?这可能是因为人心果在印度比美国更常见。


对于这些问题中的每一个,我们在 Google 上用适当的语言搜索最匹配的维基百科的文章,并要求提问者在文章中查找并高亮显示答案。虽然我们预料到当提问者没有找到答案时,问题和答案之间会有一些有趣的分歧,但结合世界语言中惊人的广泛语言现象,我们发现情况甚至更为复杂。


例如,在芬兰语中,有一些有趣的例子,在问题和回答中,day 和 week 这两个词的表达方式就非常不同。要成功从整个维基百科文章中选择这个答案句子,系统需要能够识别出芬兰语词汇 viikonpäivät、seitsenpäiväinen 和 viikko 之间的关系。


作为研究社区共同取得进展

我们希望,这个数据集能够推动研究社区进行创新,为世界各地的用户创建更有用的问答系统。为了跟踪社区的进展,我们建立了一个排行榜,参与者可以在其上评估他们的机器学习系统的质量,我们还开源了一个使用该数据集的问答系统。要查看排行榜并了解更多信息,请访问挑战网站。


作者介绍:


Jonathan Clark,Google Research 研究科学家。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-02-10 14:371814
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.9 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

铭文 LaunchPad 平台 Solmash 推出早鸟激励计划

EOSdreamer111

盘点2023年我用过的AI大模型,国内也能免费用

程序员晚枫

大厂 大模型

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP

数据库 开源 分布式 TiDB 物流系统

存储程序和程序控制:开发经验分享及操作过程详解

天翼云开发者社区

存储 数据存储

C 语言结构体和枚举完全指南:成员访问、字符串操作、枚举基础

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

ZKFair 结束空投领取,未领取的1.3亿ZKF Token全部销毁

股市老人

抖音APP如何实现用户生命周期提升

字节跳动数据平台

大数据 A/B测试 企业号 1 月 PK 榜 对比试验 数字化增长

Terraform 的开源替代:OpenTofu 宣布 GA!

SEAL安全

开源 Terraform OpenTofu

2023 Gartner® 云数据库管理系统魔力象限发布 PingCAP 入选“荣誉提及”

PingCAP

数据库 Gartner TiDB

PingCAP 受邀参加 FICC 2023,获 Open100 世纪全球开源贡献奖

PingCAP

数据库 开源 分布式 TiDB pingCAP

加入openEuler训练营,一起探索开源世界的无限可能!

科技热闻

面试官:实际工作中哪里用到了自定义注解?

王磊

Java 面试

打造创新的金融数据平台,加速数字化和智能化转型丨PingCAP 官网金融行业专区上线

PingCAP

数据库 开源 金融 TiDB 金融数据

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

PingCAP

数据库 开源 云原生 TiDB 银行业

交易所做市机器人与去中心化做市机器人

区块链技术

存储结构的种类与比较

天翼云开发者社区

数据 存储结构

神州数码集团荣获“TiDB 社区最佳贡献企业”

PingCAP

数据库 开源 TiDB

微短剧市场暴涨267.65%,用微短剧场景AUI Kit精巧入局

阿里云视频云

云计算 视频云 微短剧

极狐 GitLab 冷知识:使用 git push 创建 Merge Request

极狐GitLab

持续构建行业影响力|HarmonyOS SDK荣膺年度“技术卓越”奖项

HarmonyOS开发者

HarmonyOS

持续构建行业影响力|HarmonyOS SDK荣膺年度“技术卓越”奖项

HMS Core

HarmonyOS

深度调光降压型 LED 恒流驱动器

智趣匠

铭文 LaunchPad 平台 Solmash 推出早鸟激励计划

石头财经

Yocto环境搭建教程

百度搜索:蓝易云

云计算 Linux 运维 云服务器 yocto

青否互动式数字人的优势!

青否数字人

数字人

如何规避云服务宕机现象?

天翼云开发者社区

云计算 服务器 云服务

铭文 LaunchPad 平台 Solmash 推出早鸟激励计划

BlockChain先知

【NOSQL】redis哨兵模式、集群搭建详解。

百度搜索:蓝易云

redis 云计算 Linux 运维 云服务器

【Docker存储】Docker的容器迁移方式详解

百度搜索:蓝易云

Docker 云计算 Linux 运维 云服务器

PingCAP上榜工信微报年度回顾《2023 年工业和信息化发展情况》 三大具有国际影响力的开源社区之一

PingCAP

数据库 开源 分布式 数字化 TiDB

使用存储过程自动化分区管理 Zabbix MySQL(8) 数据库中的大表;

瀚中子🤩

谷歌发布TyDi QA语料库,涵盖11种不同类型语言_AI&大模型_Jonathan Clark_InfoQ精选文章