【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

谷歌发布 TyDi QA 语料库,涵盖 11 种不同类型语言

  • 2020-02-10
  • 本文字数:1846 字

    阅读完需:约 6 分钟

谷歌发布TyDi QA语料库,涵盖11种不同类型语言

为了鼓励对多语言问答技术的研究,近日,谷歌发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。


本文已获原作者授权,InfoQ 整理并翻译。


问答技术帮助人们在日常生活中遇到问题时,如“乌贼的墨汁可以安全食用吗?”之类的问题,用户可以通过询问语音助理或键入搜索内容并期望得到答案。去年,我们向研究社区发布了英语版的自然问题数据集,以提供反映真实用户需求的挑战。然而,世界上还有成千上万不同的语言,其中许多语言使用非常不同的方法来构造语义。例如,在英语中,一个物体(“book”)和多个物体(“books”);而在阿拉伯语中,也有第三种形式表示,除了单数(“كتاب”,kitab)或复数(“كتب”, kutub)之外,还有表示两个物体 (“كتابان”,kitaban) 。此外,有一些语言,如日语,在单词之间并不使用空格。要创建这样一种机器学习系统,能够理解语言表达意义的多种方式,真不啻为一项挑战,而训练这样的系统,需要从它们将应用到的不同语言中获得样本。


为了鼓励对多语言问答技术的研究,今天,我们发布了 TyDi QA,这是一个涵盖了 11 种不同类型语言的问答语料库。在我们的论文《TyDi QA:不同类型语言中信息查询问答系统的基准》(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)中描述,我们的语料库的灵感来自于类型多样性,这是一种概念,即不同的语言以不同的结构方式来表达意义。因为我们为这个语料库选择了一组在类型上彼此相距较远的语言,我们期望,在这个数据集上表现良好的模型,能够推广到世界上的大量语言。

类型多样的语言集

TyDi QA 包括了来自 11 种语言的超过 200000 个问答对,代表了一系列不同的语言现象和数据挑战。其中许多语言使用的是非拉丁字母,如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语(Telugu)和泰语。还有一些单词的构成方式很复杂,如阿拉伯语、芬兰语、印尼语、斯瓦希里语(Kiswahili)、俄语等。日语使用四种字母,如:



由四种颜色表示,而韩文字母本身具有很强的组合型。这些语言的范围也很广,从网上有很多可用数据(如英语和阿拉伯语)到只有很少的数据(如孟加拉语和斯瓦希里语)。我们期望,能够应对这些挑战的系统将在许多语言中取得成功。

创建真实数据

研究社区使用的许多早期 QA 数据集都是这样创建的:首先给人们一篇文章,然后要求他们根据阅读文章的内容写出问题来创建。然而,由于人们在写下每个问题时都能够看到答案,这种方法产生的问题往往包含与答案相同的单词。因此,针对这类数据进行训练的机器学习算法更倾向于单词匹配,而忽略了满足用户需求所需的更细微的答案。


为了构建一个更自然的数据集,我们从那些想要得到答案但还不知道答案的人那里收集了问题。为了激发问题的灵感,我们向人们展示了维基百科(Wikipedia)用他们的母语写成的一段有趣的内容。然后,我们让他们提一个问题,任何问题都可以,只要我给他们看的内容没有回答,并且他们实际上想知道答案。这类似于当你在大街上闲逛时,你的好奇心可能会引发关于你所看到的有趣事物的问题。我们鼓励他们在提出问题时发挥想象力。比如,一篇关于冰的文章,会让你想到夏天的冰棒吗?棒极了!问问是谁发明了冰棒。重要的是,问题是直接用某种语言写就的,而不是翻译,因此许多问题不同于那些在英语版语料库中看到的问题。孟加拉语中有一个问题:“সফেদা ফল খেতে কেমন?”(人心果(Sapodilla)是什么味道?)从来没听说过人心果吗?这可能是因为人心果在印度比美国更常见。


对于这些问题中的每一个,我们在 Google 上用适当的语言搜索最匹配的维基百科的文章,并要求提问者在文章中查找并高亮显示答案。虽然我们预料到当提问者没有找到答案时,问题和答案之间会有一些有趣的分歧,但结合世界语言中惊人的广泛语言现象,我们发现情况甚至更为复杂。


例如,在芬兰语中,有一些有趣的例子,在问题和回答中,day 和 week 这两个词的表达方式就非常不同。要成功从整个维基百科文章中选择这个答案句子,系统需要能够识别出芬兰语词汇 viikonpäivät、seitsenpäiväinen 和 viikko 之间的关系。


作为研究社区共同取得进展

我们希望,这个数据集能够推动研究社区进行创新,为世界各地的用户创建更有用的问答系统。为了跟踪社区的进展,我们建立了一个排行榜,参与者可以在其上评估他们的机器学习系统的质量,我们还开源了一个使用该数据集的问答系统。要查看排行榜并了解更多信息,请访问挑战网站。


作者介绍:


Jonathan Clark,Google Research 研究科学家。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-02-10 14:371792
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 261.4 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

鸿蒙生态 | 从开发到运营,如何步步为“赢”?

最新动态

Wallys-QCN9074 /802.11ax/4x4 MU-MIMO /6GHz wifi6E

wallys-wifi6

AI简报-FIX你的模型

AIWeker

人工智能 深度学习 5月月更 AI简报

EMQX+阿里云Tablestore多场景一站式IoT数据解决方案正式发布

EMQ映云科技

阿里云 物联网 一站式平台 emqx 5月月更

小程序转APP,小团队也能实现数字化生态闭环

Speedoooo

APP开发 跨端开发 小程序容器 小程序转app 跨端运行

昆仑数据库可定制的数据分片方案

KunlunBase昆仑数据库

国产数据库

leetcode 451. Sort Characters By Frequency 根据字符出现频率排序

okokabcd

LeetCode 排序

KunlunBase 查询优化(一)

KunlunBase昆仑数据库

MySQL 数据库 国产数据库

数据库系统最佳实践系列 --- 使用 prepared statement

KunlunBase昆仑数据库

国产数据库

KunlunBase 查询优化(二)Project 和 Filter 下推

KunlunBase昆仑数据库

国产数据库

你想学Python爬虫?看看这篇关于开发者工具神器的博客吧

梦想橡皮擦

5月月更

官宣|秒云与极狐(GitLab)达成战略合作,打造云原生DevOps一体化解决方案

MIAOYUN

DevOps 运维 云原生

手把手教你搭个Frida + Sekiro Rpc框架

奋飞安全

【二级等保】二级等保怎么做?价格怎么样?贵吗?

行云管家

运维 网络安全 堡垒机 运维审计

聊武侠、讲段子,为了帮小白入门Spring Boot,这书有多拼!

博文视点Broadview

数据库堡垒机品牌有哪些?买哪家划算?咨询电话多少?

行云管家

网络安全 信息安全 数据安全 堡垒机

KunlunBase 查询优化(三)排序下推

KunlunBase昆仑数据库

国产数据库

关于加密通道规范,你真正用的是TLS,而非SSL

华为云开发者联盟

TLS 加密 ssl 加密通道 CA系统

如何写好产品手册?

小炮

如何通过 Amazon Textract 改善新冠疫情期间的 PPP 贷款效率

亚马逊云科技 (Amazon Web Services)

效率 Amazon

java培训学习后找不到工作的原因你占了几条

@零度

JAVA开发

深入解读SQL的聚集函数

华为云开发者联盟

sql GaussDB(DWS) 聚集操作 主键列

实例讲解FusionInsight MRS RTD 实时决策引擎在医保行业应用

华为云开发者联盟

数据湖 风控 医保 FusionInsight RTD 实时决策

MySQL-8.0 Group Replication 研究与改造汇总

KunlunBase昆仑数据库

国产数据库 MySQL 数据库

2022年中国消费金融数字化发展分析

易观分析

消费金融

【LeetCode】调整数组顺序使奇数位于偶数前面Java题解

Albert

LeetCode 5月月更

三分钟让你了解 vue 中的父子通讯

CRMEB

Wallys-Waterproof Enclosure Metal Outdoor

wallys-wifi6

IPQ4019 802.11ac

大数据课程培训到离职转行这个过程你知道经历了什么吗

@零度

大数据开发

web前端培训创建 NPX 工具

@零度

web前端开发

什么?JDK8的ConcurrentHashMap 有 Bug

skow

Java 后端 并发

谷歌发布TyDi QA语料库,涵盖11种不同类型语言_AI&大模型_Jonathan Clark_InfoQ精选文章