为了鼓励对多语言问答技术的研究，近日，谷歌发布了 TyDi QA，这是一个涵盖了 11 种不同类型语言的问答语料库。

本文已获原作者授权，InfoQ整理并翻译。

问答技术帮助人们在日常生活中遇到问题时，如“乌贼的墨汁可以安全食用吗？”之类的问题，用户可以通过询问语音助理或键入搜索内容并期望得到答案。去年，我们向研究社区发布了英语版的自然问题数据集，以提供反映真实用户需求的挑战。然而，世界上还有成千上万不同的语言，其中许多语言使用非常不同的方法来构造语义。例如，在英语中，一个物体（“book”）和多个物体（“books”）；而在阿拉伯语中，也有第三种形式表示，除了单数（“كتاب”，kitab）或复数（“كتب”， kutub）之外，还有表示两个物体 (“كتابان”，kitaban) 。此外，有一些语言，如日语，在单词之间并不使用空格。要创建这样一种机器学习系统，能够理解语言表达意义的多种方式，真不啻为一项挑战，而训练这样的系统，需要从它们将应用到的不同语言中获得样本。

为了鼓励对多语言问答技术的研究，今天，我们发布了 TyDi QA，这是一个涵盖了 11 种不同类型语言的问答语料库。在我们的论文《TyDi QA：不同类型语言中信息查询问答系统的基准》（TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages）中描述，我们的语料库的灵感来自于类型多样性，这是一种概念，即不同的语言以不同的结构方式来表达意义。因为我们为这个语料库选择了一组在类型上彼此相距较远的语言，我们期望，在这个数据集上表现良好的模型，能够推广到世界上的大量语言。

类型多样的语言集

TyDi QA 包括了来自 11 种语言的超过 200000 个问答对，代表了一系列不同的语言现象和数据挑战。其中许多语言使用的是非拉丁字母，如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语（Telugu）和泰语。还有一些单词的构成方式很复杂，如阿拉伯语、芬兰语、印尼语、斯瓦希里语（Kiswahili）、俄语等。日语使用四种字母，如：

由四种颜色表示，而韩文字母本身具有很强的组合型。这些语言的范围也很广，从网上有很多可用数据（如英语和阿拉伯语）到只有很少的数据（如孟加拉语和斯瓦希里语）。我们期望，能够应对这些挑战的系统将在许多语言中取得成功。

创建真实数据

研究社区使用的许多早期 QA 数据集都是这样创建的：首先给人们一篇文章，然后要求他们根据阅读文章的内容写出问题来创建。然而，由于人们在写下每个问题时都能够看到答案，这种方法产生的问题往往包含与答案相同的单词。因此，针对这类数据进行训练的机器学习算法更倾向于单词匹配，而忽略了满足用户需求所需的更细微的答案。

为了构建一个更自然的数据集，我们从那些想要得到答案但还不知道答案的人那里收集了问题。为了激发问题的灵感，我们向人们展示了维基百科（Wikipedia）用他们的母语写成的一段有趣的内容。然后，我们让他们提一个问题，任何问题都可以，只要我给他们看的内容没有回答，并且他们实际上想知道答案。这类似于当你在大街上闲逛时，你的好奇心可能会引发关于你所看到的有趣事物的问题。我们鼓励他们在提出问题时发挥想象力。比如，一篇关于冰的文章，会让你想到夏天的冰棒吗？棒极了！问问是谁发明了冰棒。重要的是，问题是直接用某种语言写就的，而不是翻译，因此许多问题不同于那些在英语版语料库中看到的问题。孟加拉语中有一个问题：“সফেদা ফল খেতে কেমন?”（人心果（Sapodilla）是什么味道？）从来没听说过人心果吗？这可能是因为人心果在印度比美国更常见。

对于这些问题中的每一个，我们在 Google 上用适当的语言搜索最匹配的维基百科的文章，并要求提问者在文章中查找并高亮显示答案。虽然我们预料到当提问者没有找到答案时，问题和答案之间会有一些有趣的分歧，但结合世界语言中惊人的广泛语言现象，我们发现情况甚至更为复杂。

例如，在芬兰语中，有一些有趣的例子，在问题和回答中，day 和 week 这两个词的表达方式就非常不同。要成功从整个维基百科文章中选择这个答案句子，系统需要能够识别出芬兰语词汇 viikonpäivät、seitsenpäiväinen 和 viikko 之间的关系。

作为研究社区共同取得进展

我们希望，这个数据集能够推动研究社区进行创新，为世界各地的用户创建更有用的问答系统。为了跟踪社区的进展，我们建立了一个排行榜，参与者可以在其上评估他们的机器学习系统的质量，我们还开源了一个使用该数据集的问答系统。要查看排行榜并了解更多信息，请访问挑战网站。

作者介绍：

Jonathan Clark，Google Research 研究科学家。

创作场景

谷歌发布 TyDi QA 语料库，涵盖 11 种不同类型语言