NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Mozilla 开放现有最大人类语音数据集,包含 18 种语言 1400 小时语音数据

  • 2019-03-01
  • 本文字数:1366 字

    阅读完需:约 4 分钟

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据

2 月 28 日,Mozilla 发布了最大的人类语音数据集,包括 18 种不同的语言,总计记录了超过 42000 个贡献者的近 1400 个小时的语音数据。在 Mozilla 官方博客上,还更新了一篇对数据集来源以及用途的说明,InfoQ 在不改变原意的基础上对这篇文章的部分内容进行了编译,具体如下:


今天,我们很高兴与大家分享我们的第一个多语言数据集,其中包含 18 种语言,包括英语、法语、德语和汉语普通话,也包括威尔士语和卡比尔语。总的来说,新的数据集包括了超过 42000 人的大约 1400 个小时的语音片段。


随着此版本的发布,这个仍然在不断增长的通用语音数据集现在已经是同类数据集中最大的,成千上万的人贡献了他们的声音。接下来,完整的数据集将在 Common Voice 站点上提供下载。


官方中文下载地址:https://voice.mozilla.org/zh-CN/datasets

数据质量

Common Voice 数据集不仅在其大小和许可模型上是独特的,而且在其多样性上也是独特的,它代表了一个由语音贡献者组成的全球社区。贡献者可以选择加入,提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。


GitHub 地址:https://github.com/JRMeyer/open-speech-corpora


这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED 演讲的 TEDLIUM 语料库中,男性声音的数据量是女性的 3 倍)。

8 个月,从 3 种语言到 22 种语言

自 2018 年 6 月启用多种语言支持以来,Common Voice 已变得更加全球化和包容化。这已经超出了我们的预期:在过去的 8 个月里,社区热情地团结在这个项目周围,用 22 种语言启动了数据收集工作,在 Common Voice 网站上,还有 70 种语言正在进行中,令人难以置信。


作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。


我们最新添加的语言包括荷兰语、哈卡钦语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,在 Common Voice 上发布一种新语言是该语言在互联网上出现的开始。这些社区的努力证明了所有的语言——不仅仅是那些能为科技公司带来高收入的语言——都值得被代表。

改进贡献体验,包括可选配置文件

Common Voice 网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程的结果。我们听取了社区对贡献的痛点的反馈,同时也进行了可用性研究,使贡献更容易、更吸引人、更有趣。


贡献者不仅可以看到每种语言在记录和验证方面的进展,而且还可以改进不同剪辑片段之间的提示;作为体验的一个组成部分,贡献者可以尝试审查、重新录制和跳过剪辑等新功能;此外,体验者还能够在说与听功能之间快速切换,以及选择退出会话的功能。


我们还添加了创建已保存的概要文件的选项,它允许贡献者跨多种语言跟踪他们的进度和指标。提供一些可选的人口统计信息还可以提高语音识别训练中使用的音频数据准确性。



原文链接:


https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-03-01 11:205327
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.9 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

轶事

言未卜

nmon和nmon analyser的网盘下载安装与使用

InfoQ_Springup

工具

智能会话机器人:SaaS 平台的设计与思考

极客志

自然语言处理 chatbot 聊天机器人 智能会话机器人

如何快速制作短视频?拥有这个神器,轻松搞定!

奈奈的杂社

短视频 视频剪辑 自媒体

爬虫实战教程:采集微信公众号文章

前嗅大数据

大数据 爬虫 数据采集 爬虫教程

超详细教程:SpringBoot整合MybatisPlus

华为云开发者联盟

Java spring springboot 代码 MyBatisPlus

Offer收割机!阿里P7大神甩出JSP实战笔记,网友:信息量过大

飞飞JAva

Java

架构实战模块三作业

Geek_649372

架构实战营

【HDC.Cloud 2021】边云协同,打通AI最后一公里

华为云原生团队

人工智能 开源 云原生 边缘计算 华为云

架构实战营 模块三作业

netspecial

架构实战营

STM32低功耗模式下GPIO如何配置最节能?

不脱发的程序猿

嵌入式 stm32 单片机 低功耗模式

运维五一不加班,从一套On-Call响应机制开始!

睿象云

运维 告警 智能运维 告警设置 告警管理

腾讯T6!万字长文体系化讲解Spring源码,码农:太透彻了,学会了

牛哄哄的java大师

Java

一周信创舆情观察(4.26~5.5)

统小信uos

Tars Java 客户端源码分析

vivo互联网技术

Java TARS RPC架构

为何“低代码”频频引发业界热议?

优秀

低代码

从狗狗币说起 看区块链的未来发展方向

CECBC

狗狗币

Hive解析Json数组超全讲解

五分钟学大数据

hive 5月日更

如何在苹果M1上安装使用FL Studio

奈奈的杂社

编曲 教程分享 编曲软件

“服务可达的数据链DNA” ,打通从代码到用户的“任督二脉”

博睿数据

数据链DNA

马丁格尔策略交易软件源码,量化策略系统开发

深入浅出 LVS 负载均衡系列(二):DR、TUN 模型原理

UCloud技术

负载均衡

rocketmq优雅停机往事

捉虫大师

全新 Jira 系列,适用于所有团队!

Atlassian

DevOps 敏捷 Atlassian Jira

“红黑树”详解丨红黑树的应用场景

Linux服务器开发

后端 红黑树 Linux服务器开发 Linux内核 红黑树应用场景

在线体验四大名著情景(地图、游戏)

不脱发的程序猿

开源 程序人生 四大名著

模块2学习总结

TH

架构实战营

看完阿里P7技术大牛的JVM知识点总结,竟帮我斩获了3份大厂Offer

飞飞JAva

Java JVM

关于安卓设备声音远程传输的解决方案

行者AI

云平台

模块2作业 微信朋友圈高性能复杂度

TH

架构实战营

打破思维定式(三)

Changing Lin

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据_AI&大模型_Mozilla官方博客_InfoQ精选文章