【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Mozilla 开放现有最大人类语音数据集,包含 18 种语言 1400 小时语音数据

  • 2019-03-01
  • 本文字数:1366 字

    阅读完需:约 4 分钟

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据

2 月 28 日,Mozilla 发布了最大的人类语音数据集,包括 18 种不同的语言,总计记录了超过 42000 个贡献者的近 1400 个小时的语音数据。在 Mozilla 官方博客上,还更新了一篇对数据集来源以及用途的说明,InfoQ 在不改变原意的基础上对这篇文章的部分内容进行了编译,具体如下:


今天,我们很高兴与大家分享我们的第一个多语言数据集,其中包含 18 种语言,包括英语、法语、德语和汉语普通话,也包括威尔士语和卡比尔语。总的来说,新的数据集包括了超过 42000 人的大约 1400 个小时的语音片段。


随着此版本的发布,这个仍然在不断增长的通用语音数据集现在已经是同类数据集中最大的,成千上万的人贡献了他们的声音。接下来,完整的数据集将在 Common Voice 站点上提供下载。


官方中文下载地址:https://voice.mozilla.org/zh-CN/datasets

数据质量

Common Voice 数据集不仅在其大小和许可模型上是独特的,而且在其多样性上也是独特的,它代表了一个由语音贡献者组成的全球社区。贡献者可以选择加入,提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。


GitHub 地址:https://github.com/JRMeyer/open-speech-corpora


这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED 演讲的 TEDLIUM 语料库中,男性声音的数据量是女性的 3 倍)。

8 个月,从 3 种语言到 22 种语言

自 2018 年 6 月启用多种语言支持以来,Common Voice 已变得更加全球化和包容化。这已经超出了我们的预期:在过去的 8 个月里,社区热情地团结在这个项目周围,用 22 种语言启动了数据收集工作,在 Common Voice 网站上,还有 70 种语言正在进行中,令人难以置信。


作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。


我们最新添加的语言包括荷兰语、哈卡钦语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,在 Common Voice 上发布一种新语言是该语言在互联网上出现的开始。这些社区的努力证明了所有的语言——不仅仅是那些能为科技公司带来高收入的语言——都值得被代表。

改进贡献体验,包括可选配置文件

Common Voice 网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程的结果。我们听取了社区对贡献的痛点的反馈,同时也进行了可用性研究,使贡献更容易、更吸引人、更有趣。


贡献者不仅可以看到每种语言在记录和验证方面的进展,而且还可以改进不同剪辑片段之间的提示;作为体验的一个组成部分,贡献者可以尝试审查、重新录制和跳过剪辑等新功能;此外,体验者还能够在说与听功能之间快速切换,以及选择退出会话的功能。


我们还添加了创建已保存的概要文件的选项,它允许贡献者跨多种语言跟踪他们的进度和指标。提供一些可选的人口统计信息还可以提高语音识别训练中使用的音频数据准确性。



原文链接:


https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-03-01 11:205323
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.5 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

性能最快的代码分析工具,Ruff 正在席卷 Python 圈!

EquatorCoco

Python 开源 框架

2023-07-20:假设一共有M个车库,编号1~M,时间点从早到晚是从1~T, 一共有N个记录,每一条记录如下{a, b, c}, 表示一辆车在b时间点进入a车库,在c时间点从a车库出去, 一共有K

福大大架构师每日一题

福大大架构师每日一题

Centos8 stream系统编译安装Nginx1.22教程。

百度搜索:蓝易云

nginx 云计算 Linux centos 运维

掌控MySQL并发:深度解析锁机制与并发控制

砖业洋__

表锁 MySQL并发控制 隐式锁 插入意向锁 行锁

前、后端通用的可视化逻辑编排

悠闲的水

低代码 逻辑编排 低代码平台 可视化编排 可视化开发

第四届“先导杯”全国挑战赛正式开赛 百万奖金等你来拿

科技热闻

2023北京国际数码印花及丝网印刷展览会

吹吹晚风

我来泼盆冷水:正面迎击AI的时代千万别被ChatGPT割了韭菜

EquatorCoco

人工智能 信息安全 ChatGPT

在 K8S 中只会 CI 不会 CD ?3 种方式,让极狐GitLab 和 K8S 高效协同!

极狐GitLab

DevOps 云原生 k8s CI/CD 集成

开源直播源码平台处理卡顿问题技巧方案_山东布谷科技创作

山东布谷科技

开源 软件开发 直播 源码搭建 直播源码

C语言 typedef的用法示例讲解

二哈侠

《中国民用航空业零代码应用与推广白皮书》正式发布

明道云

你的极狐GitLab SaaS上开启这些设置了吗?代码安全,安心下班!

极狐GitLab

gitlab CI/CD DevSecOps 代码安全 软件供应链安全

AI绘图:艺术与科技的交融 | 社区征文

IT蜗壳-Tango

年中技术盘点

AI 改变我们的工作方式 | 社区征文

宇宙之一粟

年中技术盘点

英特尔携钉钉及新华三以创新解决方案变革未来远程协作体验

E科讯

Python爬虫超详细讲解(零基础入门,老年人都看的懂)

Java随想录

Java Python

如何理解小程序插件?微信及支付宝官方详解

没有用户名丶

如何用极狐GitLab 为 Android App 创建自动化CI/CD?详细教程来了

极狐GitLab

自动化 CI/CD Android; keystore fastlane

一文讲透 Redis 事务 (事务模式 VS Lua 脚本)

不在线第一只蜗牛

Lua脚本 redis 底层原理 Redis 可视化工具

Spring高手之路2——深入理解注解驱动配置与XML配置的融合与区别

砖业洋__

XML配置 spring框架 注解驱动配置 组件注册 组件扫描

Nautilus Chain 主网上线,创世 ZBC 质押即将开启

EOSdreamer111

Filter for GO

数由科技

【Linux系统】fdisk相关分区命令。

百度搜索:蓝易云

云计算 Linux 运维 服务器 fdisk

英特尔x MAXHUB:以创新解决方案掀起“智能协作”新浪潮

E科讯

AI与HPC融合,未来会朝什么方向发展 | 社区征文

瓜瓜猪

年中技术盘点

Spring高手之路1——深入理解与实现IOC依赖查找与依赖注入

砖业洋__

ioc 依赖注入 spring框架 依赖查找 IOC面试题

Docker 镜像的导出与导入

陈皮

Docker save load

【有奖互动】开发者版本新特性,你期待哪些更新?#HDC.Together2023#

HarmonyOS开发者

HarmonyOS

阿里商旅账单系统架构设计实践

阿里技术

账单 阿里商旅 账单系统 账单数据

Nautilus Chain 主网上线,创世 ZBC 质押即将开启

股市老人

Mozilla开放现有最大人类语音数据集,包含18种语言1400小时语音数据_AI&大模型_Mozilla官方博客_InfoQ精选文章