全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载_AI_张彬彬

点击围观！腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践！了解详情 



 写点什么

日前，西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布 1 万小时多领域中文语音识别数据集 WenetSpeech，在腾讯会议天籁实验室、华为昇思 MindSpore、西安未来人工智能计算中心等机构大力支持下，该数据集目前已经开放下载。数据申请入口:

https://wenet-e2e.github.io/WenetSpeech/

目前该工作已经投稿语音研究顶级会议 ICASSP2022，详见：

https://arxiv.org/pdf/2110.03370.pdf

WenetSpeech 介绍

近十年以来，在深度学习的推动下，语音识别技术和应用均取得了突飞猛进的发展，搭载语音识别技术的相关产品和服务，诸如语音搜索、语音输入法、智能音箱、智能电视、智能穿戴、智能客服、机器人等已经广泛应用到我们生活的方方面面。

但在现有的中文语音识别研究中，由于开源中文语音数据集数据量少，场景单一，缺乏挑战性，不能反映研究模型在大数据量和复杂场景下的泛化能力，例如，当前最大的中文普通话开源数据集 AIShell-2，包含 1000 小时的朗读风格录制数据，主流识别系统在该数据的测试集上获得的错误率低至 5.3%左右。

工业界往往使用更大规模的内部数据进行研究，而学术界无法获取这些数据进行研究，这导致了中文语音识别研究在学术界和工业界的严重割裂。另一方面，当下研究的热点无监督学习和自学习，在中文语音识别领域，也缺乏公开标准的大数据集的支持。

今年以来，Facebook 发布面向监督学习的 5 万小时的英文 audiobook 数据集 Multilingual LibriSpeech；SpeechColab 发布 1 万小时的多领域英文数据集 GigaSpeech。受这些工作的启发，同时中文语音识别研究也迫切需要一个标准的大规模多领域的数据集，为此我们设计开发了 WenetSpeech 数据集。

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外，还包括 2400+ 小时弱标注数据和 22400+ 小时的总音频，覆盖各种互联网音视频、噪声背景条件、讲话方式，来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等 10 大场景，领域详细统计数据如下图所示。

数据收集

WenetSpeech 所有的数据均来源于网络，其中三分之二的数据来自 Youtube，三分之一来自 Podcast。

对于 Youtube 数据，我们人工选择含有嵌入式硬字幕（字幕嵌入在视频流中，非外挂字幕）的视频资源，并构建了如下图的基于 OCR 的系统进行数据挖掘，流程如下：

文本检测，在当前视频帧上进行文本检测。
字幕位置校验，判断检测到的文本区域是否为合法的字幕区域。
字幕切换检测，已得到字幕位置和区域，在连续的视频帧上对该区域进行检测，直至该区域的字幕变化为止，得到字幕的起始和结束时间。
文本识别，将字幕区域进行 OCR 识别，得到文本。
将 3 中对应时间的音频提取出来，结合 4 中的文本，即得到字幕文本和该文本对应的音频，也就是语音识别训练中所需的文本和语音的候选平行数据。

下图中给出该 OCR 系统在不同场景下的几个典型示例。图中绿色的框为检测到的所有文字区域，红色的框为判定为字幕的文字区域，红色框上方的文本为 OCR 的识别结果。可以看到，该系统正确的判定了字幕区域，并准确的识别了字幕文本，同时经过我们测试，发现该系统也可以准确判定字幕的起始和结束时间。

对于 Podcast 数据，我们使用国内最好的商业语音识别系统之一，对 Podcast 数据进行切分，并生成切分后音频和其所对应的文本作为候选平行数据。

数据校验

OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误，如人工字幕本身有错误，字幕时间不准，OCR 识别错误，转写错误等。为了检测该错误，WenetSpeech 中提出一种基于端到端的自动标注错误检测算法，如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图，该图中允许在任意位置进行删除、插入和替换操作。

然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp)，最终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致性高时，ref 和 hyp 一致性高，置信度高，反之，当候选语音和文本一致性低时，置信度低。

WenetSpeech 中选取置信度>=95%的数据作为高质量标注数据，选取置信度在 0.6 和 0.95 之间的数据作为弱监督数据。关于该算法的详细内容，请参考我们的论文。

排行榜

除了训练中校验用途的 Dev 集外，我们还设计了两个人工精标测试集，互联网测试集 Test_Net 和会议测试集 Test_Meeting，作为“匹配”和“不匹配”测试，同时提供三个语音识别主流工具包（Kaldi，ESPNet，WeNet）上搭建的基线系统，方便大家复现。在 10000+ 小时的高质量标注数据上，目前三个系统的语音识别率如下表所示（结果为 MER%，中文算字错误，英文算词错误）。

WenetSpeech 2.0

虽然 WenetSpeech 将开源中文语音识别训练数据规模提升到一个新的高度，然而我们希望进一步进行扩展和完善：

从领域角度，现有数据集在口音、中英文混合、会议、远场、教育、电话、语音助手等场景仍覆盖不足。

2.从数据量角度，现有的 2 万+小时的总数据，对于无监督学习仍然远远不够。

因此，WenetSpeech 在设计之初，就考虑到了未来做进一步扩展。目前我们已经开始 WenetSpeech 2.0 的工作，并且在 2.0 中，我们希望更多的行业机构和开发者能参与进来，能够集行业之力更好、更快的去做一个更大更泛化的数据集，从而进一步反哺和造福整个行业。

作者介绍

张彬彬，出门问问 WeNet 项目负责人，2018 年加入出门问问负责端到端语音识别系统的研发和落地，包括 WeNet 的开源推进，车载和 toB 项目等。2017 年硕士毕业于西北工业大学音频语音与语言处理研究组，曾在微软、百度、地平线等公司工作。

发布

暂无评论

创作场景

全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载

WenetSpeech 介绍

数据收集

数据校验

排行榜

WenetSpeech 2.0

评论

SpringCloudGateway(一) 概览

为了搞清楚类加载，竟然手撸JVM！

智慧社区综合应用平台搭建，社区管理解决方案

5G与4G的差别及应用

Java多线程编程核心技术

爆赞！P8架构师总结29篇多线程与高并发+设计模式核心笔记

RPC Demo（二）基于 Zookeeper 的服务发现

鸟枪换炮，利用python3对球员做大数据降维(因子分析得分)，为C罗找到合格僚机

母鸡下蛋实例：多线程通信生产者和消费者wait/notify和condition/await/signal条件队列

Spring cloud Gateway（二）一个Http请求的流程解析

LeetCode题解：239. 滑动窗口最大值，二叉堆，JavaScript，详细注释

NoahTenet诺亚信条软件系统APP开发

分享一个普通程序员的“沪漂”六年的历程以及感想

IPFS分布式存储矿机系统APP软件开发

阿里面试：Mybatis中方法和SQL是怎么关联起来的呢？

测开之函数进阶· 第6篇《闭包》

送你一份迷你书，全面了解如何做好大促技术备战

技术干货 | 六分钟学会使用 HBuilder 引入构建 mPaaS 小程序

跨年巨作！13万字！腾讯高工纯手写“JDK源码笔记”直接带你飙向实战

重新发现科技与人文的互动

MySQL为Null会导致5个问题，个个致命！

IPFS挖矿矿机系统开发方案丨IPFS挖矿矿机源码案例

令数字起舞，让自然微笑：TECH4ALL的2020启示录

IPFS挖矿系统开发详情案例

通达同城快递设计方案

IPFS云算力挖矿系统开发详解案例及源码

CKLC挖矿矿机系统开发案例介绍

盘点2020 | YourBatman 2020年感悟关键词：科比、裁员、管理层、活着

AAAI 2021论文：利用深度元学习对城市销量进行预测（附论文下载）

公安警务报警系统，二维码一键定位报警

创作场景

全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载

WenetSpeech 介绍

数据收集

数据校验

排行榜

WenetSpeech 2.0

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载