点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载

  • 2021-10-30
  • 本文字数:2247 字

    阅读完需:约 7 分钟

全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载

日前,西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布 1 万小时多领域中文语音识别数据集 WenetSpeech,在腾讯会议天籁实验室、华为昇思 MindSpore、 西安未来人工智能计算中心等机构大力支持下,该数据集目前已经开放下载。数据申请入口: 


https://wenet-e2e.github.io/WenetSpeech/ 


目前该工作已经投稿语音研究顶级会议 ICASSP2022,详见:


https://arxiv.org/pdf/2110.03370.pdf



WenetSpeech 介绍


近十年以来,在深度学习的推动下,语音识别技术和应用均取得了突飞猛进的发展,搭载语音识别技术的相关产品和服务,诸如语音搜索、语音输入法、智能音箱、智能电视、智能穿戴、智能客服、机器人等已经广泛应用到我们生活的方方面面。


但在现有的中文语音识别研究中,由于开源中文语音数据集数据量少,场景单一,缺乏挑战性,不能反映研究模型在大数据量和复杂场景下的泛化能力,例如,当前最大的中文普通话开源数据集 AIShell-2,包含 1000 小时的朗读风格录制数据,主流识别系统在该数据的测试集上获得的错误率低至 5.3%左右。


工业界往往使用更大规模的内部数据进行研究,而学术界无法获取这些数据进行研究,这导致了中文语音识别研究在学术界和工业界的严重割裂。另一方面,当下研究的热点无监督学习和自学习,在中文语音识别领域,也缺乏公开标准的大数据集的支持。


今年以来,Facebook 发布面向监督学习的 5 万小时的英文 audiobook 数据集 Multilingual LibriSpeech;SpeechColab 发布 1 万小时的多领域英文数据集 GigaSpeech。受这些工作的启发,同时中文语音识别研究也迫切需要一个标准的大规模多领域的数据集,为此我们设计开发了 WenetSpeech 数据集。


WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括 2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音视频、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等 10 大场景,领域详细统计数据如下图所示。



数据收集


WenetSpeech 所有的数据均来源于网络,其中三分之二的数据来自 Youtube,三分之一来自 Podcast。

对于 Youtube 数据,我们人工选择含有嵌入式硬字幕(字幕嵌入在视频流中,非外挂字幕)的视频资源,并构建了如下图的基于 OCR 的系统进行数据挖掘,流程如下:


  1. 文本检测,在当前视频帧上进行文本检测。

  2. 字幕位置校验,判断检测到的文本区域是否为合法的字幕区域。

  3. 字幕切换检测,已得到字幕位置和区域,在连续的视频帧上对该区域进行检测,直至该区域的字幕变化为止,得到字幕的起始和结束时间。

  4. 文本识别,将字幕区域进行 OCR 识别,得到文本。

  5. 将 3 中对应时间的音频提取出来,结合 4 中的文本,即得到字幕文本和该文本对应的音频,也就是语音识别训练中所需的文本和语音的候选平行数据。




下图中给出该 OCR 系统在不同场景下的几个典型示例。图中绿色的框为检测到的所有文字区域,红色的框为判定为字幕的文字区域,红色框上方的文本为 OCR 的识别结果。 可以看到,该系统正确的判定了字幕区域,并准确的识别了字幕文本,同时经过我们测试,发现该系统也可以准确判定字幕的起始和结束时间。



对于 Podcast 数据,我们使用国内最好的商业语音识别系统之一,对 Podcast 数据进行切分,并生成切分后音频和其所对应的文本作为候选平行数据。

数据校验


OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误,如人工字幕本身有错误,字幕时间不准,OCR 识别错误,转写错误等。为了检测该错误,WenetSpeech 中提出一种基于端到端的自动标注错误检测算法,如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图,该图中允许在任意位置进行删除、插入和替换操作。


然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp),最终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致性高时,ref 和 hyp 一致性高,置信度高,反之,当候选语音和文本一致性低时,置信度低。



WenetSpeech 中选取置信度>=95%的数据作为高质量标注数据,选取置信度在 0.6 和 0.95 之间的数据作为弱监督数据。关于该算法的详细内容,请参考我们的论文。

排行榜


除了训练中校验用途的 Dev 集外,我们还设计了两个人工精标测试集,互联网测试集 Test_Net 和会议测试集 Test_Meeting,作为“匹配”和“不匹配”测试,同时提供三个语音识别主流工具包(Kaldi,ESPNet,WeNet)上搭建的基线系统,方便大家复现。在 10000+ 小时的高质量标注数据上,目前三个系统的语音识别率如下表所示(结果为 MER%,中文算字错误,英文算词错误)。



WenetSpeech 2.0


虽然 WenetSpeech 将开源中文语音识别训练数据规模提升到一个新的高度,然而我们希望进一步进行扩展和完善:


  1. 从领域角度,现有数据集在口音、中英文混合、会议、远场、教育、电话、语音助手等场景仍覆盖不足。


2.从数据量角度,现有的 2 万+小时的总数据,对于无监督学习仍然远远不够。


因此,WenetSpeech 在设计之初,就考虑到了未来做进一步扩展。目前我们已经开始 WenetSpeech 2.0 的工作,并且在 2.0 中,我们希望更多的行业机构和开发者能参与进来,能够集行业之力更好、更快的去做一个更大更泛化的数据集,从而进一步反哺和造福整个行业。


作者介绍


张彬彬,出门问问 WeNet 项目负责人,2018 年加入出门问问负责端到端语音识别系统的研发和落地,包括 WeNet 的开源推进,车载和 toB 项目等。2017 年硕士毕业于西北工业大学音频语音与语言处理研究组,曾在微软、百度、地平线等公司工作。


2021-10-30 17:504568

评论

发布
暂无评论
发现更多内容

SpringCloudGateway(一) 概览

Java SpringcloudGateway

为了搞清楚类加载,竟然手撸JVM!

小傅哥

JVM 小傅哥 类加载 生命周期 加载机制

智慧社区综合应用平台搭建,社区管理解决方案

t13823115967

智慧社区管理平台开发 智慧平安社区平台建设

5G与4G的差别及应用

anyRTC开发者

人工智能 android AI 5G WebRTC

Java多线程编程核心技术

田维常

多线程

爆赞!P8架构师总结29篇多线程与高并发+设计模式核心笔记

Java架构追梦

Java 学习 架构 面试 多线程高并发

RPC Demo(二) 基于 Zookeeper 的服务发现

Java zookeeper RPC 服务发现

鸟枪换炮,利用python3对球员做大数据降维(因子分析得分),为C罗找到合格僚机

刘悦的技术博客

Python 数据分析 特征选择 降维

母鸡下蛋实例:多线程通信生产者和消费者wait/notify和condition/await/signal条件队列

叫练

多线程与高并发 Wait lock 线程互斥 await

Spring cloud Gateway(二) 一个Http请求的流程解析

Java 网关

LeetCode题解:239. 滑动窗口最大值,二叉堆,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

NoahTenet诺亚信条软件系统APP开发

系统开发

分享一个普通程序员的“沪漂”六年的历程以及感想

程序员老猫

回忆录 经历 年终总结 沪漂 上海买房

IPFS分布式存储矿机系统APP软件开发

系统开发

阿里面试:Mybatis中方法和SQL是怎么关联起来的呢?

田维常

mybatis

测开之函数进阶· 第6篇《闭包》

清菡软件测试

测试开发

送你一份迷你书,全面了解如何做好大促技术备战

京东科技开发者

DevOps

技术干货 | 六分钟学会使用 HBuilder 引入构建 mPaaS 小程序

蚂蚁集团移动开发平台 mPaaS

小程序 uni-app mPaaS

跨年巨作!13万字!腾讯高工纯手写“JDK源码笔记”直接带你飙向实战

比伯

Java 编程 架构 面试 计算机

重新发现科技与人文的互动

脑极体

MySQL为Null会导致5个问题,个个致命!

王磊

MySQL MySQL使用

IPFS挖矿矿机系统开发方案丨IPFS挖矿矿机源码案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿系统开发搭建

令数字起舞,让自然微笑:TECH4ALL的2020启示录

脑极体

IPFS挖矿系统开发详情案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿软件系统开发

通达同城快递设计方案

garlic

架构师训练营第 1 期

IPFS云算力挖矿系统开发详解案例及源码

系统开发咨询1357O98O718

云算力挖矿系统开发详解 云算力APP系统软件开发 云算力模式系统开发源码 云算力软件系统开发定制

CKLC挖矿矿机系统开发案例介绍

系统开发咨询1357O98O718

CKLC挖矿矿机系统软件开发 CKLC挖矿矿机系统开发 CKLC挖矿矿机APP系统开发

盘点2020 | YourBatman 2020年感悟关键词:科比、裁员、管理层、活着

YourBatman

裁员 盘点2020 科比 管理层 活着

AAAI 2021论文:利用深度元学习对城市销量进行预测(附论文下载)

京东科技开发者

数据库 大数据 时序预测

公安警务报警系统,二维码一键定位报警

t13823115967

二维码定位报警系统开发 微警务 二维码定位

全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载_AI_张彬彬_InfoQ精选文章