AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Interspeech2020 腾讯天籁论文系列解读

  • 2020-12-17
  • 本文字数:4108 字

    阅读完需:约 13 分钟

Interspeech2020腾讯天籁论文系列解读

本篇文章将解读腾讯多媒体实验室“腾讯天籁”团队在 Interspeech2020 上同佐治亚理工学院和中国科学技术大学等单位联合发表的 3 篇论文。Interspeech 是语音技术领域的国际顶级会议,今年于 10 月 25 至 29 日在线上举行,根据主办方发布的数据,Interspeech2020 共接收到有效论文投稿 2140 篇,其中 1022 篇被接收。


▌01




在本篇论文中,探索了语音增强领域的深度张量-向量回归模型(deep tensor-to-vector regression models)中,不同模型参数量和增强后语音质量的关系。提出了一种结合深度卷积神经网络(convolutional neural network,CNNs)和张量训练(tensor-train,TT)输出的混合结构的模型 CNN-TT,该网络结构在保证语音质量的同时,达到了降低了模型参数量的目的。同时,在本篇论文中,我们首先推导出了基于卷积神经网络的向量-向量回归模型的泛化上界。而且,该模型不仅适用于单通道降噪模型,对于多通道也表现良好。


 论文地址

   https://isca-speech.org/archive/Interspeech_2020/pdfs/1900.pdf


背景


语音增强的目的在于提高带噪语音的质量和可懂度。近些年来,随着深度神经网络的引入,语音增强领域有了很大的提升。主流的方法是,通过深度网络将带噪语音的频谱向量映射到干净语音频谱向量,该方法对单通道和多通道语音增强都有着令人惊艳的效果。深度卷积神经网络(CNNs)和循环神经网络(recurrentneural networks,RNNs)更进一步的提升了语音增强的性能。但是,深度神经网络通常意味着较大的计算量,对于一些性能受限的硬件设备,往往不能实用。因此,对不同参数量对应的模型性能进行研究是非常有意义的。深度卷积神经网络(CNNs)对于时域空间信息的学习以及提取更结构化的特征信息有着更强大的建模能力,而张量训练深度神经网络(tensor-traindeep neural networks,TT-DNN)能够在保证语音质量不下降的情况下,降低网络参数量,因此我们的 CNN-TT 网络结合了两个网络的优点。本文中,我们将对 DNN、CNN、TT-DNN、CNN-TT 的模型参数量以及模型效果在单通道和多通道语音降噪两个领域进行比较。我们的 CNN-TT 在参数量是 CNN 模型的 32%时,降噪后的语音质量略超过原始的 CNN 模型,当参数量是原始模型的 44%时,该性能得到进一步提升。


模型


张量训练深度神经网络(TT-DNN)的本质是将网络的输入、输出、权重、偏置均改为张量的形式进行训练,反向传播仍然采用链式传导法则。原理上,对于一个节点数为 256 的全连接层,如果输入是 160*120*3,那么权重的参数量为 14745600。而张量训练,是将向量变换为张量的形式,比如输入变换为 8*20*20*18,输出变换为 4*4*4*4,张量训练的秩为 1*4*4*4*1,则只需要 2976 个参数,参数量的压缩率为 2e-4。所以张量训练可以极大的压缩模型的参数量。


如下图所示,本文提出的模型是 CNN-TT 如(d)所示,前三个图是我们用于对比的模型,分别是原始的 DNN 模型、原始的 CNN 模型、张量训练 DNN 模型(TT-DNN)。该模型的一个重要优势在于通过将输出全连接层替换为张量训练层,模型计算量得到极大的减小。并且结合 CNN 和 TT 的性能上界推断出 CNN-TT 的上界为:




实验




本文所提出来的方法分别在 Edinburgh 和 WSJ0 数据集上进行单通道降噪和多通道降噪效果的评估,结果分如表 1 和表 2 所示。表 1 中,张量训练的 DNN-TT 模型和原始的 DNN 模型相比,参数量从 5.5M 下降到 0.55M,pesq 基本持平。原始的 CNN 和 DNN 相比,pesq 提升了 0.22 个点。本文提出的 CNN-TT 模型参数量从 9.1M 下降到 0.73M 时,性能略有下降,下降到 2.9M 时,性能略有提升。同样的,在表 2 的多通道语音增强中,CNN-TT 在保持 pesq 不下降的情况下,降低参数量。两个表格中的,Tucker-3 是一种在正交空间中计算不同张量模式的高阶扩展奇异值分解方法,在这里作为 CNN-TT 的对比,可以看到,该方法参数量下降有限,并且语音质量有所下降。


结论


本文提出了一种结合深度卷积神经网络和张量训练输出的混合结构的模型 CNN-TT,该网络结构在保证语音质量的同时,达到了降低了模型参数量的目的。并将该结构和其他几种张量到向量的回归网络进行了对比,在单通道降噪和多通道降噪上均给出了实验对比。


▌02


接下来,我们将介绍论文《Relational Teacher Student Learning with Neural Label Embedding forDevice Adaptation in Acoustic Scene Classification》。



在这篇论文中,提出了基于域自适应的框架来处理声学场景识别中设备不匹配的问题,这种框架是基于神经标注提取(Neural Label Embedding, NLE) 和关系性的老师-学生学习(Relational teacher student learning, RTSL)。通过综合考滤到不同声学场景之间的结构性关系,提出的方法可以实现设备非相关的系统。训练阶段,可转移知识在 NLE 模块被提取出来,在自适应阶段,全新提出的 RTSL 策略被使用来学习目标声学模型,学习过程中没有使用配对好的源-目标数据,而这些源-目标数据在传统老师学生模型中是必须的。在 DCASE 2018 Task 1b 的数据集上验证, 单独的 NLE 方法可以达到传统设备自适应和老师学生技术。NLE 和 RTSL 相结合后,可以更进一步提高系统的识别性能。


   论文地址为:

   https://isca-speech.org/archive/Interspeech_2020/pdfs/2038.pdf


背景


近些年来,声学场景识别性能有了很大的提升,在学术与工业界越来越多的队伍进行做此类研究,例如像国际顶尖级别的声学场景识别比赛(DCASE challenge)。性能最好的系统采用了深度学习网络(DNNs)来处理声学场景识别。深度卷积神经网络(CNNs)更进一步的提升了声学场景识别的性能。后来,基于对抗神经网络(GAN)与可变自回归网络(VAE)被用来扩充传统的数据扩充方法,如 Mix-up,加减速等。尽管如此,这些声学场景识别系统还是不能处理不匹配的信道问题,比如声音由不同的设备采集,而不同设备采集是声学信号采集不可避免的一部分。所以在 DCASE2018 Task1b 中就新增加了关于不同设备采集声学场景识别的任务。这个任务就是使场景识别的系统可以识别不同设备采集的信号,保证尽可能的准确,同时训练的语料也相对较少。基于老师-学生(TS)的方法,也被称为知识蒸馏,在声学场景里面被证明了有效性。关键思想就是最小化老师模型与学生模型分布之间的距离。NLE 是最近几年被提出来解决不同域之间的蒸馏操作。这篇文章通过使用不同声学场景之间的关系来扩展了 NLE 的机制,提出了 RTSL 的方法来解决不同设备不匹配的问题。


模型


如下图所示,本文提出来的模型有三个方面,第一个是源模型训练(SourceModel Training),第二个 NLE 标签生成(NLELable Generatation),第三个是不同设备域的 NLE 自适应过程(NLEfor Device Domain Adaptation)。在源模型训练阶段,NLE 为声学场景识别系统独立构建一个单独的深度学习网络模型。在 NLE 标签生成阶段,NLE 生成的 Label 可以替代源数据中的 one-hot 向量。在不同设备域的 NLE 自适应过程就是获取自适应后的目标模型。



实验



本文所提出来的方法在 DCASE 2018 Task1b 开发集上进行评估。DCASE 2018 Task1b 提供了 28 个小时的声学场景录制数据,使用了三种不同的设备设备 A 有 24 个小时,设备 B 和 C 各自有 2 个小时,录制的音频每 10 秒一个片断。


上述表格给出了在 DCASE 2018 Task1b 上的一些实验结果,最上面一行可以看到不同的设备采集的声音信号在同样的识别系统上的确有不同的识别性能。Official Baseline,AlexNet-L(All Devs)使用了所有设备录制的数据,AlexNet-L(Dev A) 仅使用了设备 A 录制的数据,所以在设备 B 和 C 上的识别性能很低。本文中采用的方法最终在设备 B 和设备 C 上采集的信号得到了最好的性能效果。


结论


本文提出了一个老师学生方案的神经网络表征技术来解决设备不匹配的问题。本文做了一个不同声学场景间的一些共性与不同。这些结构性的关系在网络中被学习到后被编码进入 NLE 中,然后把源设备域自适应到目标设备域。所提出来方法与技术方案在 DCASE 2018 Task1b 上被验证取得了有效的性能提升。


▌03


最后,我们来介绍论文《An Acoustic Segment Model Based Segment UnitSelection Approach to Acoustic Scene Classification with Partial Utterances》。



在这篇论文中, 我们主要探究通过声学单元选择的方式提升声学场景分类任务的准确性。首先通过声学分段模型(ASMs)对声学单元建模,然后检测停止声学分段模型(stop ASMs)来屏蔽相关声学段。在 DCASE2018 任务上,我们提出的方法在没有进行数据扩增的情况下将场景分类准确率由 68%提升到了 72.1%,并取得了和 AlexNet-L 模型可比的效果,


  论文地址为:

   https://isca-speech.org/archive/Interspeech_2020/pdfs/2044.pdf


背景


声学场景分类主要是对实际生活中的声音片段进行分类,判断其属于何种环境类型,比如地铁站,街道,公园等。目前现在的声学场景分类方法中效果最好的主要是基于深度神经网络,尤其是 CNN 网络,而引入注意力机制和基于深度神经网络的数据扩增等方法进一步提升了其效果。


系统介绍


本文使用的基于 ASMs 指导的声学单元选择方案,过滤去除和声学场景相关性较小的单元,只利用信息量较大的相关单元,其系统框图如下图:



具体的 ASM 序列可由两个步骤获得:


   1. 通过无监督方式初始化 ASM,使其每个声学单元的长度相同

   2. 在初始 ASM 上建立 GMM-HMM 或者 DNN-HMM 系统来生成 ASM 序列


而 stop ASMs 通过 Mean Probability(MP)、Inverse Document Frequency(IDF)、Variance of Probability(VP)、 StatisticalValues(SATs)等 4 种方法获得最高概率的单元。


实验结果


本文的实验建立在 DCASE2018 比赛数据上,共用 48kH 采样率的数据 24 小时,分为 10 个场景,并分别分为 6122 句的训练集和 2518 句的测试集, 我们的基线系统采用压缩后的 AlexNet-L 模型,实验结果如下表:



我们可以发现, 引入 ASM 后可以将 AlexNet-L 基线系统性能提升到 70.1%,而通过 GMM-HMM 和 DNN-HMM 方式进一步优化 ASM 后,其性能可进一步提升到 72.1%。


结论


综上所述,实验结果表明,通过引入基于 ASM 的前端声学单元选择方式,只利用部分信号的有用信息,在通过声学分段建模选择和基于 CNN 的模型分类两个步骤,实现了无数据扩增情况下的单系统最好的可比效果。




头图:Unsplash

作者:腾讯多媒体实验室

原文Interspeech2020腾讯天籁论文系列解读

来源:腾讯多媒体实验室 - 微信公众号 [ID:TencentAVLab]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


2020-12-17 22:311915
用户头像

发布了 38 篇内容, 共 88268 次阅读, 收获喜欢 31 次。

关注

评论

发布
暂无评论
发现更多内容

达芬奇DaVinci Resolve Studio 18:视频后期处理的全能神器

Rose

达芬奇18破解版 DaVinci Resolve Studio 达芬奇调色软件 DaVinci18密钥

【亲测有效】Sketch for mac v99.1中文一键安装破解版

Rose

mac软件下载 矢量绘图设计 Sketch 99 Sketch中文破解

解码大语言模型奥秘:《大规模语言模型:从理论到实践》震撼上市!

博文视点Broadview

软件测试/测试开发丨人工智能在软件测试领域的成就

测试人

人工智能 软件测试

拆解全景,解锁未来——深度分析大模型六大领域及五大应用解决方案

SEAL安全

人工智能 AI LLM LLM模型

beyondcompare4永久激活密钥 及Beyond Compare 4破解方法

Rose

mac软件下载 文件同步对比工具 Beyond Compare 4 注册版 Beyond Compare密钥

Navicat Premium 15永久激活教程 Mac/win 数据库管理软件

Rose

数据库管理工具 Navicat Premium破解版 Navicat Premium 15中文版 Navicat 数据库下载

长安汽车金融:借助一体化智能可观测平台 Bonree ONE,提升智能告警收敛能力

博睿数据

33 | 字符串匹配基础(中 ,下):如何实现文本编辑器中的查找功能

鲁米

软件测试/人工智能丨利用人工智能 ChatGPT 自动进行测试需求分析

测试人

人工智能 软件测试

Axure RP 10中文授权版下载

Rose

原型设计 Axure RP 10 汉化版 Axure RP 10 下载 Axure RP 10授权

Windows、Linux 和 Mac:操作系统之间的比较

小魏写代码

把大模型当CPU,前阿里云首席安全科学家创业项目曝光

Openlab_cosmoplat

NFTScan 获得比特丛林 (BitJungle) 公司战略投资

NFT Research

NFT NFTScan

宣布全面推出适用于 macOS 的 Amazon EC2 M2 Pro Mac 实例

亚马逊云科技 (Amazon Web Services)

Amazon EC2 ELB ebs Amazon VPC Nitro 第五代系统

对大模型和AI的认识与思考

AIWeker

AI 总结 大模型 AIGC GPT

极狐GitLab CI/CD 变量黑魔法之自定义变量

极狐GitLab

DevOps gitlab 变量 CI/CD gitlab ci

sublime text 中文破解版 附sublimetext注册码 Mac/win 文本代码编辑器

Rose

代码编辑器 mac软件下载 Sublime Text 4 破解版 Sublime Text注册码

高效图像压缩器 4K Image Compressor Pro激活中文版

胖墩儿不胖y

压缩图片 图片压缩器 图片管理工具

开发案例:使用canvas实现图表系列之折线图

HarmonyOS开发者

HarmonyOS

FxFactory 8 Pro:打造专业视觉效果的利器

Rose

视频特效插件 FxFactory 8 pro

32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配

鲁米

Waves 14混音效果全套插件 附Waves mac破解补丁

Rose

Waves 14破解教程 Waves 14 最新版 Waves 14 Complete破解 后期混音

聊点写作配图那点破事儿

6点无痛早起学习的和尚

写作 21 天技术人写作行动营

AlDente Pro激活码 v1.24 Macbook充电限制软件

Rose

AlDente Pro破解版 AlDente 激活码 Macbook充电限制软件

概念回顾:QUIC 和 HTTP/3

NGINX开源社区

TLS udp 数据流 QUIC HTTP/3

2023年11月文章一览

codists

JVM 小科普:Java 程序背后的老大哥

Java 工程师蔡姬

Java 程序员 JVM 21 天技术人写作行动营

如何在 Parallels Desktop for Mac 中备份、恢复或转移 Windows 虚拟机

Rose

Mac虚拟机下载 Parallels Desktop 19 Pd虚拟机破解版下载 Parallels 永久密钥

Interspeech2020腾讯天籁论文系列解读_文化 & 方法_腾讯多媒体实验室_InfoQ精选文章