AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

ICASSP Poster 论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升 20%

  • 2018-03-15
  • 本文字数:3973 字

    阅读完需:约 13 分钟

论文标题:基于深层前馈序列记忆神经网络的大词汇量连续语音识别 Deep-FSMN for Large Vocabulary Continuous Speech Recognition

团队:阿里巴巴语音交互智能团队

作者:张仕良 /Shiliang Zhang,雷鸣 /Ming Lei,鄢志杰 /Zhijie Yan, 戴礼荣 /LiRong Dai

会议:ICASSP-2018

摘要

本研究我们提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且 LFR-DFSMN 在训练速度,模型参数量,解码速度,而且模型的延时上相比于 BLSTM 都具有明显的优势。

研究背景

近年来, 深度神经网络成为了大词汇量连续语音识别系统中的主流声学模型。由于语音信号具有很强的长时相关性,因而目前普遍流行的是使用具有长时相关建模的能力的循环神经网络(RNN),例如 LSTM 以及其变形结构。循环神经网络虽然具有很强的建模能力,但是其训练通常采用 BPTT 算法,存在训练速度缓慢和梯度消失问题。我们之前的工作,提出了一种新颖的非递归的网络结构,称之为前馈序列记忆神经网络(feedforward sequential memory networks, FSMN),可以有效的对信号中的长时相关性进行建模。相比于循环神经网络,FSMN 训练更加高效,而且可以获得更好的性能。

本论文,我们在之前 FSMN 的相关工作的基础上进一步提出了一种改进的 FSMN 结构,称之为深层的前馈序列记忆神经网络(Deep-FSMN, DFSMN)。我们通过在 FSMN 相邻的记忆模块之间添加跳转连接(skip connections),保证网络高层梯度可以很好的传递给低层,从而使得训练很深的网络不会面临梯度消失的问题。进一步的,考虑到将 DFSMN 应用于实际的语音识别建模任务不仅需要考虑模型的性能,而且需要考虑到模型的计算量以及实时性。针对这个问题,我们提出将 DFSMN 和低帧率(lower frame rate,LFR)相结合用于加速模型的训练和测试。同时我们设计了 DFSMN 的结构,通过调整 DFSMN 的记忆模块的阶数实现时延的控制,使得基于 LFR-DFSMN 的声学模型可以被应用到实时的语音识别系统中。

我们在多个大词汇量连续语音识别任务包括英文和中文上验证了 DFSMN 的性能。在目前流行的 2 千小时英文 FSH 任务上,我们的 DFSMN 相比于目前主流的 BLSTM 可以获得绝对 1.5% 而且模型参数量更少。在 2 万小时的中文数据库上,LFR-DFSMN 相比于 LFR-LCBLSTM 可以获得超过 20% 的相对性能提升。而且 LFR-DFSMN 可以灵活的控制时延,我们发现将时延控制到 5 帧语音依旧可以获得相比于 40 帧时延的 LFR-LCBLSTM 更好的性能。

FSMN 回顾

最早提出的 FSMN 的模型结构如图 1(a)所示,其本质上是一个前馈全连接神经网络,通过在隐层旁添加一些记忆模块(memory block)来对周边的上下文信息进行建模,从而使得模型可以对时序信号的长时相关性进行建模。FSMN 的提出是受到数字信号处理中滤波器设计理论的启发:任何无限响应冲击(Infinite Impulse Response, IIR)滤波器可以采用高阶的有限冲击响应(Finite Impulse Response, FIR)滤波器进行近似。从滤波器的角度出发,如图 1(c)所示的 RNN 模型的循环层就可以看作如图 1(d)的一阶 IIR 滤波器。而 FSMN 采用的采用如图 1(b)所示的记忆模块可以看作是一个高阶的 FIR 滤波器。从而 FSMN 也可以像 RNN 一样有效的对信号的长时相关性进行建模,同时由于 FIR 滤波器相比于 IIR 滤波器更加稳定,因而 FSMN 相比于 RNN 训练上会更加简单和稳定。

图 1. FSMN 模型结构以及和RNN 的对比

根据记忆模块编码系数的选择,可以分为:1)标量FSMN(sFSMN);2)矢量FSMN(vFSMN)。sFSMN 和 vFSMN 顾名思义就是分别使用标量和矢量作为记忆模块的编码系数。sFSMN 和vFSMN 记忆模块的表达分别如下公式:

以上的FSMN 只考虑了历史信息对当前时刻的影响,我们可以称之为单向的FSMN。当我们同时考虑历史信息以及未来信息对当前时刻的影响时,我们可以将单向的FSMN 进行扩展得到双向的FSMN。双向的sFSMN 和vFSMN 记忆模块的编码公式如下:

这里\(N_1\) 和\(N_2\) 分别代表回看(look-back) 的阶数和向前看(look-ahead) 的阶数。我们可以通过增大阶数,也可以通过在多个隐层添加记忆模块来增强FSMN 对长时相关性的建模能力。

图 2. cFSMN 结构框图

FSMN 相比于 FNN,需要将记忆模块的输出作为下一个隐层的额外输入,这样就会引入额外的模型参数。隐层包含的节点越多,则引入的参数越多。我们通过结合矩阵低秩分解(Low-rank matrix factorization)的思路,提出了一种改进的 FSMN 结构,称之为简洁的 FSMN(Compact FSMN,cFSMN)。如图 2 是一个第 _l_ 个隐层包含记忆模块的 cFSMN 的结构框图。

对于 cFSMN,通过在网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上。进一步的,cFSMN 对记忆模块的编码公式进行了一些改变,通过将当前时刻的输出显式的添加到记忆模块的表达中,从而只需要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量,加快网络的训练。具体的,单向和双向的 cFSMN 记忆模块的公式表达分别如下:

DFSMN 介绍

图 3. Deep-FSMN (DFSMN) 模型结构框图

如图3 是我们进一步提出的Deep-FSMN(DFSMN)的网络结构框图,其中左边第一个方框代表输入层,右边最后一个方框代表输出层。我们通过在cFSMN 的记忆模块(红色框框表示)之间添加跳转连接(skip connection),从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中,高层记忆模块的梯度会直接赋值给低层的记忆模块,从而可以克服由于网络的深度造成的梯度消失问题,使得可以稳定的训练深层的网络。我们对记忆模块的表达也进行了一些修改,通过借鉴扩张(dilation)卷积[3] 的思路,在记忆模块中引入一些步幅(stride)因子,具体的计算公式如下:

其中\(\widetilde{P}^{l-1}_t\) 表示第\(l-1\) 层记忆模块第t 个时刻的输出。\(s_1\) 和\(s_2\) 分别表示历史和未来时刻的编码步幅因子,例如\(s_1=2\) 则表示对历史信息进行编码时每隔一个时刻取一个值作为输入。这样在相同的阶数的情况下可以看到更远的历史,从而可以更加有效的对长时相关性进行建模。对于实时的语音识别系统我们可以通过灵活的设置未来阶数来控制模型的时延,在极端情况下,当我们将每个记忆模块的未来阶数都设置为0,则我们可以实现无时延的一个声学模型。对于一些任务,我们可以忍受一定的时延,我们可以设置小一些的未来阶数。

LFR-DFSMN 声学模型

目前的声学模型,输入的是每帧语音信号提取的声学特征,每帧语音的时长通常为 10ms,对于每个输入的语音帧信号会有相对应的一个输出目标。最近有研究提出一种低帧率(Low Frame Rate,LFR)建模方案:通过将相邻时刻的语音帧进行绑定作为输入,去预测这些语音帧的目标输出得到的一个平均输出目标。具体实验中可以实现三帧(或更多帧)拼接而不损失模型的性能。从而可以将输入和输出减少到原来的三分之一甚至更多,可以极大的提升语音识别系统服务时声学得分的计算以及解码的效率。我们结合 LFR 和以上提出的 DFSMN,构建了如图 4 的基于 LFR-DFSMN 的语音识别声学模型,经过多组实验我们最终确定了采用一个包含 10 层 DFSMN 层 +2 层 DNN 的 DFSMN 作为声学模型,输入输出则采用 LFR,将帧率降低到原来的三分之一。

图 4. LFR-DFSMN 声学模型结构框图

实验结果

1) 英文识别

我们在 2 千小时的英文 FSH 任务上验证所提出的 DFSMN 模型。我们首先验证了 DFSMN 的网络深度对性能的影响,我们分别验证了 DFSMN 包含 6,8,10,12 个 DFSMN 层的情况。最终模型的识别性能如下表。通过增加网络的深度我们可以获得一个明显的性能提升。

我们也和一些主流的声学模型进行了对比,结果如下表。从结果看DFSMN 相比于目前最流行的BLSTM 不仅参数量更少,而且性能上可以获得1.5% 的绝对性能提升。

2) 中文识别

关于中文识别任务,我们首先在 5000 小时任务上进行实验。我们分别验证了采用绑定的音素状态(CD-State)和绑定的音素(CD-Phone)作为输出层建模单元。关于声学模型我们对比了时延可控的 BLSTM(LCBLSTM),cFSMN 以及 DFSMN。对于 LFR 模型,我们采用 CD-Phone 作为建模单元。详细的实验结果如下表:

对于基线LCBSLTM,采用LFR 相比于传统的单帧预测在性能上相近,优点在效率可以提升3 倍。而采用LFR 的cFSMN,相比于传统的单帧预测不仅在效率上可以获得相应提升,而且可以获得更好的性能。这主要是LFR 一定程度上破坏了输入信号的时序性,而BLSTM 的记忆机制对时序性更加的敏感。进一步的我们探索了网络深度对性能的影响,对于之前的cFSMN 网络,当把网络深度加深到10 层,会出现一定的性能下降。而对于我们最新提出来的DFSMN,10 层的网络相比于8 层依旧可以获得性能提升。最终相比于基线的LFR-LCBLSTM 模型,我们可以获得超过20% 的相对性能提升。

下表我们对比了LFR-DFSMN 和LFR-LCBLSTM 的训练时间,以及解码的实时因子(RTF)。从结果上看我们可以将训练速度提升3 倍,同时可以将实时因子降低到原来的接近三分之一。

对于语音识别系统,另外一个需要考虑的因素是模型的延迟问题。原始的BLSTM 需要等接收整句话后才能得到输出用于解码。LCBLSTM 是目前的一种改进结构,可以将解码的时延进行控制,目前采用的LFR-LCBLSTM 的时延帧数是40 帧。对于DFSMN,时延的帧数可以功过设计记忆模块的滤波器阶数进行灵活控制。最终当只有5 帧延时时,LFR-DFSMN 相比于LFR-LCBLSTM 依然可以获得更好的性能。

如果您也有论文被国际顶会录用或者对论文编译整理工作感兴趣,欢迎关注 AI前线(ai-front),在后台留下联系方式,我们将与您联系,并进行更多交流!

2018-03-15 17:456031

评论

发布
暂无评论
发现更多内容

离散制造 vs 流程制造:锚定精准制造未来,从装配线到化学反应,实时数据集成在制造业案例中的多维应用

tapdata

数据库

关于深度学习量化的操作

梦笔生花

深度学习 gpu 模型化

Java获取Object中Value的方法

快乐非自愿限量之名

Java

Multitouch for Mac(多点触控手势增强神器)

Mac相关知识分享

干货满满!第二期流程挖掘实践训练营圆满落幕~

望繁信科技

流程挖掘 流程资产 流程智能 数字北极星 望繁信科技

Flink垃圾图片分类优胜奖比赛攻略_贪吃的小香猪-148队

阿里云天池

谷歌云推出全新区块链RPC服务:简化Web3开发

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 公链开发 代币开发

智能财务推动企业数字化转型的研究及实践

快乐非自愿限量之名

低代码

TON基金会与Curve Finance合作:推出基于TON的新型稳定币互换项目

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 公链开发

茶思屋直播|TinyEngine+AI:聚焦主航道,在实践中探索低代码技术黑土地

OpenTiny社区

低代码 OpenTiny TinyEngine

开发一个 PicGo 插件

yuanyxh

前端 PicGo js

VLDB 2024 圆桌会议回顾:展望物联网与 AI 时代的时序数据库

Apache IoTDB

VLDB 2024 圆桌会议回顾:展望物联网与 AI 时代的时序数据库

Apache IoTDB

TikTok怎么开直播?TikTok直播专线是什么?

Ogcloud

海外直播专线 tiktok直播 tiktok直播专线 海外直播网络 tiktok直播网络

四类取整方式

不在线第一只蜗牛

c++ C#

万界星空科技MES系统:食品加工安全的实时监控与智能管理

万界星空科技

mes 万界星空科技 食品MES 食品行业 食品

工业物联网PaaS平台的商业模式研究

不在线第一只蜗牛

云原生 物联网 PaaS

试用完几十款ETL工具后的经验总结,ETL工具用这三款就足够了

RestCloud

kettle ETL DataX ETL数据集成

2024中国算力大会,河南如何绘写算力长卷?

脑极体

AI

什么是任务管理工具

高端章鱼哥

tair性能挑战赛攻略心得-Zzzzz

阿里云天池

Mint Expedition Season 3 拉开帷幕:登顶高峰的时刻到了

NFT Research

blockchain web3 空投

fetch --nohooks webrtc 失败

webrtc developer

mac苹果电脑办公套件全家桶下载:Office2019 for Mac 下载

你的猪会飞吗

Microsoft Office 2019 office 2019 mac破解软件下载

借助Python和搜狐视频联盟API自动推荐热门视频

幂简集成

视频 API

TikTok直播专线服务商推荐

Ogcloud

海外直播专线 tiktok直播 tiktok直播专线 tiktok直播网络 TikTok跨境直播

BBEdit for Mac(HTML文本编辑器)

Mac相关知识分享

C++中对象的延迟构造

快乐非自愿限量之名

Java c++

解锁 PDF 文件:使用 JavaScript 和 Canvas 渲染 PDF 内容

yuanyxh

前端 js PDF

阿里巴巴API助力电商:商品详情获取与数据驱动的完美结合

技术冰糖葫芦

API Gateway API 接口 API 测试 pinduoduo API

低代码开发:数据分析如何快速响应企业需求

EquatorCoco

低代码

ICASSP Poster论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升20%_语言 & 开发_张仕良_InfoQ精选文章