ICASSP Poster论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升20%

2018 年 3 月 15 日

论文标题:基于深层前馈序列记忆神经网络的大词汇量连续语音识别 Deep-FSMN for Large Vocabulary Continuous Speech Recognition

团队:阿里巴巴语音交互智能团队

作者:张仕良 /Shiliang Zhang,雷鸣 /Ming Lei,鄢志杰 /Zhijie Yan, 戴礼荣 /LiRong Dai

会议:ICASSP-2018

摘要

本研究我们提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且 LFR-DFSMN 在训练速度,模型参数量,解码速度,而且模型的延时上相比于 BLSTM 都具有明显的优势。

研究背景

近年来, 深度神经网络成为了大词汇量连续语音识别系统中的主流声学模型。由于语音信号具有很强的长时相关性,因而目前普遍流行的是使用具有长时相关建模的能力的循环神经网络(RNN),例如 LSTM 以及其变形结构。循环神经网络虽然具有很强的建模能力,但是其训练通常采用 BPTT 算法,存在训练速度缓慢和梯度消失问题。我们之前的工作,提出了一种新颖的非递归的网络结构,称之为前馈序列记忆神经网络(feedforward sequential memory networks, FSMN),可以有效的对信号中的长时相关性进行建模。相比于循环神经网络,FSMN 训练更加高效,而且可以获得更好的性能。

原文链接:【 https://www.infoq.cn/article/deep-FSMN-for-large-vocabulary-continuous-speech-recognition 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2018 年 3 月 15 日 17:45 4370

评论

发布
暂无评论
发现更多内容

安装R语言编译器:

唯爱

Vol.7 聊聊我热爱的陕西省图书馆

Lanpeng2020

记录 生活,随想

《中国互联网简史》系列笔记之P2P

dongh11

读书笔记

Eureka 实例注册状态保持 STARTING 的问题排查

张晓辉

spring Spring Cloud netflix

超简单入门MyBatis,看了就会了~

程序员的时光

mybatis

XSKY发布XMotion纳管热迁移技术,OpenStack集群迁移效率提升超10倍

XSKY融合存储

Vol.9 Web前端发展历程及前端工程化

Lanpeng2020

前端 前端工程

控制 Pod 内容器的启动顺序

张晓辉

Kubernetes

时序数据库

pydata

磁盘挂载

唯爱

【写作群星榜】5.22~5.28写作平台优秀作者&文章排名

InfoQ写作平台

写作平台 排行榜

Java 学习笔记(三)数据类型

杜朋

Rust 遇上 C/C++(二):函数传参

Coding Fatty

c c++ rust 编程语言

解决版权难题,“豪横”字体自己做

zhoo299

设计 CG

写给产品经理的信(5):谈谈项目管理(青铜-王者)

夜来妖

产品 极客时间,项目管理 项目管理 产品经理 项目

认识数据产品经理(四 与互联网产品经理的区别)

马踏飞机747

大数据 互联网 职业规划 数据产品经理

只用CSS实现响应式Full-Width img 2种方法

寇云

CSS css3

自定义列表样式

寇云

CSS css3

服务化架构-状态码设计要点

图南日晟

微服务 RESTful 架构设计

ARTS|Week 1 第一次使用LeetCode

Puran

LeetCode ARTS活动

MySQL死锁系列-常见加锁场景分析

程序员历小冰

MySQL

金灿灿的季节 - Apache DolphinScheduler收获5位新Committer

海豚调度

不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

JackTian

Python 程序员 数据分析 python 爬虫 口红

在培训机构花了好几万学Java,当了程序员还常被鄙视,这是招谁惹谁了?

四猿外

Java 学习方法 程序员 个人成长 转行程序员

避免争执

孙苏勇

职场 随笔杂谈

纯CSS“返回顶部”特效

寇云

CSS css3

如何通过样本数据推断其分布

张利东

Python

深入浅出Mysql索引的那些事儿

猿人谷

MySQL 性能优化 索引

我来聊聊模型驱动的前端开发

欧雷

软件工程 软件开发 前端开发 前端工程 前端架构

珍藏已久的 OS 学习网站拿出来分享给大家

cxuan

操作系统

Vol.8 云栖小镇游记

Lanpeng2020

阿里云 随笔 数字化转型

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

ICASSP Poster论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升20%-InfoQ