写点什么

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

  • 2022-09-14
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果

深度学习已成功应用于语音识别,各种神经网络被大家广泛研究和探索,例如,深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和端到端的神经网络模型。


目前,主要有三种端到端的模型框架:神经网络传感器(Neural Transducer,NT),基于注意力的编码器-解码器(Attention-based Encoder Decoder,AED)和连接时序分类(Connectionist Temporal Classification,CTC)。


NT 是 CTC 的增强版本,引入了预测网络模块,可类比传统语音识别框架中的语言模型,解码器需要把先前预测的历史作为上下文输入。NT 训练不稳定,需要更多内存,这可能会限制训练速度。


AED 由编码器,解码器和注意力机制模块组成,前者对声学特征进行编码,解码器生成句子,注意力机制用来对齐编码器输入特征和解码状态。业内不少 ASR 系统架构基于 AED。然而,AED 模型逐个单元输出,其中每个单元既取决于先前生成的结果,又依赖后续的上下文,这会导致识别延迟。


另外,在实际的语音识别任务中,AED 的注意力机制的对齐效果,有时也会被噪声破坏。


CTC 的解码速度比 AED 快,但是由于输出单元之间的条件独立性和缺乏语言模型的约束,其识别率有提升空间。


目前有一些关于融合 AED 和 CTC 两种框架的研究,基于编码器共享的多任务学习,使用 CTC 和 AED 目标同时训练。在模型结构上,Transformer 已经在机器翻译,语音识别,和计算机视觉领域显示了极大的优势。


明略科技的语音技术负责人朱会峰介绍,明略团队重点研究了在 CTC 和 AED 融合训练框架下,如何使用 Transformer 模型来提高识别效果。



明略团队通过可视化分析了不同 BLOCK 和 HEAD 之间的注意力信息,这些信息的多样性是非常有帮助的,编码器和解码器中每个 BLOCK 的输出信息并不完全包含,也可能是互补的。(https://doi.org/10.48550/arXiv.2207.11697


基于这种观察,明略团队提出了一种模型结构,Block-augmented Transformer (BlockFormer),研究了如何以参数化的方式互补融合每个块的基本信息,实现了 Weighted Sum of the Blocks Output(Base-WSBO)和 Squeeze-and-Excitation module to WSBO(SE-WSBO)两种 block 集成方法。



Blockfomer with Base-WSBO



SE-WSBO


实验证明,Blockformer 模型在中文普通话测试集(AISHELL-1)上,不使用语言模型的情况下实现了 4.35%的 CER,使用语言模型时达到了 4.10%的 CER。





AISHELL-1 是希尔贝壳开源的中文普通话语音数据库,录音时长 178 小时,由 400 名中国不同地域说话人进行录制。Papers with Code网站显示,Blockformer 在 AISHELL-1 上取得 SOTA 的识别效果,字错率降低到 4.10%(使用语言模型时):https://paperswithcode.com/sota/speech-recognition-on-aishell-1


明略科技集团 CTO郝杰表示,明略的会话智能产品针对基于线上企微会话和线下门店会话的销售场景,语音识别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练,但也不放松对通用语音识别新框架、新模型的探索,Blockformer 模型的这个 SOTA 效果为语音识别的定制优化提供了一个高起点。

2022-09-14 14:093994
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 579.6 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

鹏峰能源创始人姚小峰出席2025太阳岛企业家年会

科技热闻

华为开发者空间使用CodeArts IDE调用API实现电商平台问答助手

华为云开发者联盟

AI+ 华为云CodeArts Qwen1.5 华为开发者空间

大数据-60 Kafka 消息消费与心跳机制详解:原理、流程及参数调优

武子康

Java 大数据 kafka 分布式

Conc,一个神奇的Go语言并发利器!

左诗右码

三级等保测评流程优化实践

等保测评

苹果电脑怎么在虚拟机里安装office办公软件?Mac怎么运行Windows版的office365?

凡凡不烦

Office Parallels Desktop下载 虚拟机软件 Mac效率办公软件 如何在Mac运行win

IDE 革命:超越自动完成

俞凡

人工智能

区块链Web3项目开发的进度管理

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

2025年最佳加密软件精选

qife122

数据保护 加密技术

“代码跑着跑着,就变快了?”——揭秘Java性能幕后引擎:即时编译器

poemyang

编译原理 Java虚拟机 即时编译器 JIT编译器 #java

如何选择合适的LED显示屏像素间距?

Dylan

LED LED display LED显示屏 LED屏幕

MyEMS开源能源管理系统实际案例分析

开源能源管理系统

开源 开源能源管理系统 MyEMS

大模型训练故障恢复效率提升方案

qife122

机器学习 容错机制

哈尔滨二级等保设备选型指南

等保测评

CST怎样安装补丁?CST Studio Suite 2022 SP2补丁包

思茂信息

电磁仿真 CST软件 CST Studio Suite

私有化即时通讯有什么优势,推荐BeeWorks聊天工具

BeeWorks

即时通讯 IM 私有化部署

Gunra勒索软件集团推出高效Linux变种

qife122

加密技术 勒索软件

基于开发者空间编写ODBC应用程序操作OpenGauss数据库

华为云开发者联盟

GaussDB(for openGauss) ODBC C++ API 接口 华为开发者空间

闭源精密战与开源敏捷性:能源管理系统的双线引领

开源能源管理系统

开源 能源管理系统

TRAE cue 体验提升之 Latency 篇

北京中暄互动广告传媒有限公司

Altair HyperWorks仿真案例:通过设计优化最大化发挥增材制造的潜力

智造软件

仿真 Hypermesh hyperworks

基于多代理协作的智能电子取证解决方案

qife122

人工智能 多代理系统

本地IntelliJ IDEA连接开发者空间-云开发环境,进行小游戏开发

华为云开发者联盟

云主机 IntelliJ IDEA 华为开发者空间

播放器音频后处理实践(一)

百度Geek说

KWDB 一库多用:当多模遇上分布式

KaiwuDB

如何实现专业技术教学与思政教育的有机融合|北京理工大学医工交叉教学实践分享(4)

ModelWhale

AI教育 医工融合 北京理工大学

工厂工地如何利用MyEMS实现安全绿色生成,助力企业节能减排,降本增效

开源能源管理系统

开源 能源管理系统

小白也可以只用 2 轮 prompt 生成你的“哈利波特测试器”

北京中暄互动广告传媒有限公司

零代码生成 3D 游戏:基于 Amazon Q Developer CLI 和 Three.js 的实践

亚马逊云科技 (Amazon Web Services)

星云低代码:低代码不再是平台,而是“中间件”

星云低代码中间件

低代码 开发工具 企业管理系统 Vue 3 #java

三级等保在哈尔滨智慧城市建设中的战略价值

等保测评

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果_AI&大模型_刘燕_InfoQ精选文章