明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果_AI&大模型_刘燕



 写点什么

登录/注册

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果

深度学习已成功应用于语音识别，各种神经网络被大家广泛研究和探索，例如，深度神经网络（Deep Neural Network，DNN）、卷积神经网络（Convolutional Neural Network，CNN）、循环神经网络（Recurrent Neural Network，RNN）和端到端的神经网络模型。

目前，主要有三种端到端的模型框架：神经网络传感器（Neural Transducer，NT），基于注意力的编码器-解码器（Attention-based Encoder Decoder，AED）和连接时序分类（Connectionist Temporal Classification，CTC）。

NT 是 CTC 的增强版本，引入了预测网络模块，可类比传统语音识别框架中的语言模型，解码器需要把先前预测的历史作为上下文输入。NT 训练不稳定，需要更多内存，这可能会限制训练速度。

AED 由编码器，解码器和注意力机制模块组成，前者对声学特征进行编码，解码器生成句子，注意力机制用来对齐编码器输入特征和解码状态。业内不少 ASR 系统架构基于 AED。然而，AED 模型逐个单元输出，其中每个单元既取决于先前生成的结果，又依赖后续的上下文，这会导致识别延迟。

另外，在实际的语音识别任务中，AED 的注意力机制的对齐效果，有时也会被噪声破坏。

CTC 的解码速度比 AED 快，但是由于输出单元之间的条件独立性和缺乏语言模型的约束，其识别率有提升空间。

目前有一些关于融合 AED 和 CTC 两种框架的研究，基于编码器共享的多任务学习，使用 CTC 和 AED 目标同时训练。在模型结构上，Transformer 已经在机器翻译，语音识别，和计算机视觉领域显示了极大的优势。

明略科技的语音技术负责人朱会峰介绍，明略团队重点研究了在 CTC 和 AED 融合训练框架下，如何使用 Transformer 模型来提高识别效果。

明略团队通过可视化分析了不同 BLOCK 和 HEAD 之间的注意力信息，这些信息的多样性是非常有帮助的，编码器和解码器中每个 BLOCK 的输出信息并不完全包含，也可能是互补的。（https://doi.org/10.48550/arXiv.2207.11697）

基于这种观察，明略团队提出了一种模型结构，Block-augmented Transformer （BlockFormer），研究了如何以参数化的方式互补融合每个块的基本信息，实现了 Weighted Sum of the Blocks Output（Base-WSBO）和 Squeeze-and-Excitation module to WSBO（SE-WSBO）两种 block 集成方法。

Blockfomer with Base-WSBO

SE-WSBO

实验证明，Blockformer 模型在中文普通话测试集（AISHELL-1）上，不使用语言模型的情况下实现了 4.35%的 CER，使用语言模型时达到了 4.10%的 CER。

AISHELL-1 是希尔贝壳开源的中文普通话语音数据库，录音时长 178 小时，由 400 名中国不同地域说话人进行录制。Papers with Code网站显示，Blockformer 在 AISHELL-1 上取得 SOTA 的识别效果，字错率降低到 4.10%（使用语言模型时）：https://paperswithcode.com/sota/speech-recognition-on-aishell-1

明略科技集团 CTO郝杰表示，明略的会话智能产品针对基于线上企微会话和线下门店会话的销售场景，语音识别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练，但也不放松对通用语音识别新框架、新模型的探索，Blockformer 模型的这个 SOTA 效果为语音识别的定制优化提供了一个高起点。

创作场景

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

评论

鹏峰能源创始人姚小峰出席2025太阳岛企业家年会

华为开发者空间使用CodeArts IDE调用API实现电商平台问答助手

大数据-60 Kafka 消息消费与心跳机制详解：原理、流程及参数调优

Conc，一个神奇的Go语言并发利器！

三级等保测评流程优化实践

苹果电脑怎么在虚拟机里安装office办公软件？Mac怎么运行Windows版的office365？

IDE 革命：超越自动完成

区块链Web3项目开发的进度管理

2025年最佳加密软件精选

“代码跑着跑着，就变快了？”——揭秘Java性能幕后引擎：即时编译器

如何选择合适的LED显示屏像素间距？

MyEMS开源能源管理系统实际案例分析

大模型训练故障恢复效率提升方案

哈尔滨二级等保设备选型指南

CST怎样安装补丁？CST Studio Suite 2022 SP2补丁包

私有化即时通讯有什么优势，推荐BeeWorks聊天工具

Gunra勒索软件集团推出高效Linux变种

基于开发者空间编写ODBC应用程序操作OpenGauss数据库

闭源精密战与开源敏捷性：能源管理系统的双线引领

TRAE cue 体验提升之 Latency 篇

Altair HyperWorks仿真案例：通过设计优化最大化发挥增材制造的潜力

基于多代理协作的智能电子取证解决方案

本地IntelliJ IDEA连接开发者空间-云开发环境，进行小游戏开发

播放器音频后处理实践（一）

KWDB 一库多用：当多模遇上分布式

如何实现专业技术教学与思政教育的有机融合|北京理工大学医工交叉教学实践分享（4）

工厂工地如何利用MyEMS实现安全绿色生成，助力企业节能减排，降本增效

小白也可以只用 2 轮 prompt 生成你的“哈利波特测试器”

零代码生成 3D 游戏：基于 Amazon Q Developer CLI 和 Three.js 的实践

星云低代码：低代码不再是平台，而是“中间件”

三级等保在哈尔滨智慧城市建设中的战略价值

创作场景

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载