写点什么

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

  • 2022-09-14
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果

深度学习已成功应用于语音识别,各种神经网络被大家广泛研究和探索,例如,深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和端到端的神经网络模型。


目前,主要有三种端到端的模型框架:神经网络传感器(Neural Transducer,NT),基于注意力的编码器-解码器(Attention-based Encoder Decoder,AED)和连接时序分类(Connectionist Temporal Classification,CTC)。


NT 是 CTC 的增强版本,引入了预测网络模块,可类比传统语音识别框架中的语言模型,解码器需要把先前预测的历史作为上下文输入。NT 训练不稳定,需要更多内存,这可能会限制训练速度。


AED 由编码器,解码器和注意力机制模块组成,前者对声学特征进行编码,解码器生成句子,注意力机制用来对齐编码器输入特征和解码状态。业内不少 ASR 系统架构基于 AED。然而,AED 模型逐个单元输出,其中每个单元既取决于先前生成的结果,又依赖后续的上下文,这会导致识别延迟。


另外,在实际的语音识别任务中,AED 的注意力机制的对齐效果,有时也会被噪声破坏。


CTC 的解码速度比 AED 快,但是由于输出单元之间的条件独立性和缺乏语言模型的约束,其识别率有提升空间。


目前有一些关于融合 AED 和 CTC 两种框架的研究,基于编码器共享的多任务学习,使用 CTC 和 AED 目标同时训练。在模型结构上,Transformer 已经在机器翻译,语音识别,和计算机视觉领域显示了极大的优势。


明略科技的语音技术负责人朱会峰介绍,明略团队重点研究了在 CTC 和 AED 融合训练框架下,如何使用 Transformer 模型来提高识别效果。



明略团队通过可视化分析了不同 BLOCK 和 HEAD 之间的注意力信息,这些信息的多样性是非常有帮助的,编码器和解码器中每个 BLOCK 的输出信息并不完全包含,也可能是互补的。(https://doi.org/10.48550/arXiv.2207.11697


基于这种观察,明略团队提出了一种模型结构,Block-augmented Transformer (BlockFormer),研究了如何以参数化的方式互补融合每个块的基本信息,实现了 Weighted Sum of the Blocks Output(Base-WSBO)和 Squeeze-and-Excitation module to WSBO(SE-WSBO)两种 block 集成方法。



Blockfomer with Base-WSBO



SE-WSBO


实验证明,Blockformer 模型在中文普通话测试集(AISHELL-1)上,不使用语言模型的情况下实现了 4.35%的 CER,使用语言模型时达到了 4.10%的 CER。





AISHELL-1 是希尔贝壳开源的中文普通话语音数据库,录音时长 178 小时,由 400 名中国不同地域说话人进行录制。Papers with Code网站显示,Blockformer 在 AISHELL-1 上取得 SOTA 的识别效果,字错率降低到 4.10%(使用语言模型时):https://paperswithcode.com/sota/speech-recognition-on-aishell-1


明略科技集团 CTO郝杰表示,明略的会话智能产品针对基于线上企微会话和线下门店会话的销售场景,语音识别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练,但也不放松对通用语音识别新框架、新模型的探索,Blockformer 模型的这个 SOTA 效果为语音识别的定制优化提供了一个高起点。

2022-09-14 14:093926
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 571.3 次阅读, 收获喜欢 1979 次。

关注

评论

发布
暂无评论
发现更多内容

阿里大牛最新分享springboot实战派文档,开发之路必不可少

Java工程师

Java spring springboot

华为应用市场“图章链接”功能上线 让APP分发突破机型壁垒

极客天地

攻防视角下,初创企业安全实战经验分享

声网

网络安全

面了三十个人,说说真实感受

三分恶

面试 面试官 8月月更

阿里出品Spring Security王者晋级笔记,并附上源码解析

冉然学Java

编程 spring security java; Spring Boot CLI 源码、

容器化 | 在 NFS 备份恢复 RadonDB MySQL 集群数据

RadonDB

MySQL 数据库 容器化 Kubernetes 集群 备份 & 恢复

小程序+自定义插件的混合模式

Geek_99967b

小程序

博云入选Gartner中国云原生领域代表性厂商

BoCloud博云

云计算 容器 云原生 Gartner

【iOS逆向】某车之家sign签名分析

小陈

iOS逆向

Python 教程之输入输出(4)—— 用于竞争性编程的 Python 输入法

海拥(haiyong.site)

Python 8月月更

开源一夏 | 文件和目录操作|多进程和多线程【python进阶篇】

恒山其若陋兮

开源 8月月更

重新审视分布式系统:永远不会有完美的一致性方案……

JAVA活菩萨

Java 程序员 java程序员 java 编程

面渣逆袭:MySQL六十六问,两万字+五十图详解

三分恶

MySQL 8月月更

现代 ABAP 编程语言中的正则表达式

汪子熙

正则表达式 编程语言 SAP abap 8月月更

6000字深度总结!极狐GitLab 首次揭秘内部 DevOps 最佳实践

极狐GitLab

git DevOps gitlab 安全 CI/CD

5种kafka消费端性能优化方法

华为云开发者联盟

大数据 kafka 后端 MRS

Typora收费?搭建VS Code MarkDown写作环境

三分恶

工具 markdown 8月月更

移动平台助力推进智慧型科研院所信息化建设

BeeWorks

2022版史上最全Java八股文,没有任何异议

Java工程师

Java 面试 八股文

iOS逆向之某多多App抓包

小陈

拼多多 iOS逆向

Spring之JDK动态代理与CGLIB动态代理

echoes

精品!阿里P7爆款《K8s+Jenkins》技术笔记,高质量干货必收藏!

冉然学Java

jenkins java; 技术笔记 编程‘’ #k8s

RabbitMQ(五)死信队列

JAVA活菩萨

Java 程序员 后端 java程序员 java编程

力拓信创生态,博睿数据多款产品获得东方通与达梦数据库产品兼容互认证明

博睿数据

可观测性 智能运维 博睿数据 东方通 达梦数据

如何防止重复下单?

三分恶

8月月更

深入聊聊Linux五种IO模型

C++后台开发

epoll 网络模型 I/O模型 C/C++后台开发 C/C++开发

学python,怎么能不学习scrapy呢!

华为云开发者联盟

Python 爬虫 开发 代码

【Android逆向】rpc调用某安App的X-App-Token签名函数

小陈

逆向技术

不需要服务器,教你仅用30行代码搞定实时健康码识别

华为云开发者联盟

云计算 疫情 文字识别 健康码

iOS逆向之某茅台App抓包

小陈

iOS逆向 i茅台

NFT盲盒挖矿系统dapp开发NFT链游搭建

薇電13242772558

dapp NFT

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果_AI&大模型_刘燕_InfoQ精选文章