2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

  • 2022-09-14
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果

深度学习已成功应用于语音识别,各种神经网络被大家广泛研究和探索,例如,深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和端到端的神经网络模型。


目前,主要有三种端到端的模型框架:神经网络传感器(Neural Transducer,NT),基于注意力的编码器-解码器(Attention-based Encoder Decoder,AED)和连接时序分类(Connectionist Temporal Classification,CTC)。


NT 是 CTC 的增强版本,引入了预测网络模块,可类比传统语音识别框架中的语言模型,解码器需要把先前预测的历史作为上下文输入。NT 训练不稳定,需要更多内存,这可能会限制训练速度。


AED 由编码器,解码器和注意力机制模块组成,前者对声学特征进行编码,解码器生成句子,注意力机制用来对齐编码器输入特征和解码状态。业内不少 ASR 系统架构基于 AED。然而,AED 模型逐个单元输出,其中每个单元既取决于先前生成的结果,又依赖后续的上下文,这会导致识别延迟。


另外,在实际的语音识别任务中,AED 的注意力机制的对齐效果,有时也会被噪声破坏。


CTC 的解码速度比 AED 快,但是由于输出单元之间的条件独立性和缺乏语言模型的约束,其识别率有提升空间。


目前有一些关于融合 AED 和 CTC 两种框架的研究,基于编码器共享的多任务学习,使用 CTC 和 AED 目标同时训练。在模型结构上,Transformer 已经在机器翻译,语音识别,和计算机视觉领域显示了极大的优势。


明略科技的语音技术负责人朱会峰介绍,明略团队重点研究了在 CTC 和 AED 融合训练框架下,如何使用 Transformer 模型来提高识别效果。



明略团队通过可视化分析了不同 BLOCK 和 HEAD 之间的注意力信息,这些信息的多样性是非常有帮助的,编码器和解码器中每个 BLOCK 的输出信息并不完全包含,也可能是互补的。(https://doi.org/10.48550/arXiv.2207.11697


基于这种观察,明略团队提出了一种模型结构,Block-augmented Transformer (BlockFormer),研究了如何以参数化的方式互补融合每个块的基本信息,实现了 Weighted Sum of the Blocks Output(Base-WSBO)和 Squeeze-and-Excitation module to WSBO(SE-WSBO)两种 block 集成方法。



Blockfomer with Base-WSBO



SE-WSBO


实验证明,Blockformer 模型在中文普通话测试集(AISHELL-1)上,不使用语言模型的情况下实现了 4.35%的 CER,使用语言模型时达到了 4.10%的 CER。





AISHELL-1 是希尔贝壳开源的中文普通话语音数据库,录音时长 178 小时,由 400 名中国不同地域说话人进行录制。Papers with Code网站显示,Blockformer 在 AISHELL-1 上取得 SOTA 的识别效果,字错率降低到 4.10%(使用语言模型时):https://paperswithcode.com/sota/speech-recognition-on-aishell-1


明略科技集团 CTO郝杰表示,明略的会话智能产品针对基于线上企微会话和线下门店会话的销售场景,语音识别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练,但也不放松对通用语音识别新框架、新模型的探索,Blockformer 模型的这个 SOTA 效果为语音识别的定制优化提供了一个高起点。

2022-09-14 14:094143
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 599.9 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL之my.cnf配置文件

TimeFriends

8月月更

【黄啊码】MySQL入门—2、使用数据定义语言(DDL)操作数据库

黄啊码

MySQL 8月月更

技术干货 | 用零信任保护代码安全

权说安全

关于技术学习的6个观点

郭明

技术人

萌宠来袭,如何让“吸猫撸狗”更有保障?

旺链科技

区块链 产业区块链 宠物行业

C#/VB.NET:在 Word 中设置文本对齐方式

Geek_249eec

C# word VB.NET 文本对齐

mysql进阶(二十六)MySQL 索引类型

No Silver Bullet

MySQL MySQL索引 8月月更

Java 是否应该使用通配符导入( wildcard imports)

HoneyMoose

浅聊偏函数

掘金安东尼

JavaScript 函数式 8月月更

开源一夏 | 查询分页不只有limit,这四种分页方法值得掌握

知识浅谈

开源 8月月更

Jina 实例秀|基于神经搜索的网络安全威胁检测(一)

Jina AI

神经网络架构搜索 Python.

《迁移学习导论》第2版,升级内容抢先看!

博文视点Broadview

【LeetCode】分组的最大数量Java题解

Albert

LeetCode 8月月更

【黄啊码】MySQL入门—1、SQL 的执行流程

黄啊码

MySQL 8月月更

什么是 DevOps?看这一篇就够了!

胡说云原生

管理 DevOps 运维 开发 签约计划第三季

IDEA 自动导入的配置(Auto import)

HoneyMoose

CentOS6搭建nginx+uwsgi+flask

haiger13

签约计划第三季

开源一夏|ArkUI如何自定义弹窗(eTS)

坚果

开源 HarmonyOS OpenHarmony 8月月更

Java使用IReport导出复杂报表

源字节1号

微信小程序 软件开发 前端开发 后端开发

仿钉钉审批流程后端 PHP 处理(一)

CRMEB

再次搞定 Ali 云函数计算 FC

小鑫同学

签约计划第三季

转转测试环境的标签域名实践

转转技术团队

nginx hosts

Rust 入门指南 (用 WASM 开发第一个 Web 页面)

王泰

rust Wasm WebAssenbly ​Rust

Jina 实例秀|七夕神器!比你更懂你女友的口红AI

Jina AI

七夕 神经网络架构搜索

语音社交app源码——具备哪些开发优势?

开源直播系统源码

软件开发 语聊房 直播系统源码 语音聊天系统 语音聊天app

SAP 人工智能解决方案的演进史 - 从 SAP Leonardo 到 SAP Data Intelligence

汪子熙

人工智能 机器学习 AI SAP 8月月更

STM32+SIM800C采用MQTT协议登录OneNet上传温湿度、MQ2烟雾浓度、GPS数据

DS小龙哥

8月月更

临床研究方法学,到现场,到数据真实发生的地方 | 对话数智 x 张维拓

ModelWhale

数据分析 人才培养 数据科学 8月月更 临床医学

8月总结高频vue面试题

helloworld1024fd

Vue

React的理念与V16的架构变化

郭明

React

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果_AI&大模型_刘燕_InfoQ精选文章