【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

明略科技 Blockformer 语音识别模型在 AISHELL-1 测试集上取得 SOTA 结果

  • 2022-09-14
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果

深度学习已成功应用于语音识别,各种神经网络被大家广泛研究和探索,例如,深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和端到端的神经网络模型。


目前,主要有三种端到端的模型框架:神经网络传感器(Neural Transducer,NT),基于注意力的编码器-解码器(Attention-based Encoder Decoder,AED)和连接时序分类(Connectionist Temporal Classification,CTC)。


NT 是 CTC 的增强版本,引入了预测网络模块,可类比传统语音识别框架中的语言模型,解码器需要把先前预测的历史作为上下文输入。NT 训练不稳定,需要更多内存,这可能会限制训练速度。


AED 由编码器,解码器和注意力机制模块组成,前者对声学特征进行编码,解码器生成句子,注意力机制用来对齐编码器输入特征和解码状态。业内不少 ASR 系统架构基于 AED。然而,AED 模型逐个单元输出,其中每个单元既取决于先前生成的结果,又依赖后续的上下文,这会导致识别延迟。


另外,在实际的语音识别任务中,AED 的注意力机制的对齐效果,有时也会被噪声破坏。


CTC 的解码速度比 AED 快,但是由于输出单元之间的条件独立性和缺乏语言模型的约束,其识别率有提升空间。


目前有一些关于融合 AED 和 CTC 两种框架的研究,基于编码器共享的多任务学习,使用 CTC 和 AED 目标同时训练。在模型结构上,Transformer 已经在机器翻译,语音识别,和计算机视觉领域显示了极大的优势。


明略科技的语音技术负责人朱会峰介绍,明略团队重点研究了在 CTC 和 AED 融合训练框架下,如何使用 Transformer 模型来提高识别效果。



明略团队通过可视化分析了不同 BLOCK 和 HEAD 之间的注意力信息,这些信息的多样性是非常有帮助的,编码器和解码器中每个 BLOCK 的输出信息并不完全包含,也可能是互补的。(https://doi.org/10.48550/arXiv.2207.11697


基于这种观察,明略团队提出了一种模型结构,Block-augmented Transformer (BlockFormer),研究了如何以参数化的方式互补融合每个块的基本信息,实现了 Weighted Sum of the Blocks Output(Base-WSBO)和 Squeeze-and-Excitation module to WSBO(SE-WSBO)两种 block 集成方法。



Blockfomer with Base-WSBO



SE-WSBO


实验证明,Blockformer 模型在中文普通话测试集(AISHELL-1)上,不使用语言模型的情况下实现了 4.35%的 CER,使用语言模型时达到了 4.10%的 CER。





AISHELL-1 是希尔贝壳开源的中文普通话语音数据库,录音时长 178 小时,由 400 名中国不同地域说话人进行录制。Papers with Code网站显示,Blockformer 在 AISHELL-1 上取得 SOTA 的识别效果,字错率降低到 4.10%(使用语言模型时):https://paperswithcode.com/sota/speech-recognition-on-aishell-1


明略科技集团 CTO郝杰表示,明略的会话智能产品针对基于线上企微会话和线下门店会话的销售场景,语音识别团队聚焦美妆、汽车、教育等行业的场景优化和定制训练,但也不放松对通用语音识别新框架、新模型的探索,Blockformer 模型的这个 SOTA 效果为语音识别的定制优化提供了一个高起点。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-09-14 14:092832
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.6 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

TLS协议分析 (三) record协议

OpenIM

从源码角度分析 MyBatis 工作原理

vivo互联网技术

sql mybatis JDBC ORM

终于,基础软件领域的行业盛会来了!

Jessie

开源 云原生 基础软件 中间件 #数据库

论亚马逊QLDB与腾讯TDSQL对历史数据的管理和计算

腾讯云数据库

数据库 tdsql

解读顶会ICDE’21论文:利用DAEMON算法解决多维时序异常检测问题

华为云开发者联盟

华为云数据库 时序数据 深度神经网络算法 DAEMON 轨迹分析

使用GO语言实现Mysql数据库CURD

Regan Yue

数据库 Go 语言 9月日更

模块(三)如何设计出合理的架构

我是一只小小鸟

腾讯云 TDSQL 审计原理揭秘

腾讯云数据库

数据库 tdsql

直播预告:京东云DevOps与JFrog制品库的融合

京东科技开发者

DevOps 制品库管理 运维开发

Vue进阶(九十九):页面锚点至顶部

No Silver Bullet

Vue 9月日更

【Flutter 专题】54 图解基本生命周期

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

Retrofit源码解读HTTP

Changing Lin

android 9月日更

Vue进阶(壹佰):当前页面刷新并重载页面数据

No Silver Bullet

Vue 9月日更

学习Linux tar 命令:最简单也最困难

华为云开发者联盟

Linux 文件 Linux tar tar命令 存档

带你认识数据库视图对象,下次不要再认成“表”了

华为云开发者联盟

数据库 sql 对象 视图 GaussDB(DWS)

搞懂现代Web端即时通讯技术一文就够:WebSocket、socket.io、SSE

JackJiang

websocket 即时通讯 IM

EMQ 映云科技与 RT-Thread 达成战略合作,共建产业物联网平台

EMQ映云科技

人工智能 云计算 大数据 物联网 emq

颇具年代感的《JMeter中文操作手册》

FunTester

Jmeter 性能测试 自动化测试 接口测试 FunTester

TLS协议分析 (四) handshake协议概览

OpenIM

从 CI_CD 到 DevOps

SoFlu软件机器人

DevOps 自动化 基础软件

学会这5种JS函数继承方式,前端面试你至少成功50%

华为云开发者联盟

面试 大前端 js 继承 函数继承

【VueRouter 源码学习】第五篇 - 两种路由模式的设计

Brave

源码 vue-router 9月日更

TLS协议分析 (五) handshake协议 证书与密钥交换

OpenIM

为数据赋能:腾讯TDSQL分布式金融级数据库前沿技术 - 云+社区 - 腾讯云

腾讯云数据库

数据库 tdsql

LeetCode题解:897. 递增顺序搜索树,栈,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

微型博客开发项目,手动创建导航组件的新增页面

梦想橡皮擦

9月日更

如何在AI工程实践中选择合适的算法?

博文视点Broadview

朋友圈架构设计

XP

【LeetCode】分割平衡字符串Java题解

Albert

算法 LeetCode 9月日更

Rust从0到1-高级特性-宏

rust 高级特性 Macros

GetX代码生成IDEA插件,超详细功能讲解(透过现象看本质)

小呆呆666

明略科技Blockformer语音识别模型在AISHELL-1测试集上取得SOTA结果_AI&大模型_刘燕_InfoQ精选文章