写点什么

fsmn

收录了 fsmn 频道下的 7 篇内容

语音识别端到端模型解读:FSMN 及其变体模型

摘要:在很长一段时间内,语音识别领域最常用的模型是GMM-HMM。但近年来随着深度学习的发展,出现了越来越多基于神经网络的语音识别模型。

大数据
模型
语音识别
ICASSP Poster 论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升 20%

本研究提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势。

科大讯飞是如何打造 AI 平台的?

科大讯飞的成功靠的是AI核心战略:平台+赛道。

2024通义语音AI技术图景,大模型引领AI再进化
2024 通义语音 AI 技术图景,大模型引领 AI 再进化

本文将回顾最近一年通义实验室在语音AI经典的原子能力,如语音识别、语音合成、说话人识别的研究进展,并介绍语音AI结合大模型的多模态研究及应用进展。最后开源是降低AI研究和应用门槛的最有效手段,本文将会总结当前团队的开源情况,供读者鉴阅。

通义千问
[干货]语音技术最新进展-Interspeech总结
[干货] 语音技术最新进展 -Interspeech 总结

2016年9月7日-12日,语音与信息处理技术领域顶级的国际会议Interspeech在美国旧金山举行,阿里几位语音技术专家参加了此次会议。

AI语音模型在家宽业务中的应用
AI 语音模型在家宽业务中的应用

在运营商家宽业务支撑场景中,存在多个APP和系统需要与装维人员交互,传统的功能按钮点击型操作交互界面,越来越难以满足装维人员工作提效的迫切需求。家宽施工调度系统所需的AI语音能力主要包括ASR(音转字)和TTS(字转音)。

企业号 2024年10月PK榜
带你全面了解 Git 系列 01 - 深入 Git 原理
带你全面了解 Git 系列 01 - 深入 Git 原理

对大多数程序员同学来说,Git 应该是日常工作中接触的最多的工具之一了。我们每天都在和 Git 打交道,通过 Git 提交代码。那不知道大家有没有真正去了解过 Git,它为什么会出现?它到底是什么?它又拥有哪些“魔力”,能成为当今最受欢迎的版本控制系统呢?

git
大前端
fsmn专题_资料-InfoQ中文网