收录了 fsmn 频道下的 7 篇内容
摘要:在很长一段时间内,语音识别领域最常用的模型是GMM-HMM。但近年来随着深度学习的发展,出现了越来越多基于神经网络的语音识别模型。
本研究提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势。
科大讯飞的成功靠的是AI核心战略:平台+赛道。
本文将回顾最近一年通义实验室在语音AI经典的原子能力,如语音识别、语音合成、说话人识别的研究进展,并介绍语音AI结合大模型的多模态研究及应用进展。最后开源是降低AI研究和应用门槛的最有效手段,本文将会总结当前团队的开源情况,供读者鉴阅。
2016年9月7日-12日,语音与信息处理技术领域顶级的国际会议Interspeech在美国旧金山举行,阿里几位语音技术专家参加了此次会议。
在运营商家宽业务支撑场景中,存在多个APP和系统需要与装维人员交互,传统的功能按钮点击型操作交互界面,越来越难以满足装维人员工作提效的迫切需求。家宽施工调度系统所需的AI语音能力主要包括ASR(音转字)和TTS(字转音)。
对大多数程序员同学来说,Git 应该是日常工作中接触的最多的工具之一了。我们每天都在和 Git 打交道,通过 Git 提交代码。那不知道大家有没有真正去了解过 Git,它为什么会出现?它到底是什么?它又拥有哪些“魔力”,能成为当今最受欢迎的版本控制系统呢?