收录了 语音识别 频道下的 50 篇内容
近些年,伴随着深度学习技术的发展,语音识别技术经历了革命性的变化。
近期,滴滴的一篇论文被低调提交到了预印版论文平台 arXiv。在这篇名为《A comparable study of modeling units for end-to-end Mandarin speech recognition》的论文中,滴滴公布了其在基于 attention 的端对端中文语音识别技术上取得的最新研究成果。论文中,滴滴 attention 中文语音识别系统直接以常用的 5000 多中文汉字作为建模单元,实现了语言信息和声学信息的联合建模。AI 前线第 33 篇论文导读,将为你带来这篇论文的精彩解读。
这一年的人工智能大潮,无疑让更多人关注科大讯飞,关心在这样的潮流里,一家深耕语音识别的公司如何能获得更多业务和利润,如何能去迎合AI上升的趋势,从而满足人们对人工智能的所有期望。 其实这一年,技术的进程还是和往年一样。
端到端语音识别技术,如何更好的落地?
随着语音技术开始渗透到人类生活的方方面面,混合语言的现象受到越来越多的关注。因此,开发用于中英文混合语言的自动语音识别(CSSR)系统尤为重要。
近日,我们的“一站式智能语音识别方案”将实现升级。
为什么语音识别直到最近几年才被广泛应用于日常生活中呢?
InfoQ开设栏目“品味书香”,精选技术书籍的精彩章节,以及分享看完书留下的思考和收获,欢迎大家关注。本文节选自俞栋、邓力著《解析深度学习:语音识别实践》中的第12章,介绍多语言和跨语言语音识别的内容。
Mozilla开源语音识别项目 “Common Voice”,用户可以捐献语音或帮助验证语音转换结果。
并非只有谷歌、Facebook和百度之类的大公司才能提供可部署的“接地气”的解决方案。
RNN已老,TCN崛起!
2019版自动语音识别方案指南。
在滴滴也有丰富的语音交互场景落地,为了更快更稳定地输出语音识别模型,提高业务识别准确率,我们开发了语音识别模型自学习平台。
论文结果显示,通过简单的无监督预训练,中文语音识别任务能得到10%以上的性能提升。
该方案以语音识别为应用载体,对AI类应用推理计算进行全面加速。
该方法通过语音到文本翻译作为中间步骤,改进了针对端到端自动语音识别的跨语言迁移学习。它使学习迁移成为一个两步过程,提高了模型的性能。
语音翻译已经不是一个新鲜词汇,但仍具有巨大的应用潜力等待挖掘
本研究提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势。
WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频。
端到端语音识别技术将语音识别系统中的各个组件整合至同一个神经网络框架中,与传统语音识别系统相比具有建模简洁,赋能组件之间联合优化以及系统占用空间小等优点,近几年逐渐成为语音识别领域里最重要的研究方向之一。