写点什么

语音识别

收录了 语音识别 频道下的 50 篇内容

端到端语音识别时代来临:网易杭州研究院的智能语音探索之路
端到端语音识别时代来临:网易杭州研究院的智能语音探索之路

近些年,伴随着深度学习技术的发展,语音识别技术经历了革命性的变化。

滴滴披露语音识别新进展:基于 Attention 显著提升中文识别率

近期,滴滴的一篇论文被低调提交到了预印版论文平台 arXiv。在这篇名为《A comparable study of modeling units for end-to-end Mandarin speech recognition》的论文中,滴滴公布了其在基于 attention 的端对端中文语音识别技术上取得的最新研究成果。论文中,滴滴 attention 中文语音识别系统直接以常用的 5000 多中文汉字作为建模单元,实现了语言信息和声学信息的联合建模。AI 前线第 33 篇论文导读,将为你带来这篇论文的精彩解读。

年终解读:2017 年的语音识别,路只走了一半

这一年的人工智能大潮,无疑让更多人关注科大讯飞,关心在这样的潮流里,一家深耕语音识别的公司如何能获得更多业务和利润,如何能去迎合AI上升的趋势,从而满足人们对人工智能的所有期望。 其实这一年,技术的进程还是和往年一样。

打破国外垄断,出门问问主导研发的端到端语音识别开源框架WeNet实践之路
打破国外垄断,出门问问主导研发的端到端语音识别开源框架 WeNet 实践之路

端到端语音识别技术,如何更好的落地?

作业帮中英文混合语音识别系统研发实践
作业帮中英文混合语音识别系统研发实践

随着语音技术开始渗透到人类生活的方方面面,混合语言的现象受到越来越多的关注。因此,开发用于中英文混合语言的自动语音识别(CSSR)系统尤为重要。

声网一站式智能语音识别方案升级 语音审核“快准省”
声网一站式智能语音识别方案升级 语音审核“快准省”

近日,我们的“一站式智能语音识别方案”将实现升级。

语音识别技术25年:它的过去、现在和未来
语音识别技术 25 年:它的过去、现在和未来

为什么语音识别直到最近几年才被广泛应用于日常生活中呢?

多语言和跨语言语音识别

InfoQ开设栏目“品味书香”,精选技术书籍的精彩章节,以及分享看完书留下的思考和收获,欢迎大家关注。本文节选自俞栋、邓力著《解析深度学习:语音识别实践》中的第12章,介绍多语言和跨语言语音识别的内容。

Mozilla “Common Voice” 开源语音识别项目

Mozilla开源语音识别项目 “Common Voice”,用户可以捐献语音或帮助验证语音转换结果。

迈向语音识别领域的ImageNet时刻
迈向语音识别领域的 ImageNet 时刻

并非只有谷歌、Facebook和百度之类的大公司才能提供可部署的“接地气”的解决方案。

2019年,这8款自动语音识别方案你应该了解!
2019 年,这 8 款自动语音识别方案你应该了解!

2019版自动语音识别方案指南。

滴滴出行场景中语音识别模型的自学习平台化实践
滴滴出行场景中语音识别模型的自学习平台化实践

在滴滴也有丰富的语音交互场景落地,为了更快更稳定地输出语音识别模型,提高业务识别准确率,我们开发了语音识别模型自学习平台。

将BERT用于语音识别!滴滴提出新无监督预训练框架,中文识别性能提升10%
将 BERT 用于语音识别!滴滴提出新无监督预训练框架,中文识别性能提升 10%

论文结果显示,通过简单的无监督预训练,中文语音识别任务能得到10%以上的性能提升。

国内首款基于FPGA平台的语音识别加速解决方案登陆华为云
国内首款基于 FPGA 平台的语音识别加速解决方案登陆华为云

该方案以语音识别为应用载体,对AI类应用推理计算进行全面加速。

Facebook AI 提出改进跨语言迁移学习的新方法,以实现端到端语音识别
Facebook AI 提出改进跨语言迁移学习的新方法,以实现端到端语音识别

该方法通过语音到文本翻译作为中间步骤,改进了针对端到端自动语音识别的跨语言迁移学习。它使学习迁移成为一个两步过程,提高了模型的性能。

做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破
做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破

语音翻译已经不是一个新鲜词汇,但仍具有巨大的应用潜力等待挖掘

ICASSP Poster 论文:阿里提出深层前馈序列记忆神经网络,语音识别性能提升 20%

本研究提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。进一步的我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升。而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势。

全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载
全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频。

基于RNN Transducer端到端语音识别的最小贝叶斯风险训练 | 论文解读
基于 RNN Transducer 端到端语音识别的最小贝叶斯风险训练 | 论文解读

端到端语音识别技术将语音识别系统中的各个组件整合至同一个神经网络框架中,与传统语音识别系统相比具有建模简洁,赋能组件之间联合优化以及系统占用空间小等优点,近几年逐渐成为语音识别领域里最重要的研究方向之一。

语音识别专题_资料-InfoQ中文网