

 写点什么

语音识别

收录了语音识别频道下的 50 篇内容

端到端语音识别时代来临：网易杭州研究院的智能语音探索之路

近些年，伴随着深度学习技术的发展，语音识别技术经历了革命性的变化。

作者 : 蔡芳芳

2019-12-17

3223

滴滴披露语音识别新进展：基于 Attention 显著提升中文识别率

近期，滴滴的一篇论文被低调提交到了预印版论文平台 arXiv。在这篇名为《A comparable study of modeling units for end-to-end Mandarin speech recognition》的论文中，滴滴公布了其在基于 attention 的端对端中文语音识别技术上取得的最新研究成果。论文中，滴滴 attention 中文语音识别系统直接以常用的 5000 多中文汉字作为建模单元，实现了语言信息和声学信息的联合建模。AI 前线第 33 篇论文导读，将为你带来这篇论文的精彩解读。

作者 : 蔡芳芳

2018-05-28

1630

年终解读：2017 年的语音识别，路只走了一半

这一年的人工智能大潮，无疑让更多人关注科大讯飞，关心在这样的潮流里，一家深耕语音识别的公司如何能获得更多业务和利润，如何能去迎合AI上升的趋势，从而满足人们对人工智能的所有期望。其实这一年，技术的进程还是和往年一样。

作者 : Tina

2018-01-09

3121

打破国外垄断，出门问问主导研发的端到端语音识别开源框架 WeNet 实践之路

端到端语音识别技术，如何更好的落地？

作者 : 刘燕

2021-10-20

作业帮中英文混合语音识别系统研发实践

随着语音技术开始渗透到人类生活的方方面面，混合语言的现象受到越来越多的关注。因此，开发用于中英文混合语言的自动语音识别(CSSR)系统尤为重要。

作者 : 作业帮技术团队策划: 刘燕

2022-09-23

声网一站式智能语音识别方案升级语音审核“快准省”

近日，我们的“一站式智能语音识别方案”将实现升级。

作者 : RTE开发者社区

2020-04-10

语音识别技术 25 年：它的过去、现在和未来

为什么语音识别直到最近几年才被广泛应用于日常生活中呢？

作者 : Matthew Karas 译者: 王者策划: Tina

2020-11-30

多语言和跨语言语音识别

InfoQ开设栏目“品味书香”，精选技术书籍的精彩章节，以及分享看完书留下的思考和收获，欢迎大家关注。本文节选自俞栋、邓力著《解析深度学习：语音识别实践》中的第12章，介绍多语言和跨语言语音识别的内容。

作者 : 俞栋邓力

2016-09-06

3708

Mozilla “Common Voice” 开源语音识别项目

Mozilla开源语音识别项目 “Common Voice”，用户可以捐献语音或帮助验证语音转换结果。

作者 : CarolGuo

2017-07-31

6426

迈向语音识别领域的 ImageNet 时刻

并非只有谷歌、Facebook和百度之类的大公司才能提供可部署的“接地气”的解决方案。

作者 : Alexander Veysov 译者: 王强Maglish 策划: 蔡芳芳

2020-04-25

用 TCN 取代 RNN！李飞飞团队提出口语语音识别新方法

RNN已老，TCN崛起！

作者 : Albert HaquePrateek VermaLi Fei-Fei 译者: 吴少杰

2019-03-12

5389

2019 年，这 8 款自动语音识别方案你应该了解！

2019版自动语音识别方案指南。

作者 : Derrick Mwiti 译者: 核子可乐

2019-09-14

1915

滴滴出行场景中语音识别模型的自学习平台化实践

在滴滴也有丰富的语音交互场景落地，为了更快更稳定地输出语音识别模型，提高业务识别准确率，我们开发了语音识别模型自学习平台。

作者 : 滴滴技术

2020-11-20

奇富科技推出智能语音模型 Qifusion，语音识别准确率可达 93% 以上

奇富科技引入了全自研Qifusion框架模型，并将其集成到智能营销及贷后提醒等业务场景中。

作者 : 赵明华

2024-07-10

将 BERT 用于语音识别！滴滴提出新无监督预训练框架，中文识别性能提升 10%

论文结果显示，通过简单的无监督预训练，中文语音识别任务能得到10%以上的性能提升。

作者 : AI前线小组策划: 刘燕

2019-11-01

2571

国内首款基于 FPGA 平台的语音识别加速解决方案登陆华为云

该方案以语音识别为应用载体，对AI类应用推理计算进行全面加速。

作者 : 华为云产品与解决方案

2020-03-31

Facebook AI 提出改进跨语言迁移学习的新方法，以实现端到端语音识别

该方法通过语音到文本翻译作为中间步骤，改进了针对端到端自动语音识别的跨语言迁移学习。它使学习迁移成为一个两步过程，提高了模型的性能。

作者 : Tanushree Shenwai 译者: Sambodhi 策划: 刘燕

2020-11-19

做好语音翻译无捷径：语音识别是前提，实时翻译亟待攻破

语音翻译已经不是一个新鲜词汇，但仍具有巨大的应用潜力等待挖掘

作者 : 陈利鑫

2019-05-10

3885

ICASSP Poster 论文：阿里提出深层前馈序列记忆神经网络，语音识别性能提升 20%

本研究提出了一种改进的前馈序列记忆神经网络结构，称之为深层前馈序列记忆神经网络（DFSMN）。进一步的我们将深层前馈序列记忆神经网络和低帧率（LFR）技术相结合构建了LFR-DFSMN语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络（BLSTM）的识别系统显著的性能提升。而且LFR-DFSMN在训练速度，模型参数量，解码速度，而且模型的延时上相比于BLSTM都具有明显的优势。

作者 : 张仕良

2018-03-15

3044

全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外，还包括2400+ 小时弱标注数据和 22400+ 小时的总音频。

作者 : 张彬彬

2021-10-30

创作场景