创新性应用深度学习，IBM在语音识别领域取得了里程碑式突破_IBM_Srini Penchikala_InfoQ精选文章



 写点什么

登录/注册

最近，IBM 的一个研究团队宣布他们在语音识别上创造了一个新的业界纪录，在使用 SWITCHBOARD 语料库的情况下词错误率为 5.5%，接近于人类的错误率 5.1%。人们一般会在所听到的 20 个单词中遗失其中的一到两个。在一次五分钟左右的对话中，大约会遗失 80 个词。

研究计划中包括深度学习技术的应用和声学模型的集成。其中语音识别模型使用了长短期记忆（LSTM，Long Short Term Memory）和 WaveNet 语言模型。在声学模型上，他们使用了三个模型的分数融合（Score Fusion）。第一个模型是有多特征输入的 LSTM，第二个模型是经过说话者对抗多任务学习（Speaker-adversarial Multi-task Learning）训练后的 LSTM。第三个模型是具有 25 个卷积层与时间扩张（Time-dilated）卷积的残差网络（ResNet）。最后一个模型不仅从正向的例子中学习，而且也使用了负向的例子，因此当类似的语音模式重现时，会具有更好的表现。

来自蒙特利尔大学蒙特利尔学习算法实验室（Montreal Institute for Learning Algorithms ）的 Yoshua Bengio 对语音识别技术是如此评论的：

在过去的几年中，尽管在语音识别或物体识别等人工智能领域取得了巨大的进展，技术上也已经接近于人类的水平，但在科学上依然存在着挑战。诚然，标准的基准测试并非总能揭示真实数据的多样性和复杂度。例如，不同的数据集对于不同的任务会呈现出不一样的敏感性，而且结果十分依赖于如何对被测试人员进行评估，比如使用专业的誊写员进行语音识别测试。

他也指出，IBM 的这项研究将声学模型与语言模型应用于神经网络与深度学习，有助于推进语音识别技术的发展。

另据一些语音识别相关的新闻报道，IBM 已将 Diarization 添加到他们的“ Watson 语音转文本”服务中。这一技术有助于一些用例的实现，例如识别交谈中的各方发言者。所有这些成就所带来的技术有助于解决人类耳朵、声音和大脑交互复杂性的问题。

查看英文原文： Using Deep Learning Technologies IBM Reaches a New Milestone in Speech Recognition

感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

评论

发布

暂无评论

ASL公链软件开发|ASL公链系统APP开发

字节跳动异构场景下的高可用建设实践

Linux内核移植

云计算 Linux 运维运维自动化

tms大时代APP开发|tms大时代软件系统开发

maven私服搭建与插件开发

Go学习笔记之Hello World

架构精进之路

语言 Go 语言 7月日更

Pano Flutter SDK 设计经验与实践浅谈

watt挖矿软件开发|watt挖矿APP系统开发

DMD钻石币质押软件系统开发内容

环球旅游积分GTC系统开发内容

JAVA九种排序算法详解（上）

Java 数组排序 7月日更

店讯APP开发|店讯系统软件开发

乐视界APP开发|乐视界软件系统开发

Android性能优化之启动优化实战篇！分享面经

欢喜学安卓

android 程序员面试移动开发

百度搜索稳定性问题分析的故事（上）

Flink 1.13，面向流批一体的运行时与 DataStream API 优化

Python 没有函数重载？如何用装饰器实现函数重载？

华为云开发者联盟

Python 装饰器命名空间函数函数重载

2021金三银四Android大厂面试题来袭！附赠复习资料

欢喜学安卓

android 程序员面试移动开发

Android性能优化总结，超详细

欢喜学安卓

android 程序员面试移动开发

字节跳动这份面试题，你能打几分

2021谈一下当下最合适的Android架构，附小技巧

欢喜学安卓

android 程序员面试移动开发

已拿阿里P7+意向书！总结480页，超24W字2021最新一线大厂Java高级架构师面试题

Java架构追梦

Java 阿里巴巴架构面试

腾讯云，拿什么获得电商行业信赖？

ToB行业头条

Flink 1.13，State Backend 优化及生产实践分享

党建百年•融云献礼，重磅发布党建全场景通信解决方案

融云 RongCloud

简单使用HTML集成OnlyOffice

从零开始学习3D可视化之事件的常用方法

ThingJS数字孪生引擎

大前端可视化 3D可视化数字孪生事件

测试开发之网络篇-网络路由

禅道项目管理

Hi.com嗨币软件系统开发资料