阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别

  • 2016-01-05
  • 本文字数:1518 字

    阅读完需:约 5 分钟

百度研究院是百度公司的一个部门(NASDAQ:BIDU),近日公布了其硅谷人工智能实验室(SVAIL)的一项新的研究成果,被称为 Deep Speech2。Deep Speech 通过使用一个单一的学习算法具备准确识别英语和汉语的能力。其成果已经发表在相关论文中: Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

去年的时候,百度的首席科学家 Andrew Ng 博士以及由 Awni Hannun 领导的 10 人研究团队在美国康奈尔大学图书馆网站上称,他们已经开发出了一种新的,更为准确的语音识别系统 Deep Speech,该系统使用了端对端的深度学习技术。Andrew Ng 表示,百度 Deep Speech 主要专注于提高嘈杂环境(例如,餐馆、汽车和公共交通)下的英语语音识别的准确率。它在噪音环境中(比如汽车内和人群之中)的表现更为突出。在噪音环境下,测试显示百度 Deep Speech 系统的出错率要比谷歌 Speech API,Wit.AI,微软 Bing Speech 以及苹果 Dictation 低 10% 多。

在过去的一年中,SVAIL 的研究人员提高了英语语音识别的表现,现在已经开始训练汉语。在许多情况下,汉语版本的语音识别已经实现了相当高的精确度,该系统现已可以大范围应用于真实世界中,比如移动设备上的网络搜索。

语音识别是一项越来越重要的技术,已经被用于苹果语音助手 Siri、语音输入功能 Dictation 以及谷歌语音搜索中。过去二十年中,语音识别技术取得了显著的进步,已经开始从实验室走向市场。语音识别技术,也称为自动语音识别,其目标是将人类的语音中的词汇内容转化为计算机可读的输入。以前的主流的语音识别技术多采用模式识别依赖于大规模数据的获取和高性能计算技术的发展,深度学习(Deep Learning)已经取得了举世瞩目的成绩。目前,端到端的深度学习现在已经成为语音识别最重要的手段。而百度正是采用了这种技术。

“SVAIL 已经表明,这种终到端(end-to-end)的深度学习方法可以用来识别各种不同的语言”,Andrew Ng 博士表示,“我们的做法的关键是我们使用了高性能计算技术,这导致现在的计算速度是去年同期的 7 倍,在这个时候。正因为如此高效的速度,过去需要数周的实验现在几天之内就可以完成。这让我们可以实现更快的迭代”。

在这篇研究论文中,SVAIL 也提到 Deep Speech 可以处理来自全世界各地的不同的英语口音。目前,这样的处理对于移动设备上现有的流行的语音系统是非常具有挑战性的。

“通过使用批处理技术将 DNNs 部署在 GPUs 上,Deep Speech 的语音识别实现了非常高的效率,我对此印象深刻”,NVIDIA 的首席科学家 Bill Dally 博士在谈到 Deep Speech 的高性能计算架构的时候表示,“Deep Speech 在 16 个 GPU 上训练卷积神经网络(RNNs)取得不可思议的突破”。

面对各种不同的英语口音(如印度英语口音,以及那些英语不是第一语言的欧洲国家的英语口音),Deep Speech 都取得了飞速的进步。

当 Deep Speech 去年刚刚启动的时候,我就预见到了它的潜力”,卡耐基梅隆大学助理教授 Ian Lane 表示,“今天,在一个相对短的时间内,Deep Speech 已经取得了显著的进步。使用一个单一的端到端系统,它不仅仅能够处理英语,还可以处理汉语,而且目前还在进一步研究在产品中使用。对于百度使用的批处理调度过程,以及将大的深度神经网络部署在云计算服务器中的 GPU 上的方式,我非常感兴趣”。

相信随着 Deep Speech 的大范围部署,广泛应用于移动装置的语音识别系统将遭受此系统的巨大冲击。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2016-01-05 18:004237
用户头像

发布了 268 篇内容, 共 118.1 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

基于机器学习的语音编解码器声网Agora Silver:支持超低码率下的高音质语音互动

声网

RTE 技术详解 音频体验 AI Codec

结构化流-Structured Streaming(八-上)

数据与智能

spark 查询引擎 结构化思维

想聊天?自己搭建个聊天机器人吧!

百度大脑

人工智能 聊天 飞桨

光子是深度学习的未来!光子有望替代电子计算机加速神经网络计算

百度开发者中心

深度学习 最佳实践 方法论

注意:线程的执行顺序与你想象的可能不一样!

冰河

Java 程序员 并发编程 多线程 异步编程

有图,有代码,好理解,学习内存管理,mmap机制

奔着腾讯去

Linux 内存管理 Mmap 内存映射

一文读懂区块链技术如何改变非洲贸易(上)

CECBC

河南平安,附最全自救锦囊

石云升

7月日更 郑州加油

盘点Java线程池配置的常见误区,你中了几个?

北游学Java

Java 多线程

论区块链技术如何赋能社交代币并打造创作者经济新局面

CECBC

澳鹏看点 | 厉害了,3D点云语义分割

澳鹏Appen

人工智能 自动驾驶 语义分割 数据标注 3D点云

Pravega Flink connector 的过去、现在和未来

阿里云大数据AI技术

什么是共识?(生活篇)

趣链科技

为什么开发人员都不愿写 API 文档?

狐哥说技术

Postman Apifox 接口文档 接口管理

ZooKeeper 分布式锁 Curator 源码 02:可重入锁重复加锁和锁释放

程序员小航

源码 分布式锁 zookeeper分布式锁 curator

gitlab ee 14.1稳定版安装教程

阿呆

gitlab

《小马哥java项目实战》训练营培训小结

夏日

免费分享Redis从入门到精通的优秀图书

Java入门到架构

Java 书籍

为什么BAT的程序员能月薪 20k ,而你一个月只能拿 6K 的低保?差别就在这!

白亦杨

Java 编程 程序员

手写归并排序算法

实力程序员

程序员 C语言 排序算法 实力 编程实战

【堡垒机】堡垒机到底有用不?国内哪家堡垒机好用?

行云管家

云计算 数据安全 堡垒机

我们都是那条流浪的小黄狗|靠谱点评

无量靠谱

没有你,对我很重要|靠谱点评

无量靠谱

质量基础建设一站式服务平台搭建

腾讯、网易纷纷出手,火到出圈的元宇宙到底是个啥?

行者AI

游戏

聊聊 Web Workers 吧

Faye

JavaScript 大前端

大型企业采购云管理平台的诉求分析-行云管家

行云管家

云计算 云安全 云管平台 云资源

ARTS之释义

清风明月

声网Agora 教育 aPaaS 灵动课堂升级:UI与业务逻辑分离,界面、功能自定义更灵活

声网

在线教育 网络

优秀!百度技术官甩出SpringBoot全栈小册,GitHub星标92.5k

Java 编程 程序员

好未来 x StarRocks:全新实时数仓实践,深入释放实时数据价值

StarRocks

数据库 flink 实时数仓 好未来 StarRocks

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别_百度_张天雷_InfoQ精选文章