写点什么

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别

  • 2016-01-05
  • 本文字数:1518 字

    阅读完需:约 5 分钟

百度研究院是百度公司的一个部门(NASDAQ:BIDU),近日公布了其硅谷人工智能实验室(SVAIL)的一项新的研究成果,被称为 Deep Speech2。Deep Speech 通过使用一个单一的学习算法具备准确识别英语和汉语的能力。其成果已经发表在相关论文中: Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

去年的时候,百度的首席科学家 Andrew Ng 博士以及由 Awni Hannun 领导的 10 人研究团队在美国康奈尔大学图书馆网站上称,他们已经开发出了一种新的,更为准确的语音识别系统 Deep Speech,该系统使用了端对端的深度学习技术。Andrew Ng 表示,百度 Deep Speech 主要专注于提高嘈杂环境(例如,餐馆、汽车和公共交通)下的英语语音识别的准确率。它在噪音环境中(比如汽车内和人群之中)的表现更为突出。在噪音环境下,测试显示百度 Deep Speech 系统的出错率要比谷歌 Speech API,Wit.AI,微软 Bing Speech 以及苹果 Dictation 低 10% 多。

在过去的一年中,SVAIL 的研究人员提高了英语语音识别的表现,现在已经开始训练汉语。在许多情况下,汉语版本的语音识别已经实现了相当高的精确度,该系统现已可以大范围应用于真实世界中,比如移动设备上的网络搜索。

语音识别是一项越来越重要的技术,已经被用于苹果语音助手 Siri、语音输入功能 Dictation 以及谷歌语音搜索中。过去二十年中,语音识别技术取得了显著的进步,已经开始从实验室走向市场。语音识别技术,也称为自动语音识别,其目标是将人类的语音中的词汇内容转化为计算机可读的输入。以前的主流的语音识别技术多采用模式识别依赖于大规模数据的获取和高性能计算技术的发展,深度学习(Deep Learning)已经取得了举世瞩目的成绩。目前,端到端的深度学习现在已经成为语音识别最重要的手段。而百度正是采用了这种技术。

“SVAIL 已经表明,这种终到端(end-to-end)的深度学习方法可以用来识别各种不同的语言”,Andrew Ng 博士表示,“我们的做法的关键是我们使用了高性能计算技术,这导致现在的计算速度是去年同期的 7 倍,在这个时候。正因为如此高效的速度,过去需要数周的实验现在几天之内就可以完成。这让我们可以实现更快的迭代”。

在这篇研究论文中,SVAIL 也提到 Deep Speech 可以处理来自全世界各地的不同的英语口音。目前,这样的处理对于移动设备上现有的流行的语音系统是非常具有挑战性的。

“通过使用批处理技术将 DNNs 部署在 GPUs 上,Deep Speech 的语音识别实现了非常高的效率,我对此印象深刻”,NVIDIA 的首席科学家 Bill Dally 博士在谈到 Deep Speech 的高性能计算架构的时候表示,“Deep Speech 在 16 个 GPU 上训练卷积神经网络(RNNs)取得不可思议的突破”。

面对各种不同的英语口音(如印度英语口音,以及那些英语不是第一语言的欧洲国家的英语口音),Deep Speech 都取得了飞速的进步。

当 Deep Speech 去年刚刚启动的时候,我就预见到了它的潜力”,卡耐基梅隆大学助理教授 Ian Lane 表示,“今天,在一个相对短的时间内,Deep Speech 已经取得了显著的进步。使用一个单一的端到端系统,它不仅仅能够处理英语,还可以处理汉语,而且目前还在进一步研究在产品中使用。对于百度使用的批处理调度过程,以及将大的深度神经网络部署在云计算服务器中的 GPU 上的方式,我非常感兴趣”。

相信随着 Deep Speech 的大范围部署,广泛应用于移动装置的语音识别系统将遭受此系统的巨大冲击。


感谢董志南对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2016-01-05 18:004776
用户头像

发布了 268 篇内容, 共 134.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

5句话让文心快码实现一个大模型MBTI测试器

Comate编码助手

人工智能 编程 大模型 技术干货 MBTI

率先响应!和鲸助力“人工智能+医疗”再行动,赋能医疗科研创新与临床应用升级

ModelWhale

人工智能 医疗 人工智能+

【最新案例】ArgoDB新功能之读写分离,助力某医药集团打造高效数据中心,消除传统方案的灵活性限制,确保响应时间的可预测性

星环科技

构建坚不可摧的防线:全方位保障API接口数据安全

Noah

从零到一搭建企业知识库,用对知识库工具事半功倍

职场工具箱

效率工具 在线白板 知识库 知识库软件 企业知识库

“人工智能+”驶入快车道,和鲸联合联想、沐曦首发科研智能一体机

ModelWhale

联想 和鲸 科研智能一体机 沐曦

TDS数据治理深度实践:从标准化到智能化的演进之路

百度Geek说

大数据开发 数据开发与治理

从汉语言文学学生到鸿蒙先锋:林子亿的跨界成长与生态探索

最新动态

大型广告系统架构与设计

加勒比海带

Java 大数据 分布式 高并发 商业化

你真的知道 Java 里的 Exception 和 Error 有啥不同吗?

秃头小帅oi

云存储图片生成缩略图开发

最新动态

电路仿真的“套娃”建模(子电路)功能介绍

思茂信息

cst仿真软件 CST软件 CST Studio Suite

高能!2025数博会天翼云硬核亮相!

天翼云开发者社区

云服务

HarmonyOS NEXT移动办公的多设备文件共享:WLAN P2P与蓝牙串行通信的综合应用

最新动态

突发事件中的新闻数据分析:速度、准确性与责任的考量

沃观Wovision

数据分析 沃观Wovision 舆情监测系统 海外舆情监测

Windows Server 2025 Active Directory权限提升漏洞检测工具

qife122

PowerShell ActiveDirectory

观测云产品更新 | LLM 监测、查看器、事件中心、监控等

观测云

产品迭代

当便捷遇上复杂,低代码的路该怎么走?

引迈信息

让鲜花不只绽放在手中:HarmonyOS助力花农直连市场

最新动态

HyperMesh什么是矩阵?

智造软件

仿真 Hypermesh 设计优化

面试官:如何确保动态线程池任务都执行完?

王磊

NJet深层清理Lua代码

通明湖

AI 客服 Sierra 再融资,估值达 100 亿美元;米哈游创始人游戏《星之低语》上线遇冷,玩家在线数不足千人丨日报

声网

手把手教你用LLM图转换器构建知识图谱:从文本到知识的智能转换

测试人

OpenLDAP研究

数新网络官方账号

openldap

攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!

天翼云开发者社区

大模型训练

2025 HarmonyOS 创新赛|对话刘子安:向外走,做鸿蒙开发的新生力量

最新动态

爱回收:拥抱HarmonyOS,引领回收行业新趋势

最新动态

探索ArkWeb的奥秘:架构了解与生命周期管理

最新动态

前端热更新驱动下的中国互联网开发范式重构

xuyinyin

构建未来安全体系的基石:态势感知技术解析

沃观Wovision

态势感知 舆情监测 沃观Wovision 舆情监测系统

Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别_百度_张天雷_InfoQ精选文章