【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

年终解读:2017 年的语音识别,路只走了一半

  • 2018-01-09
  • 本文字数:4513 字

    阅读完需:约 15 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

这一年,百度开放了语音平台 DuerOS,阿里补贴了 4 个亿销售百万智能音箱抢占语音入口。而作为语音识别的先驱龙头,大家开始担心科大讯飞用近二十年建立起来的技术壁垒被摧毁,有人扒讯飞的业务,有人开始扒讯飞十年的财报…

这一年的人工智能大潮,无疑让更多人关注科大讯飞,关心在这样的潮流里,一家深耕语音识别的公司如何能获得更多业务和利润,如何能去迎合 AI 上升的趋势,从而满足人们对人工智能的所有期望。

其实这一年,技术的进程还是和往年一样。(我们从语音识别的角度来解读 2017 年的进展,部分技术解读来源自对讯飞的采访)。

2017,从数据提升开始说起

去年 IBM、微软、谷歌和百度都发布过自家语音识别进展,而今年对媒体更新词错率进展的有三家:

2017 年 3 月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。“集中扩展深度学习应用技术终于取得了 5.5% 词错率的突破”。相对应的是去年 5 月的 6.9%。

2017 年 8 月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约 12% 的出错率,词错率为 5.1%,声称超过专业速记员。相对应的是去年 10 月的 5.9%,声称超过人类。

2017 年 12 月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),词错率降低至 5.6%。相对于强大的传统系统有 16% 的性能提升。

大家的目标很一致,就是想“超过人类”,之前设定人类词错率为 5.9% 的这个界线。

总结来说,因为 Deep CNN 引入之后,语音识别取得了很大的突破,例如谷歌从 2013 年到现在,性能提升了 20%。

而国内语音识别的企业如百度、搜狗、科大讯飞,识别率都在 97% 左右。在语音识别这件事情上,汉语比英语早一年超越人类水平。

去年,科大讯飞又推出了全新的深度全序列卷积神经网络(DFCNN)语音识别框架,该框架的表现比学术界和工业界最好的双向 RNN 语音识别系统识别率提升了 15% 以上。今年,在实际应用领域,讯飞输入法的识别准确率在今年 7 月份也终于突破了 97%,达到了 98%

技术“可用”是第一步,但技术最终是要落地的,变成产品和服务才能实现价值。

今年技术应用场景有什么变化?

今年的产品落地,让人联想到的首先肯定是智能音箱

2016 年的数据统计表明,中国智能音箱销售量占全球比重为 0.35%,6 万:1710 万台的差距。在 2017 年双十一阿里的补贴销售之后,终于可以说“中国智能音箱销量在百万以上”,“中国的智能音箱得到了爆炸式的增长”。但从需求上说,智能音箱的功能集中在听音乐、闹钟、智能家居等,这些功能并不属于国人的“刚需”。BAT 巨头都将智能音箱作为语音入口进行抢占,也给了我们一种爆发的假象。

但这一年,应用场景无疑是越来越丰富。基于各个领域的应用拓展,智能语音技术已经走出安静的室内或者私人环境,走上了服务大厅、卖场及行驶中的汽车等。技术的应用也越来越深入。机器翻译、远场识别、智能降噪、多轮交互、智能打断等技术的进步,也又给智能语音的应用场景带来了更多的变化。

智能车载领域,2017 年科大讯飞发布的飞鱼系统 2.0,融合了 Barge-in 全双工语音交互技术,窄波束定向识别技术,自然语义理解技术,免唤醒技术,多轮对话技术等科大讯飞核心技术。目前,科大讯飞已经为超过 200 款车型,累计超过 1000 万部车辆输出了语音交互产品。

此外,在新零售领域,智能语音技术的应用也在不断扩展。比如 12 月 18 日,科大讯飞和红星美凯龙发布战略合作计划,未来由科大讯飞研发的智能导购机器人“美美”将在全国红星美凯龙门店上市。

语音识别六十年,技术突破总是艰难而缓慢

语音识别的研究起源可以追溯到上世纪 50 年代,AT&T 贝尔实验室的Audry 系统率先实现了十个英文数字识别。

从上世纪 60 年代开始,CMU 的 Reddy 开始进行连续语音识别的开创性工作。但是这期间进展缓慢,以至于贝尔实验室的约翰·皮尔斯(John Pierce)认为语音识别是几乎不可能实现的事情。

上世纪 70 年代,计算机性能的提升,以及模式识别基础研究的发展,促进了语音识别的发展。IBM、贝尔实验室相继推出了实时的 PC 端孤立词识别系统。

上世纪 80 年代是语音识别快速发展的时期,引入了隐马尔科夫模型(HMM)。此时语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。

上世纪 90 年代是语音识别基本成熟的时期,但是识别效果离实用化还相差甚远,语音识别的研究陷入了瓶颈。

关键突破起始于 2006 年。这一年辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏,掀起了深度学习的热潮。2009 年,辛顿以及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库 TIMIT 上获得成功。2011 年,微软研究院俞栋、邓力等发表深度神经网络在语音识别上的应用文章,在大词汇量连续语音识别任务上获得突破。国内外巨头大力开展语音识别研究。

科大讯飞的 **** 智能语音探索之路

科大讯飞在 2010 年首批开展 DNN 语音识别研究,2011 年上线了全球首个中文语音识别 DNN 系统。2012 年,在语音合成领域首创 RBM 技术。2013 年又在语种识别领域首创 BN-ivec 技术。2014 年科大讯飞开始深度布局 NLP 领域,2015 年,RNN 语音识别系统全面升级。

2016 年,上线 DFCNN(深度全序列卷积神经网络,Deep Fully Convolutional Neural Network)语音识别系统。在和其他多个技术点结合后,科大讯飞 DFCNN 的语音识别框架在内部数千小时的中文语音短信听写任务上,相比目前业界最好的语音识别框架双向 RNN-CTC 系统获得了 15% 的性能提升,同时结合科大讯飞的 HPC 平台和多 GPU 并行加速技术,训练速度也优于传统的双向 RNN-CTC 系统。DFCNN 的提出开辟了语音识别的一片新天地,后续基于 DFCNN 框架,还将展开更多相关的研究工作。

(图1)

DFCNN 的结构如图所示,它直接将一句语音转化成一张语谱图作为输入,即先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合,对整句语音进行建模,输出单元直接与最终的识别结果比如音节或者汉字相对应。

(图2)

在语音识别子领域上,今年科大讯飞的智能语音技术所取得的代表性的成就在自然语言理解领域。7 月份,哈工大讯飞实验室(HFL) 刷新了斯坦福大学发起的SQuAD(Stanford Question Answering Dataset) 机器阅读理解挑战赛全球纪录,提交的“基于交互式层叠注意力模型”(Interactive Attention-over-Attention Model)取得了精确匹配77.845% 和模糊匹配85.297% 的成绩,位列世界第一,也是中国本土研究机构首次取得赛事榜首。

语音合成上,暴风雪竞赛(Blizzard Challenge)是国际最权威的语音合成比赛。科大讯飞以语音合成技术率先达到4.0 分的成绩并连续12 年蝉联全球第一名,这是全世界唯一能让语音合成技术能够达到真人说话水平的系统。5.0 分代表播音员的水平,4.0 分代表美国普通老百姓的发音水平。

在人机交互系统上,科大讯飞于11 月发布了AIUI2.0 系统,支持远场降噪、方言识别和多轮对话的技术的基础上又增加了主动式对话、多模态交互、自适应、个性化识别等能力并能在嘈杂会场完成全双工翻译功能。

而科大讯飞的云端语音开放平台,截至2017 年12 月,累计终端数达到15 亿,日均交互次数达到40 亿,开发者团队数已达50 万。

语音识别还有哪些没有解决的问题?

深度学习应用到语音识别领域之后,词错率有显著降低,但是并不代表解决了语音识别的所有问题。认识这些问题,想办法去解决,是语音识别能够取得进步的关键所在,将 ASR(自动语音识别)从“大部分时间仅适用于一部分人”发展到“在任何时候适用于任何人”。

1. 口音和噪声

语音识别中最明显的一个缺陷就是对口音和背景噪声的处理。最直接的原因是大部分的训练数据都是高信噪比、带有口音的语言。比如单是为美式口音英语构建一个高质量的语音识别器就需要 5000 小时以上的转录音频,因而仅凭训练数据很难解决掉这个问题。

在中国,口音问题解决得比较好的,是科大讯飞。科大讯飞目前推出了 22 种方言相关的语音识别系统,但对于那些音素体系与汉语不同的方言或外国语种,在成本问题上还没有很好的办法。

2. 多人会话

每个说话人使用独立的麦克风进行录音,在同一段音频流中不存在多个说话人的语音重叠,这种情况下的语音识别任务比较容易。然而,人类即使在多个说话人同时说话的时候也能够理解说话内容。一个好的会话语音识别器必须能够根据谁在说话对音频进行划分(Diarisation),还应该理解多个说话人语音重叠的音频(声源分离)。

在利用语音技术推动输入和交互模式变革的过程中,仍面临这些阻碍。多人对话等场景下的语音识别率虽然很高,声纹识别虽然也已经在实验室实现,但距离实际应用还有一些距离。

3. 认知智能

语音识别技术在质检、安全等方面有很好的应用,但是对于人类所希望达到 100% 的识别率来说,从科研角度看肯定还有很多需要继续努力的地方。比如减少语义错误、理解上下文上(机器的学习和推理),我们才仅触及皮毛。“ 认知智能有没有真正的突破,是这一轮人工智能热潮——包括产业化热潮——能不能进一步打开天花板、进一步形成更大规模的产业的关键技术所在”,2017 年底,科技部正式发文将依托科大讯飞建立首个认知智能国家重点实验室。

未来五年内,语音识别领域仍然存在许多开放性和挑战性的问题,如,在新地区、口音、远场和低信噪比语音方面的能力扩展;在识别过程中引入更多的上下文;Diarisation 和声源分离;评价语音识别的语义错误率和创新方法;超低延迟和高效推理等。尽管语音识别目前成果斐然,但剩下的难题和已克服的一样令人生畏。虽然近几年深度神经网络的兴起使得语音识别性能获得了极大的提升,但是我们并不能迷信于现有的技术,总有一天新技术的提出会替代现有的技术。

除技术外,一个 AI 企业的那些事儿

人工智能催生了大量新技术、新企业和新业态,人工智能火热背景下, 作为 A 股人工智能龙头股科大讯飞,曾在一个月猛增 360 多亿元,市值突破千亿。似乎很正契合普通百姓对“AI”神化的认知。

2017 年 11 月 15 日,中国新一代人工智能发展规划暨重大科技项目启动会在京召开,科技部公布我国第一批国家人工智能开放创新平台,包括:1、依托百度公司建设自动驾驶国家新一代人工智能开放创新平台;2、依托阿里云公司建设城市大脑国家新一代人工智能开放创新平台;3、依托腾讯公司建设医疗影像国家新一代人工智能开放创新平台;4、依托科大讯飞公司建设智能语音国家新一代人工智能开放创新平台。作为首批入选国家新一代人工智能开放创新平台,目前的科大讯飞,用刘庆峰的话说是“现在还未到达登顶的状态,只能说是已经开始登山,刚克服了爬坡之后的艰难,开始到慢慢适应的状态”,如同语音识别技术现状。

人工智能是个大趋势,本身也是需要很重投入的,但它也会有更长远的影响,所以不能特别短视于此时此刻的回报上。“必须具备了强技术,才能形成刚需”,“就是要把技术做深做透,做到大家真正觉得有刚需”,刘庆峰说,“我们瞄准着五到十年更前沿的技术研究”。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-01-09 18:005106

评论

发布
暂无评论
发现更多内容

2020应届毕业生,Android春招总结,已入职小米(1),kotlin安卓开发教程

android 程序员 移动开发

2020这一年的Android面经汇总(百度、腾讯、滴滴,移动端跨平台开发方案

android 程序员 移动开发

2021 最新Android常见知识体系,HR:,Android进程管理

android 程序员 移动开发

2020个人开发者做一款Android-App需要知道的事情,年薪百万在此一举(1)

android 程序员 移动开发

2020了,Android开发是否真的还有出路!25岁的我还有机会吗

android 程序员 移动开发

2020年阿里巴巴Android面经:拿到字节跳动offer后,简历又被阿里捞了起来

android 程序员 移动开发

架构设计七 如何设计异地多活架构

nydia

2020最后一天! 我为大家准备一份Android 面试知识点大全迎接2021新的一年

android 程序员 移动开发

2020每一位Android开发者应该知道,Android体系架构和开发库,没有干货你打我

android 程序员 移动开发

2020荒诞的一年,35岁程序员现状:我现在房贷车贷家庭,android游戏开发大全

android 程序员 移动开发

王者荣耀商城异地多活架构设计

Sky

「架构实战营」

2021年之Android面经分享(已获头条、顺丰,html5移动端

android 程序员 移动开发

2020京东Android岗面试题大全(附赠京东内部真题解析PDF)

android 程序员 移动开发

2020字节跳动安卓程序员视频面试,这五点一定有助你顺利拿到offer

android 程序员 移动开发

2020年12月大厂BATJ面试ing-本以为学了个好找工作的Android开发,没想到又是坑

android 程序员 移动开发

2020年腾讯丶百度丶字节丶OPPO等Android面试大全,附带教你如何写好简历

android 程序员 移动开发

2021 提升Android开发效率的实战技巧,女生学移动应用开发

android 程序员 移动开发

2020上半年百度Android岗(初级到高级)面试真题全收录

android 程序员 移动开发

2020字节跳动安卓程序员视频面试,这五点一定有助你顺利拿到offer(1)

android 移动开发

2020抖音短视频爆火!它的背后到底是什么—,手把手教你写Android项目文档

android 程序员 移动开发

2020了,Android开发是否真的还有出路!25岁的我还有机会吗(1)

android 程序员 移动开发

2020京东最新Android面试真题解析,kotlinarrow库

android 程序员 移动开发

2020关于面试字节跳动,我总结一些面试点,希望对最近需要面试的你们一些帮助

android 程序员 移动开发

2020最全的BAT大厂面试题整理改版 (2),小程序开发

android 程序员 移动开发

2021应届秋招:提前批挂后,二次面试字节跳动抖音Android客户端

android 程序员 移动开发

2020年失业后我整理了一份系统的Android面试题(含答案)

android 程序员 移动开发

2020应届毕业生,Android春招总结,已入职小米,阿里牛逼

android 程序员 移动开发

2020新一波跳槽季过后,Android程序员精选,大厂,flutter微信小程序

android 程序员 移动开发

2020年Android开发年终总结之如何挤进一线大厂?,BAT这种大厂履历意味着什么

android 程序员 移动开发

2020年度总结:如果系统的Android学习可以这么简单!为什么不来看看呢

android 程序员 移动开发

2020最新GitHub-上-10-个顶级开源项目,2021最新大厂Android面试集合

android 程序员 移动开发

年终解读:2017年的语音识别,路只走了一半_语言 & 开发_Tina_InfoQ精选文章