红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

年终解读:2017 年的语音识别,路只走了一半

  • 2018-01-09
  • 本文字数:4513 字

    阅读完需:约 15 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

这一年,百度开放了语音平台 DuerOS,阿里补贴了 4 个亿销售百万智能音箱抢占语音入口。而作为语音识别的先驱龙头,大家开始担心科大讯飞用近二十年建立起来的技术壁垒被摧毁,有人扒讯飞的业务,有人开始扒讯飞十年的财报…

这一年的人工智能大潮,无疑让更多人关注科大讯飞,关心在这样的潮流里,一家深耕语音识别的公司如何能获得更多业务和利润,如何能去迎合 AI 上升的趋势,从而满足人们对人工智能的所有期望。

其实这一年,技术的进程还是和往年一样。(我们从语音识别的角度来解读 2017 年的进展,部分技术解读来源自对讯飞的采访)。

2017,从数据提升开始说起

去年 IBM、微软、谷歌和百度都发布过自家语音识别进展,而今年对媒体更新词错率进展的有三家:

2017 年 3 月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。“集中扩展深度学习应用技术终于取得了 5.5% 词错率的突破”。相对应的是去年 5 月的 6.9%。

2017 年 8 月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约 12% 的出错率,词错率为 5.1%,声称超过专业速记员。相对应的是去年 10 月的 5.9%,声称超过人类。

2017 年 12 月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),词错率降低至 5.6%。相对于强大的传统系统有 16% 的性能提升。

大家的目标很一致,就是想“超过人类”,之前设定人类词错率为 5.9% 的这个界线。

总结来说,因为 Deep CNN 引入之后,语音识别取得了很大的突破,例如谷歌从 2013 年到现在,性能提升了 20%。

而国内语音识别的企业如百度、搜狗、科大讯飞,识别率都在 97% 左右。在语音识别这件事情上,汉语比英语早一年超越人类水平。

去年,科大讯飞又推出了全新的深度全序列卷积神经网络(DFCNN)语音识别框架,该框架的表现比学术界和工业界最好的双向 RNN 语音识别系统识别率提升了 15% 以上。今年,在实际应用领域,讯飞输入法的识别准确率在今年 7 月份也终于突破了 97%,达到了 98%

技术“可用”是第一步,但技术最终是要落地的,变成产品和服务才能实现价值。

今年技术应用场景有什么变化?

今年的产品落地,让人联想到的首先肯定是智能音箱

2016 年的数据统计表明,中国智能音箱销售量占全球比重为 0.35%,6 万:1710 万台的差距。在 2017 年双十一阿里的补贴销售之后,终于可以说“中国智能音箱销量在百万以上”,“中国的智能音箱得到了爆炸式的增长”。但从需求上说,智能音箱的功能集中在听音乐、闹钟、智能家居等,这些功能并不属于国人的“刚需”。BAT 巨头都将智能音箱作为语音入口进行抢占,也给了我们一种爆发的假象。

但这一年,应用场景无疑是越来越丰富。基于各个领域的应用拓展,智能语音技术已经走出安静的室内或者私人环境,走上了服务大厅、卖场及行驶中的汽车等。技术的应用也越来越深入。机器翻译、远场识别、智能降噪、多轮交互、智能打断等技术的进步,也又给智能语音的应用场景带来了更多的变化。

智能车载领域,2017 年科大讯飞发布的飞鱼系统 2.0,融合了 Barge-in 全双工语音交互技术,窄波束定向识别技术,自然语义理解技术,免唤醒技术,多轮对话技术等科大讯飞核心技术。目前,科大讯飞已经为超过 200 款车型,累计超过 1000 万部车辆输出了语音交互产品。

此外,在新零售领域,智能语音技术的应用也在不断扩展。比如 12 月 18 日,科大讯飞和红星美凯龙发布战略合作计划,未来由科大讯飞研发的智能导购机器人“美美”将在全国红星美凯龙门店上市。

语音识别六十年,技术突破总是艰难而缓慢

语音识别的研究起源可以追溯到上世纪 50 年代,AT&T 贝尔实验室的Audry 系统率先实现了十个英文数字识别。

从上世纪 60 年代开始,CMU 的 Reddy 开始进行连续语音识别的开创性工作。但是这期间进展缓慢,以至于贝尔实验室的约翰·皮尔斯(John Pierce)认为语音识别是几乎不可能实现的事情。

上世纪 70 年代,计算机性能的提升,以及模式识别基础研究的发展,促进了语音识别的发展。IBM、贝尔实验室相继推出了实时的 PC 端孤立词识别系统。

上世纪 80 年代是语音识别快速发展的时期,引入了隐马尔科夫模型(HMM)。此时语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。

上世纪 90 年代是语音识别基本成熟的时期,但是识别效果离实用化还相差甚远,语音识别的研究陷入了瓶颈。

关键突破起始于 2006 年。这一年辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏,掀起了深度学习的热潮。2009 年,辛顿以及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库 TIMIT 上获得成功。2011 年,微软研究院俞栋、邓力等发表深度神经网络在语音识别上的应用文章,在大词汇量连续语音识别任务上获得突破。国内外巨头大力开展语音识别研究。

科大讯飞的 **** 智能语音探索之路

科大讯飞在 2010 年首批开展 DNN 语音识别研究,2011 年上线了全球首个中文语音识别 DNN 系统。2012 年,在语音合成领域首创 RBM 技术。2013 年又在语种识别领域首创 BN-ivec 技术。2014 年科大讯飞开始深度布局 NLP 领域,2015 年,RNN 语音识别系统全面升级。

2016 年,上线 DFCNN(深度全序列卷积神经网络,Deep Fully Convolutional Neural Network)语音识别系统。在和其他多个技术点结合后,科大讯飞 DFCNN 的语音识别框架在内部数千小时的中文语音短信听写任务上,相比目前业界最好的语音识别框架双向 RNN-CTC 系统获得了 15% 的性能提升,同时结合科大讯飞的 HPC 平台和多 GPU 并行加速技术,训练速度也优于传统的双向 RNN-CTC 系统。DFCNN 的提出开辟了语音识别的一片新天地,后续基于 DFCNN 框架,还将展开更多相关的研究工作。

(图1)

DFCNN 的结构如图所示,它直接将一句语音转化成一张语谱图作为输入,即先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合,对整句语音进行建模,输出单元直接与最终的识别结果比如音节或者汉字相对应。

(图2)

在语音识别子领域上,今年科大讯飞的智能语音技术所取得的代表性的成就在自然语言理解领域。7 月份,哈工大讯飞实验室(HFL) 刷新了斯坦福大学发起的SQuAD(Stanford Question Answering Dataset) 机器阅读理解挑战赛全球纪录,提交的“基于交互式层叠注意力模型”(Interactive Attention-over-Attention Model)取得了精确匹配77.845% 和模糊匹配85.297% 的成绩,位列世界第一,也是中国本土研究机构首次取得赛事榜首。

语音合成上,暴风雪竞赛(Blizzard Challenge)是国际最权威的语音合成比赛。科大讯飞以语音合成技术率先达到4.0 分的成绩并连续12 年蝉联全球第一名,这是全世界唯一能让语音合成技术能够达到真人说话水平的系统。5.0 分代表播音员的水平,4.0 分代表美国普通老百姓的发音水平。

在人机交互系统上,科大讯飞于11 月发布了AIUI2.0 系统,支持远场降噪、方言识别和多轮对话的技术的基础上又增加了主动式对话、多模态交互、自适应、个性化识别等能力并能在嘈杂会场完成全双工翻译功能。

而科大讯飞的云端语音开放平台,截至2017 年12 月,累计终端数达到15 亿,日均交互次数达到40 亿,开发者团队数已达50 万。

语音识别还有哪些没有解决的问题?

深度学习应用到语音识别领域之后,词错率有显著降低,但是并不代表解决了语音识别的所有问题。认识这些问题,想办法去解决,是语音识别能够取得进步的关键所在,将 ASR(自动语音识别)从“大部分时间仅适用于一部分人”发展到“在任何时候适用于任何人”。

1. 口音和噪声

语音识别中最明显的一个缺陷就是对口音和背景噪声的处理。最直接的原因是大部分的训练数据都是高信噪比、带有口音的语言。比如单是为美式口音英语构建一个高质量的语音识别器就需要 5000 小时以上的转录音频,因而仅凭训练数据很难解决掉这个问题。

在中国,口音问题解决得比较好的,是科大讯飞。科大讯飞目前推出了 22 种方言相关的语音识别系统,但对于那些音素体系与汉语不同的方言或外国语种,在成本问题上还没有很好的办法。

2. 多人会话

每个说话人使用独立的麦克风进行录音,在同一段音频流中不存在多个说话人的语音重叠,这种情况下的语音识别任务比较容易。然而,人类即使在多个说话人同时说话的时候也能够理解说话内容。一个好的会话语音识别器必须能够根据谁在说话对音频进行划分(Diarisation),还应该理解多个说话人语音重叠的音频(声源分离)。

在利用语音技术推动输入和交互模式变革的过程中,仍面临这些阻碍。多人对话等场景下的语音识别率虽然很高,声纹识别虽然也已经在实验室实现,但距离实际应用还有一些距离。

3. 认知智能

语音识别技术在质检、安全等方面有很好的应用,但是对于人类所希望达到 100% 的识别率来说,从科研角度看肯定还有很多需要继续努力的地方。比如减少语义错误、理解上下文上(机器的学习和推理),我们才仅触及皮毛。“ 认知智能有没有真正的突破,是这一轮人工智能热潮——包括产业化热潮——能不能进一步打开天花板、进一步形成更大规模的产业的关键技术所在”,2017 年底,科技部正式发文将依托科大讯飞建立首个认知智能国家重点实验室。

未来五年内,语音识别领域仍然存在许多开放性和挑战性的问题,如,在新地区、口音、远场和低信噪比语音方面的能力扩展;在识别过程中引入更多的上下文;Diarisation 和声源分离;评价语音识别的语义错误率和创新方法;超低延迟和高效推理等。尽管语音识别目前成果斐然,但剩下的难题和已克服的一样令人生畏。虽然近几年深度神经网络的兴起使得语音识别性能获得了极大的提升,但是我们并不能迷信于现有的技术,总有一天新技术的提出会替代现有的技术。

除技术外,一个 AI 企业的那些事儿

人工智能催生了大量新技术、新企业和新业态,人工智能火热背景下, 作为 A 股人工智能龙头股科大讯飞,曾在一个月猛增 360 多亿元,市值突破千亿。似乎很正契合普通百姓对“AI”神化的认知。

2017 年 11 月 15 日,中国新一代人工智能发展规划暨重大科技项目启动会在京召开,科技部公布我国第一批国家人工智能开放创新平台,包括:1、依托百度公司建设自动驾驶国家新一代人工智能开放创新平台;2、依托阿里云公司建设城市大脑国家新一代人工智能开放创新平台;3、依托腾讯公司建设医疗影像国家新一代人工智能开放创新平台;4、依托科大讯飞公司建设智能语音国家新一代人工智能开放创新平台。作为首批入选国家新一代人工智能开放创新平台,目前的科大讯飞,用刘庆峰的话说是“现在还未到达登顶的状态,只能说是已经开始登山,刚克服了爬坡之后的艰难,开始到慢慢适应的状态”,如同语音识别技术现状。

人工智能是个大趋势,本身也是需要很重投入的,但它也会有更长远的影响,所以不能特别短视于此时此刻的回报上。“必须具备了强技术,才能形成刚需”,“就是要把技术做深做透,做到大家真正觉得有刚需”,刘庆峰说,“我们瞄准着五到十年更前沿的技术研究”。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-01-09 18:005085

评论

发布
暂无评论
发现更多内容

实践分享:如何在自己的App 中引入AI画图!

FN0

小程序 小程序容器 AI绘画

升级企业数智化底座,用友iuap助力企业高质量发展

用友BIP

用友 技术大会 iuap平台

阿里云 EMAS & 魔笔:3月产品动态

移动研发平台EMAS

阿里云 DevOps 测试 低代码开发 移动端开发

软件测试/测试开发丨容器编排K8S 下部署分布式UI自动化解决方案

测试人

k8s 软件测试 #Kubernetes#

被吐槽 GitHub仓 库太大,直接 600M 瘦身到 6M,这下舒服了

程序员小富

Java git

来2023用友BIP技术大会,与北京地铁等领先企业探索数智化转型路径

用友BIP

技术大会 用友iuap 用友技术大会 数智底座 技术底座

实力担当!焱融文件存储再次中标中国移动项目

焱融科技

#高性能 #分布式文件存储 #文件存储 #中国移动

在高并发场景下保证数据一致性:sync.Map的并发安全性实践

Jack

【一行代码秒上云】Serverless六步构建全栈网站

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 4 月 PK 榜

windows制作apple苹果证书-appuploader​

雪奈椰子

MobTech MobLink|裂变拓新,助力运营

MobTech袤博科技

540p秒变1080p!小红书端侧实时超分带你免流量玩嗨短视频

小红书技术REDtech

AI 算法 短视频

一站式指标平台 Kyligence Zen 登陆亚马逊云科技 Marketplace

Kyligence

数据分析 指标中台

理一理事务实现

Zhang

MySQL 事务 数据库·

中南财经政法大学教授施先旺:事项法会计促进业财合一和会计变革

用友BIP

技术大会 业财合一 业财融合 事项会计

跟ChatGPT聊天、需求润色优化,禅道OpenAI 插件发布!

禅道项目管理

项目管理 openai ChatGPT

AIGC:数字内容创新的新引擎,还有藏着更多你知道的细节

加入高科技仿生人

人工智能 AI AIGC

小红书自研小程序:电商体验与效果优化的运行时体系设计

小红书技术REDtech

架构 前端

AIGC爆火的背后需要掌握的基础原理

飞桨PaddlePaddle

人工智能 AI 百度飞桨 AIGC

软件测试/测试开发丨UI自动化测试,PageObject设计模式

测试人

软件测试 自动化测试 测试开发 UI自动化 pageobject

京东技术专家首推:微服务架构深度解析,GitHub星标120K

程序知音

Java 微服务 springboot java架构 Java进阶

图文介绍 Windows 系统下打包上传 IOS APP 流程

ios 开发

PCB为什么常用50Ω阻抗?6大原因

华秋PCB

科普 电路 阻抗 PCB PCB设计

没有研发过程数字化,DevOps就是水中月、雾中花

行云创新

DevOps 研发管理 云原生IDE

人人可用的敏捷指标工具!Kyligence Zen 正式发布 GA 版

Kyligence

数据分析 Kyligence Zen 指标平台 大数据管理

天天预约|如何使用「代预约」功能?全在这篇文章里!

天天预约

线上预约 预约工具 预约 预约小程序

想让 ChatGPT 帮忙进行数据分析?你还需要做......

Kyligence

数据分析 指标平台

从一场文学奖评选,看金山文档To B 转型怎么走

B Impact

【云享专刊】开源遇上华为云,OCP架构变身“云原生框架”

华为云开发者联盟

开源 云原生 华为云 华为云开发者联盟 企业号 4 月 PK 榜

基于HashData湖仓一体解决方案的探索与实践

酷克数据HashData

低代码开发,是稳打稳扎还是饮鸩止渴?

引迈信息

前端 低代码 JNPF

年终解读:2017年的语音识别,路只走了一半_语言 & 开发_Tina_InfoQ精选文章