OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

语音识别技术 25 年:它的过去、现在和未来

  • 2020-11-30
  • 本文字数:3575 字

    阅读完需:约 12 分钟

语音识别技术25年:它的过去、现在和未来

本文的观点都是个人的反思和观察,其中一些可能看起来有点固执己见或错误的,如有异议,欢迎加入评论。


1994 年,我还是剑桥大学的研究生,我的老师 Steve Young 和 Tony Robinson 开发出了当时世界上最好的语音识别系统。在最初的几天,我看到了一件从早期版本的“DragonDictate”(早期的语音识别系统,说话者在说话时需要在单词间停顿)身上永远也猜不到的事情。他们攻克了一个难题,一台配置一般的计算机就可以将连续的自然语音转换成文本,准确率约为 95%。也就是说,除了训练有素的专业人员之外,这项技术已经好过所有人。


为什么语音识别直到最近几年才被广泛应用于日常生活中呢?这项技术有很多隐藏的工业应用,但作为日常的实时用户接口(例如与电脑对话),其采用速度慢得令人难以置信。90 年代的一项逆向图灵测试证明了其中的一个原因。志愿者们认为他们是在和一台电脑对话,但实际上是由一个人在“帘子后面”输入答案。经过观察和随后的采访表明,在那个时候,人们不喜欢语音识别。


问题出在哪里?


我敢肯定,在某种程度上,这只是因为人们对它不熟悉,所以有代际影响。我的孩子比我更经常和电脑对话,但是,将语音作为主要的用户接口确实存在严重的问题:


  • 隐私:你希望别人听到你的搜索词和信息吗;

  • 技术不成熟:它还没有完全成熟——你走进一家拥挤的咖啡店,然后说“嘿,Siri……”试试看;

  • 时机:你无法选择最好的时机。


然而,在我离开大学并进入社会工作后,我从语音识别的工作中看到了一些东西,而那些仍然只是在演示和讨论语音识别并只将它应用于听写的人并没有意识到这些。


语音识别不只是用来听写的

我开启了我的职业生涯——开发可扩展的数字媒体产品。除此之外,我还领导了 BBC 新闻在线的开发。然后,在 2000 年,我决定运用我的语音技术来解决媒体行业的问题。同时我也尊重我的预感——人们仍然不喜欢和电脑对话。


在一家大型软件公司的资助下,我开发了一些产品,可以用语音识别来录制语音。这个非常简单,因为同一集团下的另一家公司 SoftSound 是我的老师 Tony Robinson 创立的。


我对 Tony 的课程特别感兴趣,并欣然接受与他合作开发产品。他与世界上最好的系统展开竞争,因为使用了神经网络,所以节省了内存和处理能力。从这个意义上说,我们超前别人几十年,他们中的大多数人在 2010 年代中期才转向神经网络。


我的团队采用了 SoftSound 的语音识别算法,并将其与视频、文本和图像识别结合在一起,为电视、电影和广播归档创建搜索引擎。我们做了各种各样很酷的东西,比如编辑软件,通过剪切和粘贴脚本就可以编辑视频。我们太过超前了,但还是赢得了一些奖项,并得到了一些正面的媒体报道。

人们容易退缩

看着人们使用我们的语音搜索引擎对我们来说是一种启示。它告诉我们,人们喜欢发现错误,并以此为理由拒绝有用的创新,这与苏格兰人使用早期版本的 Siri 类似。


我们处理的电视归档里掺杂了各种背景噪音和音乐,识别准确率从实验室的 95%下降到大约 65%至 70%。有趣的是,搜索引擎仍然可以找到匹配的剪辑。


问题是,如果我们在结果列表里显示文本,尽管这些文本包含了他们的搜索词,但他们的眼睛也会被吸引到错误(几乎每行都有一两个错误)上去。不过,这项技术还是奏效了,而且没过多久就想出了一个解决方案:我们不显示全文,而是每个片段显示一张静态图像和匹配的单词列表。


嘲笑不见了,魔法出现了。


对我来说,与那些贸易展会上的语音听写产品相比,这是一种很好的技术应用。它真的很有用,而且它不依赖于过度改变人类的行为。它扩展了人类的技能(通过输入关键字进行搜索),并将其应用到更多的东西上:视频和网页。我们演示了在数百小时的视频中搜索一个关键词,然后反复点击“下一个”按钮,看到视频一个接一个地跳转,不同视频里的人说着同样的关键词。


现在要赞一下 Nuance 和 DragonDictate:20 世纪 90 年代末,他们开发出了 Dragon NaturallySpeaking,不再需要用户在单词之间做出停顿。很快,他们就和我们一样开始出售他们的技术,作为被集成到应用程序的工具包。


而且,尽管我对将语音识别应用于听写不感兴趣,但还是有各种各样的人将语音识别作为听写的手段——对专业人士来说,听写已经成为一种规范,还有各种各样有键盘使用障碍的人。


明年的这个时候,我们将成为百万富翁。


从 20 世纪 90 年代中期开始,无论是在 SoftSound、Entropic 还是 Nuance,我们都曾年复一年地开玩笑说:“明年将是语音识别的大年”。不知怎么的,它终于悄然降临到我们身上。

Siri 和 Alexa 之流

我在构建真实世界应用程序时学到的经验与我在过去几年看到的行为具有一定的相关性。很多人在可以腾出手指打字的情况下一般不喜欢用 Siri。但是,就像我们成功地将搜索扩展到新媒体领域一样,Siri 和它的伙伴们也成功地将搜索扩展到新的领域:开车、做饭、给孩子洗澡,等等:


"Google……加油站"


“Siri,2.4 公斤的鸡要烤多长时间?”


“Alexa,播放 Audible 上的《咕噜牛》”


话虽如此,Siri 问世已经整整 10 年了,但要让它切换地图路径,或者当 Audible 开始为你的孩子朗读《五十度灰》时快速切换节目仍然不是很容易。


音频反馈无法像图形用户界面那样给用户带来同样的确定性。我们只要看一眼就能确认是否输入了正确的卡号,但当你听到“我听到的是 4659 1234 1234 1234。对吗?如果确认,请说是或按数字 1”这句冷冰冰的机器语音时,你也不用太按捺不住。


到 2016 年,与错误以及带有苏格兰口音的 YouTube 视频相关的搞笑新闻报道(声称这是一种具有种族主义色彩的技术)已经少了很多。如果微软的 Office 软件只能给 90%的人用,那肯定会引起轩然大波。这是否意味着在赋能商业能力方面,语音识别只是一个新鲜事物,而不是真正的产品?


然而,神经网络确实起到了拯救作用,尤其是对于这类问题。事实证明,拥有足够多训练数据比了解口音之间的语音差异更为重要——神经网络会计算出它们之前的差异。


就在五年前,我们还需要训练系统来识别不同的地方口音,但如今,Siri 基于苏格兰人阅读已知文本的数据来训练神经网络(也就是教会神经网络一个单词的各种发音方式),从而可以很好地处理苏格兰口音。


那么,语音会取代键盘和屏幕吗?这是一个错误的问题。


计算机让我们能够同时完成多项任务,有时候我认为,语音作为一种接口,即使是用于人与人之间的交流,有时也会阻碍我们:我可以同时与多人进行文字聊天,但不能同时接听两个语音电话。基于文字和屏幕的互动确实有一些优势,在这方面,语音就逊色多了。


然而,语音技术要发挥其独特的潜力,还有很长的路要走。这对行业来说是个好消息,因为越来越多的初创公司获得资金去解决大公司不愿解决的现实问题。


技术必须先进到可以像人类一样善于倾听和说话,甚至变得比我们更好。下面的一些例子来自我和其他一些人最近在做的项目。


离开耳机,我们的语音就不是我想象的那样呈线性的。当我靠近一个说话人时,我可能会悄悄对另外一个人窃窃私语,而不会被其他人听到。在晚宴上,我可能会同时参与多个对话,因为在现实世界的三维空间里,我们很容易就可以知道谁说了什么,并针对特定的听众控制语音的音量和方向。


用于分离不同说话人的语音的技术正在突飞猛进地发展。这是通过更深入地分析语音以及将音频数据与其他来源的数据相结合来实现的,比如使用多个麦克风来测量相对音量和方向,或者混合来自摄像机的嘴唇动作和面部表情。


2016 年,谷歌提出了一种新的语音合成方法,即使用 WaveNet 神经网络(经过训练几乎可以生成任意一种声音),然后用真实的人类语音来训练它。一旦经过训练,再用合成语音喂给它,它生成的声音听起来就像是人类发出的。


如今,最新的发展被广为分享,整个行业从谷歌、英伟达、微软和全球的大学研究者社区获得最新的想法,在他们的支持下对它们进行扩展,并将它们应用到新的环境中,并加入他们自己专业领域的专业知识。


我花了很多时间研究用于分析口音、发音错误和语音障碍的系统。有些人说的话很难理解,因为他们有很奇特的口音或者刚开始学习新语言。我们可以通过实时反馈来纠正他们的发音,但或许我们不需要为此感到烦恼:实时纠正口音和错误都正在成为现实。

语音识别拯救了人类

语音的差异不仅是因为口音,也有情绪和身体状况方面的因素。如果出现了难以理解的情况,不仅要改进识别能力,还要知道是哪里出了问题,比如在接到紧急呼叫时,说话人可能受中风、镇静剂、酗酒、脑震荡的影响,或者说话人是个孩子,或者说话人说的是某一种特定的语言。


最后,通过监测语音的细微变化,可以在早期识别出某些严重的慢性神经系统疾病。不用去医院,甚至不用接触那些患有疾病的人,就可以做出初步判断。我们一直对着手机和电脑说话,所以只需要选择参与,并允许声音被分析,不会因为被录音或被别人听到而影响了隐私,这样就可以了。


有了正确的训练数据,也许同样的技术可以被训练用来识别你的咳嗽实际上是一种新型持续性干咳。


原文链接:https://matthewkaras.medium.com/25-years-in-speech-technology-d5f9dfd98429


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-11-30 11:001915

评论

发布
暂无评论
发现更多内容

VoneBaaS团队成功入围第二届中国可信区块链安全攻防大赛决赛

旺链科技

区块链 产业区块链 VoneBaaS BaaS平台

快手 RocketMQ 高性能实践

阿里巴巴云原生

阿里云 RocketMQ 云原生

StoneDB 团队成员与 MySQL 之父 Monty 会面,共话未来数据库形态

StoneDB

MySQL 国产数据库 HTAP StoneDB 10月月更

量化自动套利分红机器人系统开发(成熟技术)

开发微hkkf5566

DAPP系统开发Web3.0技术实现

薇電13242772558

dapp web3

我对软件工程的理解

老张

软件工程 质量保障

企业级MQTT物联网接入平台EMQX正式上线VMware Marketplace

EMQ映云科技

物联网 IoT emqx 10月月更 VMware Marketplace

顶级理解!阿里这份Github星标63.7K的Redis高级笔记简直不要太细

程序知音

Java 数据库 redis 架构 后端技术

放弃 SpringCloud Gateway!Apache APISIX 在「还呗」业务中的技术实践

API7.ai 技术团队

spring-cloud SpringCloud Gateway APISIX 网关 开源、

【直播回顾】OpenHarmony知识赋能第八期:手把手教你实现涂鸦小游戏

OpenHarmony开发者

OpenHarmony

聊聊Vuex原理

yyds2026

Vue

RocketMQ Streams在云安全及 IoT 场景下的大规模最佳实践

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

深度探讨react-hooks实现原理

xiaofeng

React

epoll的实现原理

C++后台开发

数据结构 后台开发 linux开发 epoll C++开发

我奋斗了 18 年才和你坐在一起喝咖啡

宇宙之一粟

vue的几个提效技巧

yyds2026

Vue

详解webpack构建优化

Geek_02d948

webpack

激活工具带毒,静默安装360、2345系列软件

火绒安全

安全 下载器 病毒 恶意软件

“超越融合 异筑信创”,AntDB数据库携手超云等生态伙伴共建信创大生态

亚信AntDB数据库

AntDB AntDB数据库 企业号十月PK榜 企业号十月 PK 榜

MobPush Android常见问题

MobTech袤博科技

android

软件测试 | 测试开发 | 测试过程中遇到的那些奇葩bug

测吧(北京)科技有限公司

测试

Apache SeaTunnel(Incubating) 2.2.0-beta 版本发布!API 重构,连接器与引擎解偶

Apache SeaTunnel

数据同步 Seatunnel 版本发布 数据集成平台 新版本/特性发布

KunlunBase功能体验范例

KunlunBase昆仑数据库

MySQL 数据库

深入分析React-Scheduler原理

xiaofeng

React

Containerization and Its Benefits - Defining and Exploring

Mahipal_Nehra

container Docker Swarm tools APP开发 web 容器

Kubernetes 认证管理员(CKA)必过心得

HummerCloud

云原生 CKA #k8s Kubetnetes kubernetes 运维

Apache RocketMQ 5.0 在Stream场景的存储增强

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

解读Vue3模板编译优化

yyds2026

Vue

React-diff原理及应用

xiaofeng

React

NFTScan 是什么?

NFT Research

区块链 NFT 多链 数据基础设施

Flowable 设置任务处理人的四种方式

江南一点雨

Java springboot flowable JavaEE

语音识别技术25年:它的过去、现在和未来_AI&大模型_Matthew Karas_InfoQ精选文章