写点什么

语音识别技术 25 年:它的过去、现在和未来

  • 2020-11-30
  • 本文字数:3575 字

    阅读完需:约 12 分钟

语音识别技术25年:它的过去、现在和未来

本文的观点都是个人的反思和观察,其中一些可能看起来有点固执己见或错误的,如有异议,欢迎加入评论。


1994 年,我还是剑桥大学的研究生,我的老师 Steve Young 和 Tony Robinson 开发出了当时世界上最好的语音识别系统。在最初的几天,我看到了一件从早期版本的“DragonDictate”(早期的语音识别系统,说话者在说话时需要在单词间停顿)身上永远也猜不到的事情。他们攻克了一个难题,一台配置一般的计算机就可以将连续的自然语音转换成文本,准确率约为 95%。也就是说,除了训练有素的专业人员之外,这项技术已经好过所有人。


为什么语音识别直到最近几年才被广泛应用于日常生活中呢?这项技术有很多隐藏的工业应用,但作为日常的实时用户接口(例如与电脑对话),其采用速度慢得令人难以置信。90 年代的一项逆向图灵测试证明了其中的一个原因。志愿者们认为他们是在和一台电脑对话,但实际上是由一个人在“帘子后面”输入答案。经过观察和随后的采访表明,在那个时候,人们不喜欢语音识别。


问题出在哪里?


我敢肯定,在某种程度上,这只是因为人们对它不熟悉,所以有代际影响。我的孩子比我更经常和电脑对话,但是,将语音作为主要的用户接口确实存在严重的问题:


  • 隐私:你希望别人听到你的搜索词和信息吗;

  • 技术不成熟:它还没有完全成熟——你走进一家拥挤的咖啡店,然后说“嘿,Siri……”试试看;

  • 时机:你无法选择最好的时机。


然而,在我离开大学并进入社会工作后,我从语音识别的工作中看到了一些东西,而那些仍然只是在演示和讨论语音识别并只将它应用于听写的人并没有意识到这些。


语音识别不只是用来听写的

我开启了我的职业生涯——开发可扩展的数字媒体产品。除此之外,我还领导了 BBC 新闻在线的开发。然后,在 2000 年,我决定运用我的语音技术来解决媒体行业的问题。同时我也尊重我的预感——人们仍然不喜欢和电脑对话。


在一家大型软件公司的资助下,我开发了一些产品,可以用语音识别来录制语音。这个非常简单,因为同一集团下的另一家公司 SoftSound 是我的老师 Tony Robinson 创立的。


我对 Tony 的课程特别感兴趣,并欣然接受与他合作开发产品。他与世界上最好的系统展开竞争,因为使用了神经网络,所以节省了内存和处理能力。从这个意义上说,我们超前别人几十年,他们中的大多数人在 2010 年代中期才转向神经网络。


我的团队采用了 SoftSound 的语音识别算法,并将其与视频、文本和图像识别结合在一起,为电视、电影和广播归档创建搜索引擎。我们做了各种各样很酷的东西,比如编辑软件,通过剪切和粘贴脚本就可以编辑视频。我们太过超前了,但还是赢得了一些奖项,并得到了一些正面的媒体报道。

人们容易退缩

看着人们使用我们的语音搜索引擎对我们来说是一种启示。它告诉我们,人们喜欢发现错误,并以此为理由拒绝有用的创新,这与苏格兰人使用早期版本的 Siri 类似。


我们处理的电视归档里掺杂了各种背景噪音和音乐,识别准确率从实验室的 95%下降到大约 65%至 70%。有趣的是,搜索引擎仍然可以找到匹配的剪辑。


问题是,如果我们在结果列表里显示文本,尽管这些文本包含了他们的搜索词,但他们的眼睛也会被吸引到错误(几乎每行都有一两个错误)上去。不过,这项技术还是奏效了,而且没过多久就想出了一个解决方案:我们不显示全文,而是每个片段显示一张静态图像和匹配的单词列表。


嘲笑不见了,魔法出现了。


对我来说,与那些贸易展会上的语音听写产品相比,这是一种很好的技术应用。它真的很有用,而且它不依赖于过度改变人类的行为。它扩展了人类的技能(通过输入关键字进行搜索),并将其应用到更多的东西上:视频和网页。我们演示了在数百小时的视频中搜索一个关键词,然后反复点击“下一个”按钮,看到视频一个接一个地跳转,不同视频里的人说着同样的关键词。


现在要赞一下 Nuance 和 DragonDictate:20 世纪 90 年代末,他们开发出了 Dragon NaturallySpeaking,不再需要用户在单词之间做出停顿。很快,他们就和我们一样开始出售他们的技术,作为被集成到应用程序的工具包。


而且,尽管我对将语音识别应用于听写不感兴趣,但还是有各种各样的人将语音识别作为听写的手段——对专业人士来说,听写已经成为一种规范,还有各种各样有键盘使用障碍的人。


明年的这个时候,我们将成为百万富翁。


从 20 世纪 90 年代中期开始,无论是在 SoftSound、Entropic 还是 Nuance,我们都曾年复一年地开玩笑说:“明年将是语音识别的大年”。不知怎么的,它终于悄然降临到我们身上。

Siri 和 Alexa 之流

我在构建真实世界应用程序时学到的经验与我在过去几年看到的行为具有一定的相关性。很多人在可以腾出手指打字的情况下一般不喜欢用 Siri。但是,就像我们成功地将搜索扩展到新媒体领域一样,Siri 和它的伙伴们也成功地将搜索扩展到新的领域:开车、做饭、给孩子洗澡,等等:


"Google……加油站"


“Siri,2.4 公斤的鸡要烤多长时间?”


“Alexa,播放 Audible 上的《咕噜牛》”


话虽如此,Siri 问世已经整整 10 年了,但要让它切换地图路径,或者当 Audible 开始为你的孩子朗读《五十度灰》时快速切换节目仍然不是很容易。


音频反馈无法像图形用户界面那样给用户带来同样的确定性。我们只要看一眼就能确认是否输入了正确的卡号,但当你听到“我听到的是 4659 1234 1234 1234。对吗?如果确认,请说是或按数字 1”这句冷冰冰的机器语音时,你也不用太按捺不住。


到 2016 年,与错误以及带有苏格兰口音的 YouTube 视频相关的搞笑新闻报道(声称这是一种具有种族主义色彩的技术)已经少了很多。如果微软的 Office 软件只能给 90%的人用,那肯定会引起轩然大波。这是否意味着在赋能商业能力方面,语音识别只是一个新鲜事物,而不是真正的产品?


然而,神经网络确实起到了拯救作用,尤其是对于这类问题。事实证明,拥有足够多训练数据比了解口音之间的语音差异更为重要——神经网络会计算出它们之前的差异。


就在五年前,我们还需要训练系统来识别不同的地方口音,但如今,Siri 基于苏格兰人阅读已知文本的数据来训练神经网络(也就是教会神经网络一个单词的各种发音方式),从而可以很好地处理苏格兰口音。


那么,语音会取代键盘和屏幕吗?这是一个错误的问题。


计算机让我们能够同时完成多项任务,有时候我认为,语音作为一种接口,即使是用于人与人之间的交流,有时也会阻碍我们:我可以同时与多人进行文字聊天,但不能同时接听两个语音电话。基于文字和屏幕的互动确实有一些优势,在这方面,语音就逊色多了。


然而,语音技术要发挥其独特的潜力,还有很长的路要走。这对行业来说是个好消息,因为越来越多的初创公司获得资金去解决大公司不愿解决的现实问题。


技术必须先进到可以像人类一样善于倾听和说话,甚至变得比我们更好。下面的一些例子来自我和其他一些人最近在做的项目。


离开耳机,我们的语音就不是我想象的那样呈线性的。当我靠近一个说话人时,我可能会悄悄对另外一个人窃窃私语,而不会被其他人听到。在晚宴上,我可能会同时参与多个对话,因为在现实世界的三维空间里,我们很容易就可以知道谁说了什么,并针对特定的听众控制语音的音量和方向。


用于分离不同说话人的语音的技术正在突飞猛进地发展。这是通过更深入地分析语音以及将音频数据与其他来源的数据相结合来实现的,比如使用多个麦克风来测量相对音量和方向,或者混合来自摄像机的嘴唇动作和面部表情。


2016 年,谷歌提出了一种新的语音合成方法,即使用 WaveNet 神经网络(经过训练几乎可以生成任意一种声音),然后用真实的人类语音来训练它。一旦经过训练,再用合成语音喂给它,它生成的声音听起来就像是人类发出的。


如今,最新的发展被广为分享,整个行业从谷歌、英伟达、微软和全球的大学研究者社区获得最新的想法,在他们的支持下对它们进行扩展,并将它们应用到新的环境中,并加入他们自己专业领域的专业知识。


我花了很多时间研究用于分析口音、发音错误和语音障碍的系统。有些人说的话很难理解,因为他们有很奇特的口音或者刚开始学习新语言。我们可以通过实时反馈来纠正他们的发音,但或许我们不需要为此感到烦恼:实时纠正口音和错误都正在成为现实。

语音识别拯救了人类

语音的差异不仅是因为口音,也有情绪和身体状况方面的因素。如果出现了难以理解的情况,不仅要改进识别能力,还要知道是哪里出了问题,比如在接到紧急呼叫时,说话人可能受中风、镇静剂、酗酒、脑震荡的影响,或者说话人是个孩子,或者说话人说的是某一种特定的语言。


最后,通过监测语音的细微变化,可以在早期识别出某些严重的慢性神经系统疾病。不用去医院,甚至不用接触那些患有疾病的人,就可以做出初步判断。我们一直对着手机和电脑说话,所以只需要选择参与,并允许声音被分析,不会因为被录音或被别人听到而影响了隐私,这样就可以了。


有了正确的训练数据,也许同样的技术可以被训练用来识别你的咳嗽实际上是一种新型持续性干咳。


原文链接:https://matthewkaras.medium.com/25-years-in-speech-technology-d5f9dfd98429


2020-11-30 11:003048

评论

发布
暂无评论
发现更多内容

Console 纳管 Elasticsearch 9(二):日志监控

极限实验室

elasticsearch console

中烟创新入选2025全国企业“人工智能+”行动创新案例TOP100

中烟创新

百度视频云互动大模型SDK适配鸿蒙,让人机交互更智能、更开放

新消费日报

HCI发布《2025年洞察报告》

财见

隐藏Bash历史记录:实用技巧与最佳方法

qife122

Linux 安全

VMware Fusion 13.6.4 for Mac - 领先的免费桌面虚拟化软件

sysin

fusion

VMware ESXi 9.0.0.0100 发布 - 领先的裸机 Hypervisor

sysin

esxi

Golang基础笔记十二之defer、panic、error

Hunter熊

golang 后端 defer panic Error

招商管理系统(源码+文档+讲解+演示)

深圳亥时科技

大数据-43 Redis Lua脚本实战全解析 eval redis.call redis.pcall

武子康

Java lua redis 大数据 分布式

云测试提前定位和解决问题 萤火故事屋 上架流程

万少

HarmonyOS NEXT

微软发布安全公告2887505:IE远程代码执行漏洞分析与缓解方案

qife122

网络安全 浏览器安全

更新Mac软件有哪些方法 Mac软件如何管理待更新软件

阿拉灯神丁

appstore 应用程序 Mac软件 卸载清理软件 CleanMyMac X中文

VMware Tools 13.0.1.0 发布 - 客户机操作系统无缝交互必备组件

sysin

vmware

全方位优化:智能化工器具库房管理综合解决方案

斯科信息

RFID解决方案 RFID工具库房 斯科信息 RFID技术

VMware Tools 12.5.3 发布 - 客户机操作系统无缝交互必备组件

sysin

vmware

VMware ESXi 7.0 U3w 发布 - 领先的裸机 Hypervisor

sysin

esxi

VMware ESXi 8.0U3f 发布 - 领先的裸机 Hypervisor

sysin

esxi

基于 Amazon Nova Sonic 和 MCP 构建语音交互 Agent

亚马逊云科技 (Amazon Web Services)

成功案例丨减重64%!Altair 解决方案助力3D打印铣削头实现轻量化

Altair RapidMiner

仿真 CAE hyperworks 3D打印 Radioss

Nacos 开源 MCP Router,加速 MCP 私有化部署

阿里巴巴云原生

阿里云 云原生 nacos MCP

埋点采集之曝光

神策技术社区

埋点 曝光埋点 大数据分析

VMware Workstation 17.6.4 Pro for Windows & Linux - 领先的免费桌面虚拟化软件

sysin

Workstation

清华大学软件学院院长王建民教授:AI 时代,如何从采数到用数?

Apache IoTDB

教堂定制P4 LED屏幕安装:提升宗教体验

Dylan

数字化 LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏

资源利用率提升50%:Serverless 驱动国诚投顾打造智能投顾新范式

阿里巴巴云原生

阿里云 Serverless 云原生

VMware ESXi 8.0U2e 发布 - 领先的裸机 Hypervisor

sysin

esxi

时序数据库 TimechoDB V2.0.5 发布 | 新增树转表视图、模型微调等功能

Apache IoTDB

线上活动丨AI 语音客服:最先跑通的 Voice Agent 场景,在面临什么真问题?丨 RTE Meetup

声网

产品更新丨谷云科技 iPaaS 集成平台 V7.6 版本发布

谷云科技RestCloud

API网关 产品更新 集成平台 ipaas

2015年9月微软安全更新汇总 - MS15-094至MS15-105漏洞修复

qife122

安全更新 Windows安全

语音识别技术25年:它的过去、现在和未来_AI&大模型_Matthew Karas_InfoQ精选文章