语音识别技术25年：它的过去、现在和未来

本文的观点都是个人的反思和观察，其中一些可能看起来有点固执己见或错误的，如有异议，欢迎加入评论。

1994 年，我还是剑桥大学的研究生，我的老师 Steve Young 和 Tony Robinson 开发出了当时世界上最好的语音识别系统。在最初的几天，我看到了一件从早期版本的“DragonDictate”（早期的语音识别系统，说话者在说话时需要在单词间停顿）身上永远也猜不到的事情。他们攻克了一个难题，一台配置一般的计算机就可以将连续的自然语音转换成文本，准确率约为 95%。也就是说，除了训练有素的专业人员之外，这项技术已经好过所有人。

为什么语音识别直到最近几年才被广泛应用于日常生活中呢？这项技术有很多隐藏的工业应用，但作为日常的实时用户接口（例如与电脑对话），其采用速度慢得令人难以置信。90 年代的一项逆向图灵测试证明了其中的一个原因。志愿者们认为他们是在和一台电脑对话，但实际上是由一个人在“帘子后面”输入答案。经过观察和随后的采访表明，在那个时候，人们不喜欢语音识别。

问题出在哪里？

我敢肯定，在某种程度上，这只是因为人们对它不熟悉，所以有代际影响。我的孩子比我更经常和电脑对话，但是，将语音作为主要的用户接口确实存在严重的问题：

隐私：你希望别人听到你的搜索词和信息吗；
技术不成熟：它还没有完全成熟——你走进一家拥挤的咖啡店，然后说“嘿，Siri……”试试看；
时机：你无法选择最好的时机。

然而，在我离开大学并进入社会工作后，我从语音识别的工作中看到了一些东西，而那些仍然只是在演示和讨论语音识别并只将它应用于听写的人并没有意识到这些。

语音识别不只是用来听写的

我开启了我的职业生涯——开发可扩展的数字媒体产品。除此之外，我还领导了 BBC 新闻在线的开发。然后，在 2000 年，我决定运用我的语音技术来解决媒体行业的问题。同时我也尊重我的预感——人们仍然不喜欢和电脑对话。

在一家大型软件公司的资助下，我开发了一些产品，可以用语音识别来录制语音。这个非常简单，因为同一集团下的另一家公司 SoftSound 是我的老师 Tony Robinson 创立的。

我对 Tony 的课程特别感兴趣，并欣然接受与他合作开发产品。他与世界上最好的系统展开竞争，因为使用了神经网络，所以节省了内存和处理能力。从这个意义上说，我们超前别人几十年，他们中的大多数人在 2010 年代中期才转向神经网络。

我的团队采用了 SoftSound 的语音识别算法，并将其与视频、文本和图像识别结合在一起，为电视、电影和广播归档创建搜索引擎。我们做了各种各样很酷的东西，比如编辑软件，通过剪切和粘贴脚本就可以编辑视频。我们太过超前了，但还是赢得了一些奖项，并得到了一些正面的媒体报道。

人们容易退缩

看着人们使用我们的语音搜索引擎对我们来说是一种启示。它告诉我们，人们喜欢发现错误，并以此为理由拒绝有用的创新，这与苏格兰人使用早期版本的 Siri 类似。

我们处理的电视归档里掺杂了各种背景噪音和音乐，识别准确率从实验室的 95%下降到大约 65%至 70%。有趣的是，搜索引擎仍然可以找到匹配的剪辑。

问题是，如果我们在结果列表里显示文本，尽管这些文本包含了他们的搜索词，但他们的眼睛也会被吸引到错误(几乎每行都有一两个错误)上去。不过，这项技术还是奏效了，而且没过多久就想出了一个解决方案：我们不显示全文，而是每个片段显示一张静态图像和匹配的单词列表。

嘲笑不见了，魔法出现了。

对我来说，与那些贸易展会上的语音听写产品相比，这是一种很好的技术应用。它真的很有用，而且它不依赖于过度改变人类的行为。它扩展了人类的技能（通过输入关键字进行搜索），并将其应用到更多的东西上：视频和网页。我们演示了在数百小时的视频中搜索一个关键词，然后反复点击“下一个”按钮，看到视频一个接一个地跳转，不同视频里的人说着同样的关键词。

现在要赞一下 Nuance 和 DragonDictate：20 世纪 90 年代末，他们开发出了 Dragon NaturallySpeaking，不再需要用户在单词之间做出停顿。很快，他们就和我们一样开始出售他们的技术，作为被集成到应用程序的工具包。

而且，尽管我对将语音识别应用于听写不感兴趣，但还是有各种各样的人将语音识别作为听写的手段——对专业人士来说，听写已经成为一种规范，还有各种各样有键盘使用障碍的人。

明年的这个时候，我们将成为百万富翁。

从 20 世纪 90 年代中期开始，无论是在 SoftSound、Entropic 还是 Nuance，我们都曾年复一年地开玩笑说：“明年将是语音识别的大年”。不知怎么的，它终于悄然降临到我们身上。

Siri 和 Alexa 之流

我在构建真实世界应用程序时学到的经验与我在过去几年看到的行为具有一定的相关性。很多人在可以腾出手指打字的情况下一般不喜欢用 Siri。但是，就像我们成功地将搜索扩展到新媒体领域一样，Siri 和它的伙伴们也成功地将搜索扩展到新的领域：开车、做饭、给孩子洗澡，等等：

"Google……加油站"

“Siri，2.4 公斤的鸡要烤多长时间?”

“Alexa，播放 Audible 上的《咕噜牛》”

话虽如此，Siri 问世已经整整 10 年了，但要让它切换地图路径，或者当 Audible 开始为你的孩子朗读《五十度灰》时快速切换节目仍然不是很容易。

音频反馈无法像图形用户界面那样给用户带来同样的确定性。我们只要看一眼就能确认是否输入了正确的卡号，但当你听到“我听到的是 4659 1234 1234 1234。对吗？如果确认，请说是或按数字 1”这句冷冰冰的机器语音时，你也不用太按捺不住。

到 2016 年，与错误以及带有苏格兰口音的 YouTube 视频相关的搞笑新闻报道（声称这是一种具有种族主义色彩的技术）已经少了很多。如果微软的 Office 软件只能给 90%的人用，那肯定会引起轩然大波。这是否意味着在赋能商业能力方面，语音识别只是一个新鲜事物，而不是真正的产品？

然而，神经网络确实起到了拯救作用，尤其是对于这类问题。事实证明，拥有足够多训练数据比了解口音之间的语音差异更为重要——神经网络会计算出它们之前的差异。

就在五年前，我们还需要训练系统来识别不同的地方口音，但如今，Siri 基于苏格兰人阅读已知文本的数据来训练神经网络（也就是教会神经网络一个单词的各种发音方式），从而可以很好地处理苏格兰口音。

那么，语音会取代键盘和屏幕吗？这是一个错误的问题。

计算机让我们能够同时完成多项任务，有时候我认为，语音作为一种接口，即使是用于人与人之间的交流，有时也会阻碍我们：我可以同时与多人进行文字聊天，但不能同时接听两个语音电话。基于文字和屏幕的互动确实有一些优势，在这方面，语音就逊色多了。

然而，语音技术要发挥其独特的潜力，还有很长的路要走。这对行业来说是个好消息，因为越来越多的初创公司获得资金去解决大公司不愿解决的现实问题。

技术必须先进到可以像人类一样善于倾听和说话，甚至变得比我们更好。下面的一些例子来自我和其他一些人最近在做的项目。

离开耳机，我们的语音就不是我想象的那样呈线性的。当我靠近一个说话人时，我可能会悄悄对另外一个人窃窃私语，而不会被其他人听到。在晚宴上，我可能会同时参与多个对话，因为在现实世界的三维空间里，我们很容易就可以知道谁说了什么，并针对特定的听众控制语音的音量和方向。

用于分离不同说话人的语音的技术正在突飞猛进地发展。这是通过更深入地分析语音以及将音频数据与其他来源的数据相结合来实现的，比如使用多个麦克风来测量相对音量和方向，或者混合来自摄像机的嘴唇动作和面部表情。

2016 年，谷歌提出了一种新的语音合成方法，即使用 WaveNet 神经网络（经过训练几乎可以生成任意一种声音），然后用真实的人类语音来训练它。一旦经过训练，再用合成语音喂给它，它生成的声音听起来就像是人类发出的。

如今，最新的发展被广为分享，整个行业从谷歌、英伟达、微软和全球的大学研究者社区获得最新的想法，在他们的支持下对它们进行扩展，并将它们应用到新的环境中，并加入他们自己专业领域的专业知识。

我花了很多时间研究用于分析口音、发音错误和语音障碍的系统。有些人说的话很难理解，因为他们有很奇特的口音或者刚开始学习新语言。我们可以通过实时反馈来纠正他们的发音，但或许我们不需要为此感到烦恼：实时纠正口音和错误都正在成为现实。

语音识别拯救了人类

语音的差异不仅是因为口音，也有情绪和身体状况方面的因素。如果出现了难以理解的情况，不仅要改进识别能力，还要知道是哪里出了问题，比如在接到紧急呼叫时，说话人可能受中风、镇静剂、酗酒、脑震荡的影响，或者说话人是个孩子，或者说话人说的是某一种特定的语言。

最后，通过监测语音的细微变化，可以在早期识别出某些严重的慢性神经系统疾病。不用去医院，甚至不用接触那些患有疾病的人，就可以做出初步判断。我们一直对着手机和电脑说话，所以只需要选择参与，并允许声音被分析，不会因为被录音或被别人听到而影响了隐私，这样就可以了。

有了正确的训练数据，也许同样的技术可以被训练用来识别你的咳嗽实际上是一种新型持续性干咳。

原文链接：https://matthewkaras.medium.com/25-years-in-speech-technology-d5f9dfd98429

创作场景

语音识别技术 25 年：它的过去、现在和未来

语音识别不只是用来听写的

人们容易退缩

Siri 和 Alexa 之流

语音识别拯救了人类