苹果AI技术新突破：Siri可识别热门单词和多语种说话者_语言 & 开发_KYLE WIGGERS

11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦，立即报名！了解详情 



 写点什么

语音识别一直是苹果迫切需要关注的领域。其跨平台 Siri 虚拟助手已服务了全球 5 亿多客户。因此，优化语音触发检测、说话者识别和多个说话者语言识别的技术成为苹果亟待解决的问题。

过去一周，科技巨头苹果发表了一系列预印本研究论文，旨在优化语音触发检测、说话者识别和多个说话者语言识别的技术。

（编者注：预印本研究论文是指科研工作者的研究成果指尚未经过同行评议，还未在正式出版物上发表，而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。）

说话者识别和语音触发检测

在论文的第一部分，苹果研究人员提出了一种训练好的 AI 模型，可同时执行自动语音识别和说话者识别的任务。正如研究人员在论文摘要中所解释的那样，基于语音个人助手识别的指令通常以触发短语（例如，“嘿，Siri”）为前缀，检测该触发短语涉及两个步骤：首先，AI 需要判断输入音频中的语音内容是否与触发短语的语音内容相匹配（语音触发检测）；其次，AI 还需判断说话者的语音与注册用户或用户的语音是否匹配（说话者识别）。

这两个任务通常被分开来看，但是论文的合著者认为，对说话者的了解可能有助于判断声音信号中的语音内容，反之亦然，这有助于对这两种属性进行评估。

研究人员设计了三套能够学习语音和说话者信息的模型，并对一组数据集进行训练，这组数据集包含 1.6 万多小时的带注释的样本，其中 5000 小时的音频带有语音标签（其余的仅带有说话者标签）。

此外，实验还邀请了 100 多位说话者使用智能扬声器设备在一系列声学设置中为语料库贡献声音，包括安静的房间、来自房间内电视或厨房设备的外部噪音，以及用录音机大声播放音乐。同时，来自电视和广播的 2000 个小时不包含触发短语的连续音频记录也被添加进来，以此来测量“误报”率。

经过测试，这类模型展示出了学习语音和说话者信息的能力，且在同等数量参数条件下，每个任务的精准性与基线模型相差无几。实际上，在提出的三个模型中，其中一个在“多个”设置中的表现优于说话者识别基线，在执行与本文不相关的任务时比基线提高了 7.6%。

研究人员写道：“这些结果有个有趣的特征——训练模型时使用的是不相交的数据集，即每个音频样本要么具有语音标签，要么具有说话者标签，每个音频样本不会同时具有两个标签。通过对结果的观察，研究人员提出了一种灵活的设计，可以通过连接不同任务的训练数据去训练多个相关任务的模型，而不是为每个训练样本获取多个标签。从实际的角度来看，这样做能实现两个任务之间的计算共享，从而节省设备上的内存、缩短计算时间或等待时间，并能节省消耗的电量/电池。”

错误触发缓解

一项补充研究中减少了错误触发的出现，在任务中，语音助手有意忽略了像 Siri 这样的语音助手的语音。

合著者表示，他们使用了一种运行在图结构上的 AI 模型——图神经网络（GNN），其中每个节点都与标签相关联，目标是在没有实际事实的情况下预测节点的标签，这样做能减少 87％的错误触发。他们写道：“语音触发的智能助手在开始收听用户请求之前通常依赖于对触发短语的检测……错误触发通常源自背景噪声或听起来与触发短语相似的语音。” “减少错误触发是构建以隐私为中心的非侵入式智能助手的重要一环。”

未来，该团队计划将基于 GNN 的处理扩展到用户意图分类等其他任务中。

多语种说话者识别

在另一篇论文中，苹果研究人员探索了一种专门针对多语言说话者的语音识别系统。他们表示，语言识别系统对大多数语言的识别准确率比较高，但是，当同时识别多种语言时，语音识别系统的表现就差强人意了。

事实也的确如此。在《华盛顿邮报》委托进行的一项研究中显示，市面上流行的由谷歌和亚马逊开发的智能音箱，识别本土用户的语音准确度比识别非美式口音准确度高出了 30%。事实证明，像 Switchboard 这样的语料库更偏向于测量来自本国特定地区的说话者的语音，该语料库是 IBM 和 Microsoft 等公司用来评估语音模型错误率的数据集。

为解决这一问题，合著者将使用模式相关内容整合到听写系统中，该听写系统能识别出 60 多个地区的说话者的语音。声学子模型将根据语音信号传递的内容进行预测，上下文感知预测组件分析各种交互上下文信号，通过这两方面的预测，来选择最佳的单语种自动语音识别系统。

包含了发出听写请求情况下的相关信息，包括有关已划定听写区域、当前选择的听写区域以及用户在发出请求之前是否切换了听写区域的信息。重要的是，在语音信号很短的情况下，它们能依靠声学模型生成可靠的预测。例如，如果用户安装了英语和德语，那么像“naln”这样的短且模糊的语句在德语中可能被识别为否定词“nein”，而在英语中被识别为数字“nine"。

为了评估该系统，研究人员开发了一个称为“平均用户准确度”（AUA）的自定义指标，他们表示，该指标可以更好地反映模型中的“说话者发音水平”使用模式。通过对多语言说话者的 12.8 万个带有相应交互上下文的口述话语内部语料库进行严格训练，在所有语言组合中，它的平均准确率达到 87％，而相对于基线，最坏情况下的准确率也提高了 60％以上。值得一提的是，为平衡设备上运行模型的计算负载的准确性和延迟，研究团队对参数进行了调整，调整后，平均延迟从 2 秒减少到 1.2 秒，而对 AUA 的影响不超过 0.05%。

延展阅读：https://venturebeat.com/2020/02/03/apple-details-ai-to-help-voice-assistants-recognize-hotwords-and-multilingual-speakers/

发布

暂无评论

创作场景

苹果 AI 技术新突破：Siri 可识别热门单词和多语种说话者

说话者识别和语音触发检测

错误触发缓解

多语种说话者识别

评论

00后已经进入网易，下一步定位阿里，年轻人这么拼，android开发艺术探索电子

2017-2020挑选出来最具代表性的（Java，网络相关(1)，面试真题解析

一点思考

2019最新中级Android面试题目，有着几篇就够了，androidwifi开发教程下载

linux之Ansible快速入门

18—19年BAT大厂Android高级多套面试专题整理集合（面试资料专题包分享

模块二的命题作业

16 个好用的 Code Review 工具，绝对干货

2019-年赚钱最多的-13-个技术岗位，轻松入门flutter

区块链用在房地产交易上会怎样？

2020-字节跳动，网易，华为，android开发艺术探索pdf

2018年Android面试题整理，flutter下拉加载

分析微信朋友圈高性能复杂度

01 K8S之容器与容器编排系统

模块二作业

架构实战营 - 模块二 - 微信朋友圈的高性能复杂度分析

极客时间 - 架构实战营 - 模块二作业

文本序号添加/移除工具

2014-2020分享我在Android开发中走的一些弯路，Android开发者必看避坑指南！

2019届应届毕业生Android秋招总结，已成功入职网易云音乐(1)

2019届应届毕业生Android秋招总结，已成功入职网易云音乐

用脱口秀大会来讲「观察者模式」

连续四年包揽第一！百度AI专利申请量、授权量再度领跑全国

区块链技术重构文创产业首个行业自律公约发布

2019，一位Android中级程序员成功跳槽的面经，android屏幕适配和性能优化

01、泛型是什么？，flutterplugin修改

2017-2020挑选出来最具代表性的（Java，网络相关，2021年字节跳动74道高级程序员面试

2019年末阿里、百度等大厂技术面试题汇总（附答案，实战篇

2020Android-目前最稳定和高效的UI适配方案！你头秃都没想到还能这样吧！

第二模块作业

模块二作业

创作场景

苹果 AI 技术新突破：Siri 可识别热门单词和多语种说话者

说话者识别和语音触发检测

错误触发缓解

多语种说话者识别

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载