写点什么

苹果 AI 技术新突破:Siri 可识别热门单词和多语种说话者

2020 年 2 月 04 日

苹果AI技术新突破:Siri可识别热门单词和多语种说话者

语音识别一直是苹果迫切需要关注的领域。其跨平台 Siri 虚拟助手已服务了全球 5 亿多客户。因此,优化语音触发检测、说话者识别和多个说话者语言识别的技术成为苹果亟待解决的问题。


过去一周,科技巨头苹果发表了一系列预印本研究论文,旨在优化语音触发检测、说话者识别和多个说话者语言识别的技术。


(编者注:预印本研究论文是指科研工作者的研究成果指尚未经过同行评议,还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。)


说话者识别和语音触发检测


在论文的第一部分,苹果研究人员提出了一种训练好的 AI 模型,可同时执行自动语音识别和说话者识别的任务。正如研究人员在论文摘要中所解释的那样,基于语音个人助手识别的指令通常以触发短语(例如,“嘿,Siri”)为前缀,检测该触发短语涉及两个步骤:首先,AI 需要判断输入音频中的语音内容是否与触发短语的语音内容相匹配(语音触发检测);其次,AI 还需判断说话者的语音与注册用户或用户的语音是否匹配(说话者识别)。


这两个任务通常被分开来看,但是论文的合著者认为,对说话者的了解可能有助于判断声音信号中的语音内容,反之亦然,这有助于对这两种属性进行评估。


研究人员设计了三套能够学习语音和说话者信息的模型,并对一组数据集进行训练,这组数据集包含 1.6 万多小时的带注释的样本,其中 5000 小时的音频带有语音标签(其余的仅带有说话者标签)。



此外,实验还邀请了 100 多位说话者使用智能扬声器设备在一系列声学设置中为语料库贡献声音,包括安静的房间、来自房间内电视或厨房设备的外部噪音,以及用录音机大声播放音乐。同时,来自电视和广播的 2000 个小时不包含触发短语的连续音频记录也被添加进来,以此来测量“误报”率。


经过测试,这类模型展示出了学习语音和说话者信息的能力,且在同等数量参数条件下,每个任务的精准性与基线模型相差无几。实际上,在提出的三个模型中,其中一个在“多个”设置中的表现优于说话者识别基线,在执行与本文不相关的任务时比基线提高了 7.6%。


研究人员写道:“这些结果有个有趣的特征——训练模型时使用的是不相交的数据集,即每个音频样本要么具有语音标签,要么具有说话者标签,每个音频样本不会同时具有两个标签。通过对结果的观察,研究人员提出了一种灵活的设计,可以通过连接不同任务的训练数据去训练多个相关任务的模型,而不是为每个训练样本获取多个标签。从实际的角度来看,这样做能实现两个任务之间的计算共享,从而节省设备上的内存、缩短计算时间或等待时间,并能节省消耗的电量/电池。”


错误触发缓解


一项补充研究中减少了错误触发的出现,在任务中,语音助手有意忽略了像 Siri 这样的语音助手的语音。


合著者表示,他们使用了一种运行在图结构上的 AI 模型——图神经网络(GNN),其中每个节点都与标签相关联,目标是在没有实际事实的情况下预测节点的标签,这样做能减少 87%的错误触发。他们写道:“语音触发的智能助手在开始收听用户请求之前通常依赖于对触发短语的检测……错误触发通常源自背景噪声或听起来与触发短语相似的语音。” “减少错误触发是构建以隐私为中心的非侵入式智能助手的重要一环。”


未来,该团队计划将基于 GNN 的处理扩展到用户意图分类等其他任务中。


多语种说话者识别


在另一篇论文中,苹果研究人员探索了一种专门针对多语言说话者的语音识别系统。他们表示,语言识别系统对大多数语言的识别准确率比较高,但是,当同时识别多种语言时,语音识别系统的表现就差强人意了。


事实也的确如此。在《华盛顿邮报》委托进行的一项研究中显示,市面上流行的由谷歌和亚马逊开发的智能音箱,识别本土用户的语音准确度比识别非美式口音准确度高出了 30%。事实证明,像 Switchboard 这样的语料库更偏向于测量来自本国特定地区的说话者的语音,该语料库是 IBM 和 Microsoft 等公司用来评估语音模型错误率的数据集。


为解决这一问题,合著者将使用模式相关内容整合到听写系统中,该听写系统能识别出 60 多个地区的说话者的语音。声学子模型将根据语音信号传递的内容进行预测,上下文感知预测组件分析各种交互上下文信号,通过这两方面的预测,来选择最佳的单语种自动语音识别系统。


包含了发出听写请求情况下的相关信息,包括有关已划定听写区域、当前选择的听写区域以及用户在发出请求之前是否切换了听写区域的信息。重要的是,在语音信号很短的情况下,它们能依靠声学模型生成可靠的预测。例如,如果用户安装了英语和德语,那么像“naln”这样的短且模糊的语句在德语中可能被识别为否定词“nein”,而在英语中被识别为数字“nine"。


为了评估该系统,研究人员开发了一个称为“平均用户准确度”(AUA)的自定义指标,他们表示,该指标可以更好地反映模型中的“说话者发音水平”使用模式。通过对多语言说话者的 12.8 万个带有相应交互上下文的口述话语内部语料库进行严格训练,在所有语言组合中,它的平均准确率达到 87%,而相对于基线,最坏情况下的准确率也提高了 60%以上。值得一提的是,为平衡设备上运行模型的计算负载的准确性和延迟,研究团队对参数进行了调整,调整后,平均延迟从 2 秒减少到 1.2 秒,而对 AUA 的影响不超过 0.05%。


延展阅读:https://venturebeat.com/2020/02/03/apple-details-ai-to-help-voice-assistants-recognize-hotwords-and-multilingual-speakers/


2020 年 2 月 04 日 14:471055

评论

发布
暂无评论
发现更多内容

架构师训练营第十四周总结

张明森

C语言指针详解

C语言与CPP编程

c c++ 编程语言 指针

03 Spring Security 入门实例

哈库拉玛塔塔

Spring Boot kotlin spring security

【高并发】面试官:讲讲什么是缓存穿透?击穿?雪崩?如何解决?

冰河

缓存 面试 穿透 击穿 雪崩

第五周总结

Vincent

极客时间 极客大学

金沙账号审核不通过维护不给提现风控怎么回事?怎么办

过山太阳

内容审核 提现不了

区块链应用层——生态体系的上层建筑

CECBC区块链专委会

区块链技术 生态体系

以大数据为依托提升基层治理效能

CECBC区块链专委会

大数据 信息化管理

区块链激励层——区块链生态建设的驱动力量

CECBC区块链专委会

区块链技术 驱动力量

重新学习了一遍ThreadLocal

熊斌

学习

第五周作业

Vincent

极客时间 极客大学

HashMap将cpu打满始末

林昱榕

hashmap 线程安全 cpu 100% cpu飙满

不使用Raft算法,就能简单做集群leader选举

架构师修行之路

分布式 架构师

智能商业时代的思考(二)网络协同抓住用户

刘旭东

微信 商业价值 数据智能 网络协同 商业智能

记录问题 INSERT INTO table ... SELECT ... FROM dual WHERE not exists (...)问题

浅^安

sql SQL语法 sql查询

Spring Security 主要类解释

哈库拉玛塔塔

springsecurity

浮点数的秘密

C语言与CPP编程

c c++ 编程语言 浮点数

布式系统消息异常该何去何从

架构师修行之路

分布式 异步

一文带你了解微服务架构和设计(多图)

Phoenix

架构 分布式 微服务

ARTS Week16

时之虫

ARTS 打卡计划

ARTS打卡Week 12

teoking

认证、授权、鉴权和权限控制

哈库拉玛塔塔

spring security 用户权限 鉴权 权限

华为与第四范式,正在酝酿一个帮企业跳出AI悖论的“秘密计划”

脑极体

从一段 Dubbo 源码到 CPU 分支预测的一次探险之旅

yes的练级攻略

dubbo cpu

spark总结

CString 类的线程不安全问题

C语言与CPP编程

c c++ 编程语言

导致系统不可用原因及密码验证

安全相关总结

简述C语言宏定义的使用

C语言与CPP编程

c c++ 编程语言

计算机的时钟(三):向量时钟

ElvinYang

洗牌算法

C语言与CPP编程

c c++ 算法 编程语言

苹果AI技术新突破:Siri可识别热门单词和多语种说话者-InfoQ