中国卓越技术团队访谈录读者调查,2022年采访嘉宾由你决定! 了解详情
写点什么

苹果 AI 技术新突破:Siri 可识别热门单词和多语种说话者

  • 2020 年 2 月 04 日
  • 本文字数:2177 字

    阅读完需:约 7 分钟

苹果AI技术新突破:Siri可识别热门单词和多语种说话者

语音识别一直是苹果迫切需要关注的领域。其跨平台 Siri 虚拟助手已服务了全球 5 亿多客户。因此,优化语音触发检测、说话者识别和多个说话者语言识别的技术成为苹果亟待解决的问题。


过去一周,科技巨头苹果发表了一系列预印本研究论文,旨在优化语音触发检测、说话者识别和多个说话者语言识别的技术。


(编者注:预印本研究论文是指科研工作者的研究成果指尚未经过同行评议,还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。)


说话者识别和语音触发检测

在论文的第一部分,苹果研究人员提出了一种训练好的 AI 模型,可同时执行自动语音识别和说话者识别的任务。正如研究人员在论文摘要中所解释的那样,基于语音个人助手识别的指令通常以触发短语(例如,“嘿,Siri”)为前缀,检测该触发短语涉及两个步骤:首先,AI 需要判断输入音频中的语音内容是否与触发短语的语音内容相匹配(语音触发检测);其次,AI 还需判断说话者的语音与注册用户或用户的语音是否匹配(说话者识别)。


这两个任务通常被分开来看,但是论文的合著者认为,对说话者的了解可能有助于判断声音信号中的语音内容,反之亦然,这有助于对这两种属性进行评估。


研究人员设计了三套能够学习语音和说话者信息的模型,并对一组数据集进行训练,这组数据集包含 1.6 万多小时的带注释的样本,其中 5000 小时的音频带有语音标签(其余的仅带有说话者标签)。



此外,实验还邀请了 100 多位说话者使用智能扬声器设备在一系列声学设置中为语料库贡献声音,包括安静的房间、来自房间内电视或厨房设备的外部噪音,以及用录音机大声播放音乐。同时,来自电视和广播的 2000 个小时不包含触发短语的连续音频记录也被添加进来,以此来测量“误报”率。


经过测试,这类模型展示出了学习语音和说话者信息的能力,且在同等数量参数条件下,每个任务的精准性与基线模型相差无几。实际上,在提出的三个模型中,其中一个在“多个”设置中的表现优于说话者识别基线,在执行与本文不相关的任务时比基线提高了 7.6%。


研究人员写道:“这些结果有个有趣的特征——训练模型时使用的是不相交的数据集,即每个音频样本要么具有语音标签,要么具有说话者标签,每个音频样本不会同时具有两个标签。通过对结果的观察,研究人员提出了一种灵活的设计,可以通过连接不同任务的训练数据去训练多个相关任务的模型,而不是为每个训练样本获取多个标签。从实际的角度来看,这样做能实现两个任务之间的计算共享,从而节省设备上的内存、缩短计算时间或等待时间,并能节省消耗的电量/电池。”


错误触发缓解

一项补充研究中减少了错误触发的出现,在任务中,语音助手有意忽略了像 Siri 这样的语音助手的语音。


合著者表示,他们使用了一种运行在图结构上的 AI 模型——图神经网络(GNN),其中每个节点都与标签相关联,目标是在没有实际事实的情况下预测节点的标签,这样做能减少 87%的错误触发。他们写道:“语音触发的智能助手在开始收听用户请求之前通常依赖于对触发短语的检测……错误触发通常源自背景噪声或听起来与触发短语相似的语音。” “减少错误触发是构建以隐私为中心的非侵入式智能助手的重要一环。”


未来,该团队计划将基于 GNN 的处理扩展到用户意图分类等其他任务中。


多语种说话者识别

在另一篇论文中,苹果研究人员探索了一种专门针对多语言说话者的语音识别系统。他们表示,语言识别系统对大多数语言的识别准确率比较高,但是,当同时识别多种语言时,语音识别系统的表现就差强人意了。


事实也的确如此。在《华盛顿邮报》委托进行的一项研究中显示,市面上流行的由谷歌和亚马逊开发的智能音箱,识别本土用户的语音准确度比识别非美式口音准确度高出了 30%。事实证明,像 Switchboard 这样的语料库更偏向于测量来自本国特定地区的说话者的语音,该语料库是 IBM 和 Microsoft 等公司用来评估语音模型错误率的数据集。


为解决这一问题,合著者将使用模式相关内容整合到听写系统中,该听写系统能识别出 60 多个地区的说话者的语音。声学子模型将根据语音信号传递的内容进行预测,上下文感知预测组件分析各种交互上下文信号,通过这两方面的预测,来选择最佳的单语种自动语音识别系统。


包含了发出听写请求情况下的相关信息,包括有关已划定听写区域、当前选择的听写区域以及用户在发出请求之前是否切换了听写区域的信息。重要的是,在语音信号很短的情况下,它们能依靠声学模型生成可靠的预测。例如,如果用户安装了英语和德语,那么像“naln”这样的短且模糊的语句在德语中可能被识别为否定词“nein”,而在英语中被识别为数字“nine"。


为了评估该系统,研究人员开发了一个称为“平均用户准确度”(AUA)的自定义指标,他们表示,该指标可以更好地反映模型中的“说话者发音水平”使用模式。通过对多语言说话者的 12.8 万个带有相应交互上下文的口述话语内部语料库进行严格训练,在所有语言组合中,它的平均准确率达到 87%,而相对于基线,最坏情况下的准确率也提高了 60%以上。值得一提的是,为平衡设备上运行模型的计算负载的准确性和延迟,研究团队对参数进行了调整,调整后,平均延迟从 2 秒减少到 1.2 秒,而对 AUA 的影响不超过 0.05%。


延展阅读:https://venturebeat.com/2020/02/03/apple-details-ai-to-help-voice-assistants-recognize-hotwords-and-multilingual-speakers/


2020 年 2 月 04 日 14:471279

评论

发布
暂无评论
发现更多内容

记一下日志引起的bug

卢卡多多

日志 9月日更

Nebula Graph 源码解读系列 | Vol.02 详解 Validator

Nebula Graph

图数据库 源码学习 分布式图数据库

数字化的田亩里,华为正写一首陶渊明的诗

脑极体

深入探讨区块链价值及其对世界的影响

CECBC

20+互联网公司Java面试考点大全,全网首发,应有尽有

Java 程序员 编程语言 java面试

2021前端react面试题汇总

zz1998

React

【SpringCloud 技术专题】「Eureka 源码分析」从源码层面让你认识 Eureka 工作流程和运作机制(下)

浩宇天尚

微服务 SpringCloud Eureka 注册中心 9月日更

24. AI只是人类的工具

数据与智能

人工智能

进程和处理机管理中的进程控制

Regan Yue

操作系统 进程 9月日更 进程控制

python之深浅拷贝

秦时明月

Go 中更好的定时调度

baiyutang

golang 9月日更

尴尬!面试了个32岁Java程序员,被JVM问到哭

不想秃头

Java 程序员 面试 JVM

数据仓库和数据湖比较

奔向架构师

数据湖 9月日更

前端性能优化实战(一)

Augus

JavaScript 9月日更

Mp3文件结构全解析(二)

轻口味

android 音视频 9月日更

基于线性预测的语音编码原理解析

拍乐云Pano

RTC 音频技术 python 数字信号

网络攻防学习笔记 Day146

穿过生命散发芬芳

9月日更 招投标

定时任务 Crontab 中的特殊字符

耳东@Erdong

crontab 9月日更

java虚拟机GC学习笔记一

风翱

GC 9月日更

linux之systemctl命令

入门小站

Linux

如何做竞品分析?

石云升

产品经理 产品思维 9月日更 产品分析

将进一步提高数字人民币的可得性 构建分布式数字身份认证体系

CECBC

WAF绕过总结+工具介绍

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

按键编码ASCII对照表

入门小站

工具

中小企业自媒体为何难做:定位不准期望值过高

石头IT视角

腾讯圆梦,我整理收集了这份“2021常见Java面试真题汇总”

Java 架构 编程语言 java面试

【经验分享】RTC 技术系列之视频编解码

声网Agora

音视频

iOS 优雅的处理网络数据,你真的会吗?不如看看这篇.

HelloWorld杰少

大前端 引航计划

芯慌遇上造车热,国产芯片的机会到了?

脑极体

CPU虚拟化,磁盘虚拟化,内存虚拟化,io虚拟化

hanaper

流程控制之for循环

秦时明月

撑起瞬时千亿交易额的云数据库是怎么炼成的?

撑起瞬时千亿交易额的云数据库是怎么炼成的?

苹果AI技术新突破:Siri可识别热门单词和多语种说话者-InfoQ