写点什么

谷歌开源监督式说话人分类算法,准确率高达 92.4%

  • 2018-11-13
  • 本文字数:1458 字

    阅读完需:约 5 分钟

谷歌开源监督式说话人分类算法,准确率高达92.4%

AI 前线导读: 说话人分类,即从包含多个说话人声音的音频流中,单独将每个人的音频划分到同一类别下的过程,是语音识别系统的重要部分。通过解决“谁在何时说话”的问题,说话人分类可以应用于许多重要场景,例如理解医疗对话、视频字幕等。


然而,使用监督学习方法训练这些系统具有很大的挑战性。与标准监督分类任务不同,一个强大的分类模型需要能够让新加入的,训练中没有的语音片段产生相关性。重要的是,这限制了线上和离线分类系统的质量。在线系统通常受到的影响更大,因为它们需要实时地分类结果。


更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)



(线上流式音频输入说话人分类。底部轴的不同颜色表示不同的说话人。)


《完全监督说话人分类》一文中,我们描述了一种新模型,能以更有效的方式使用监督式说话人标签。这里的“完全”意味着说话人分类系统中的所有组成部分,包括说话人数量预估,都进行了监督式训练,以便它们可以从可用的标记数据增加中受益。在 NIST SRE 2000 CALLHOME 基准测试中,我们的分类错误率(DER)低至 7.6%,而之前基于聚类的方法错误率为 8.8%,深度神经网络嵌入方法的错误率为 9.9%。


此外,我们的方法基于在线解码实现了较低的错误率,特别适用于实时应用场景。我们开源了本文提到的核心算法,以加速此方向的更多研究。

聚类算法 VS 交织状 RNN

现代说话人分类系统通常基于聚类算法,例如 k 均值或谱聚类。由于这些聚类方法是无监督的,因此无法充分利用数据中可用的监督式说话者标签。此外,在线聚类算法通常在具有流式音频输入的实时说话人分类应用中效果欠佳。我们的模型和常见聚类算法的关键区别在于,我们使用地方法,所有说话人嵌入都是通过参数共享递归神经网络(RNN)建模的,并使用交织在时间域的不同的 RNN 状态区分不同的说话者。


为了解其工作原理,请参见以下示例,其中有四种可能的说话人:蓝色、黄色、粉红色和绿色。这是一个任意的数字,实际上可能还有更多,我们使用了中国餐馆流程(一个典型的 Dirichlet 过程混合模型 )来处理未知数量的说话人。每个说话人以其自己的 RNN 实例(在所有说话人之间共享的公共初始状态)开始,并且在给定来自该说话人的新嵌入的情况下保持更新 RNN 状态。在下面的示例中,蓝色说话人不断更新其 RNN 状态,直到另一个说话人黄色进入。如果蓝色稍后再次说话,它将继续更新其 RNN 状态。(这只是下图中语音段 y7 的可能性之一。如果新的说话人绿色进入,它将以新的 RNN 实例开始。)



(模型的生成过程。颜色表示说话人片段的标签。)


将说话人表示为 RNN 状态使我们能够学习使用 RNN 参数在不同说话人和话语之间共享的高水平知识,这保证了更多标记数据能发挥更大的作用。相比之下,常见的聚类算法几乎总是独立地处理单个发音,因此很难从大量标记数据中受益。


如此,通过时间标记的说话人标签(即知道谁在何时说话),我们可以用标准的随机梯度下降算法训练模型。经过训练的模型可以对系统未听到过的说话人进行分类。此外,在线解码也使其更适用于对延迟敏感的应用程序。

未来计划

尽管该系统使得分类性能大大提高,但我们目前仍在探索许多令人兴奋的方向。首先,我们正在改进此模型,让它可以轻松地集成上下文信息进行离线解码。这可能会进一步降低 DER,并且对延迟不敏感的应用程序更有用。其次,我们计划直接模拟声学特征而不是使用 d 向量。通过这种方法,我们能够以端到端的方式训练整个说话人分类系统。


论文链接:https://arxiv.org/abs/1810.04719


开源算法地址:https://github.com/google/uis-rnn


原文链接:https://ai.googleblog.com/


2018-11-13 19:442599
用户头像

发布了 42 篇内容, 共 15.4 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

再论ORACLE上云通用技术方案

天翼云开发者社区

大咖说·图书分享|数字化转型架构:方法论与云原生实践

大咖说

阿里巴巴 云原生 数字化转型

打造中国优质奶源基地 筑牢高质量发展基石

科技新消息

把一整个生态圈藏进大沙漠 看蒙牛如何在每一滴奶中藏进玄机

科技新消息

教你三步实现CDH到星环TDH的平滑迁移

星环科技

国产数据库

数仓建设 | ODS、DWD、DWM等理论实战

五分钟学大数据

数据仓库 4月月更

优麒麟荣获 CSDN IT 技术影响力之星“年度开源项目”奖项!

优麒麟

Linux 开源 IT 获奖 优麒麟

芝士就是力量!蒙牛2021年报笑出大大的CHEESE

科技新消息

61%!产品+渠道创新 蒙牛冰淇淋业绩收录有史高增长

科技新消息

爆款国民冰淇淋原来是这样“凝冻”出来的

科技新消息

【网络安全】网络安全堡垒机多少钱?有什么用?

行云管家

网络安全 信息安全 数据安全 堡垒机 企业安全

如何写内嵌式的帮助文档

小炮

帮助文档

专属云资源包计算规格探秘

天翼云开发者社区

设计消息队列存储消息数据的 MySQL 表格

唐尤华

架构实战营

网络IO管理-简单一问一答、多线程方式

Linux服务器开发

多线程 后端开发 Linux后台开发 网络io 服务端开发

夯实领军者地位 奶酪业务协同发展领先赛道

科技新消息

TypeScript 之 any:哪里可以用?哪里不能用?

杨成功

4月月更

面试侃集合之 DelayQueue 篇

码农参上

4月月更

首个!青藤蜂巢荣获网络安全卓越验证中心&泰尔实验室双认证

青藤云安全

网络安全 青藤

墨天轮访谈 | 腾讯张铭:带你揭秘王者荣耀背后的游戏数据库 TcaplusDB

墨天轮

数据库 TcaplusDB 国产数据库

天翼云分布式缓存服务(Redis)的几个核心概念

天翼云开发者社区

天翼云分布式缓存服务(Redis)的应用场景(干货)

天翼云开发者社区

数千万次下载、百万行开源代码贡献,优麒麟如何打造中国开源操作系统新名片? | 卓越技术团队访谈录

优麒麟

Linux 开源 内核 优麒麟 多端融合

易观分析:海外业务亮眼,研发+IP运营助力中手游持续增长

易观分析

IP 中手游

龙蜥社区&龙蜥开发者获CSDN 2021年度技术影响力「年度开源项目」奖和「年度社区之星」

OpenAnolis小助手

开发者 开源项目 龙蜥社区 年度影响力 社区之星

使用 Amazon Cloud WAN 构建您的全球网络

亚马逊云科技 (Amazon Web Services)

Builder 专栏

自动化运维发展趋势以及好用工具推荐

行云管家

运维 IT运维 自动化运维

优麒麟社区 22.04 LTS Beta 版本发布!

优麒麟

Linux 开源 计算机 优麒麟 Beta

星环科技TDH基于Overlay网络架构为数据安全保驾护航

星环科技

数据库

“敏捷项目比传统项目快”这个说法对吗?

优秀

项目管理 低代码开发

WEB安全:深入反射式dll注入技术

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

谷歌开源监督式说话人分类算法,准确率高达92.4%_AI&大模型_Google AI_InfoQ精选文章