谷歌开源监督式说话人分类算法，准确率高达92.4%_AI&大模型_Google AI_InfoQ精选文章

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册

谷歌开源监督式说话人分类算法，准确率高达92.4%

AI 前线导读： 说话人分类，即从包含多个说话人声音的音频流中，单独将每个人的音频划分到同一类别下的过程，是语音识别系统的重要部分。通过解决“谁在何时说话”的问题，说话人分类可以应用于许多重要场景，例如理解医疗对话、视频字幕等。

然而，使用监督学习方法训练这些系统具有很大的挑战性。与标准监督分类任务不同，一个强大的分类模型需要能够让新加入的，训练中没有的语音片段产生相关性。重要的是，这限制了线上和离线分类系统的质量。在线系统通常受到的影响更大，因为它们需要实时地分类结果。

更多干货内容请关注微信公众号“AI 前线”（ID：ai-front）

（线上流式音频输入说话人分类。底部轴的不同颜色表示不同的说话人。）

在《完全监督说话人分类》一文中，我们描述了一种新模型，能以更有效的方式使用监督式说话人标签。这里的“完全”意味着说话人分类系统中的所有组成部分，包括说话人数量预估，都进行了监督式训练，以便它们可以从可用的标记数据增加中受益。在 NIST SRE 2000 CALLHOME 基准测试中，我们的分类错误率（DER）低至 7.6％，而之前基于聚类的方法错误率为 8.8％，深度神经网络嵌入方法的错误率为 9.9％。

此外，我们的方法基于在线解码实现了较低的错误率，特别适用于实时应用场景。我们开源了本文提到的核心算法，以加速此方向的更多研究。

聚类算法 VS 交织状 RNN

现代说话人分类系统通常基于聚类算法，例如 k 均值或谱聚类。由于这些聚类方法是无监督的，因此无法充分利用数据中可用的监督式说话者标签。此外，在线聚类算法通常在具有流式音频输入的实时说话人分类应用中效果欠佳。我们的模型和常见聚类算法的关键区别在于，我们使用地方法，所有说话人嵌入都是通过参数共享递归神经网络（RNN）建模的，并使用交织在时间域的不同的 RNN 状态区分不同的说话者。

为了解其工作原理，请参见以下示例，其中有四种可能的说话人：蓝色、黄色、粉红色和绿色。这是一个任意的数字，实际上可能还有更多，我们使用了中国餐馆流程（一个典型的 Dirichlet 过程混合模型）来处理未知数量的说话人。每个说话人以其自己的 RNN 实例（在所有说话人之间共享的公共初始状态）开始，并且在给定来自该说话人的新嵌入的情况下保持更新 RNN 状态。在下面的示例中，蓝色说话人不断更新其 RNN 状态，直到另一个说话人黄色进入。如果蓝色稍后再次说话，它将继续更新其 RNN 状态。（这只是下图中语音段 y7 的可能性之一。如果新的说话人绿色进入，它将以新的 RNN 实例开始。）

（模型的生成过程。颜色表示说话人片段的标签。）

将说话人表示为 RNN 状态使我们能够学习使用 RNN 参数在不同说话人和话语之间共享的高水平知识，这保证了更多标记数据能发挥更大的作用。相比之下，常见的聚类算法几乎总是独立地处理单个发音，因此很难从大量标记数据中受益。

如此，通过时间标记的说话人标签（即知道谁在何时说话），我们可以用标准的随机梯度下降算法训练模型。经过训练的模型可以对系统未听到过的说话人进行分类。此外，在线解码也使其更适用于对延迟敏感的应用程序。

未来计划

尽管该系统使得分类性能大大提高，但我们目前仍在探索许多令人兴奋的方向。首先，我们正在改进此模型，让它可以轻松地集成上下文信息进行离线解码。这可能会进一步降低 DER，并且对延迟不敏感的应用程序更有用。其次，我们计划直接模拟声学特征而不是使用 d 向量。通过这种方法，我们能够以端到端的方式训练整个说话人分类系统。

论文链接：https://arxiv.org/abs/1810.04719

开源算法地址：https://github.com/google/uis-rnn

原文链接：https://ai.googleblog.com/

评论

发布

暂无评论

前端一面高频react面试题（持续更新中）

华为云大数据，共建智能世界的数据底座

华为云文档数据库服务更安全

与时俱进的时代

IP路由基础、路由器静态路由配置方法、自治系统、缺省路由的配置方法、路由选路规则、缺省路由、备份路由、等价路由、三种查询路由表命令

Python-派大星

OSPF基础（一）：OSPF工作原理以及优点、OSPF的缺点、OSPF配置方法、DR与BDR的选举原理

Python-派大星

C#中关于接口(Interface)的详解(附带案例)

C# 接口 10月月更

C++从入门到精通（第九篇）：多态

c c++ 10月月更

如何实现车联网的灵活数据采集

EMQ映云科技

车联网物联网 IoT 数据采集 10月月更

鸿蒙开发实例 | 为什么选择HarmonyOS？

华为鸿蒙 10月月更

实现企业转型，华为云大数据实力领先

零代码，让业务人员实现应用创造自由

华为云开发者联盟

云计算后端低代码华为云企业号十月 PK 榜

为什么软件供应链攻击愈演愈烈？

开源开源软件软件供应链安全软件攻击

问：React的setState为什么是异步的？

从React源码分析看useEffect

云服务的智能堪称颠覆，华为云带来多种守护

软件测试面试真题 | 测试流程大概是什么？

面试软件测试测试开发

C++从入门到精通（第八篇）：IO流

c c++ 10月月更

“科技与狠活”梗爆火，食品安全焦虑问题怎么破？

区块链产业区块链食品安全企业号十月PK榜

用户故事地图怎么用？实践才能出真知

敏捷敏捷开发用户故事用户故事地图

安全、可靠、合规，华为云守护企业网站安全

聊聊机器如何“写“好广告文案?

AIGC 企业号十月 PK 榜广告创意

广告内容定向分级，保护未成年人身心健康

一文看懂Vue2和Vue3中设置404界面

Vue 前端 10月月更

老生常谈React的diff算法原理-面试版

路由基础：三层交换机、单臂路由的特点以及配置特点、DHCP报文类型、DHCP工作原理、在路由器上配置DHCP、在交换机上配置DHCP、配置DNS服务器

Python-派大星

React源码分析8-状态更新的优先级机制

论文解读丨CIKM'22 MARINA：An MLP-Attention Model for Multivariate Time-Series Analysis

华为云开发者联盟

数据库后端华为云企业号十月 PK 榜

华为云数据库-RDS for MySQL数据库

与时俱进的时代

华为云数据库稳定可靠-即开即用

与时俱进的时代

二叉树常见oj题（持续更新中）

c c++ 10月月更

研发效能度量不要“你觉得”，而要这样的度量指标体系！

博文视点Broadview