NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌开源框架 FUSS,让声音分离不再成为难题

  • 2020-04-22
  • 本文字数:1559 字

    阅读完需:约 5 分钟

谷歌开源框架FUSS,让声音分离不再成为难题

近日,谷歌研究团队在其开源博客上发布了一个免费的通用声音分离数据集,即 FUSS。这个数据集将被当作 IEEE 声音事件检测和分离任务网络挑战竞赛的基准,并有助于将来自其他机器学习领域的新技术快速迭代和应用到对声音分离的科研上。


近日,我们很高兴地宣布发布 FUSS——即免费的通用声音分离数据集(Free Universal Sound Separation)。


通常录制的音频可能会包含多种不同的声源。通用声音分离能力是指,无论音频中包含何种类型的声音,都可以将这样的混合音频按其组成分解为不同声音。在此方法问世之前,声音分离的工作更多关注于把混合音频分解成少量指定类型的声音,如“语音”与“非语音”,或分解成同一类型声音的不同实例,如 1 号发言者与 2 号发言者。而且,通常在这样的声音分解工作中,混合音频中的声音数量也是被假定为先验的,即事先知晓的。然而,这次发布的 FUSS 数据集将关注点转移到解决更通用的问题上,即将数量可变的任意声音从混合音频中逐一分离。


在这个领域,训练模型一个需要克服的主要障碍是,即使有高质量的混合音频录音,用基准真相(ground truth)来对这些录音进行数据标注也并不是一件容易的事情。高质量的仿真是克服这一限制的一种解决方法。为了获得良好的仿真效果,需要一组多样化的各式各样的声音、一个逼真的房间模拟器,以及将这些元素混合在一起的代码,以求实现逼真的、多源的、多种类型的音频,并将之用基准真相进行标注。使用新发布的 FUSS 数据集,我们就能实现拥有这三个特征的音频仿真。


FUSS 依靠的是来自 freesound.org 网站的具有知识共享(Creatuve Cinnibs)许可的音频剪辑。我们团队根据许可类型将这些声音过滤搜索出来,然后使用 FSD50k 的预发布版本,进一步过滤掉那些混合在一起时无法被分离的声音。经过这些过滤之后,有大约 23 个小时的音频,包括 12377 种声音,可以用于混合声音的机器学习。在我们的研究中,其中有 7237 种声音用于训练;2883 种用于验证;2257 种用于评估。使用这些音频剪辑,我们创建了 2 万个训练混合音频、1000 个验证混合音频和 1000 个评估混合音频。


在开源机器学习平台 TensorFlow 上,我们开发出了自己的房间模拟器。在给定声源位置和麦克风位置的条件下,该房间模拟器能够生成一个箱形房间的脉冲响应,且该箱型房间带有频率相关的声音反射特性。作为 FUSS 数据集发布的一部分,我们为每个音频样本都提供了预先计算出来的房间脉冲响应以及混合代码,因此音频方面的研究社区可以直接用这个数据集来模拟新的音频,而无需去运行房间模拟器所要求的海量计算。接下来,我们还将继续的工作可能会包括发布房间模拟器的代码,和扩展房间模拟器功能以处理更丰富的声学特性,比如不同反射性能的材料、非规则的房间形状等等。


最后,我们还发布了一个基于掩码的分离模型,该模型基于一个改进的时域卷积网络(TDCN++)。在评估数据集上,该模型处理 2 ~ 4 个信号源的混合音频时,成功实现了 12.5 dB 的尺度不变信噪比改善(SI-SNRi),同时重建了具有 37.6 dB 绝对尺度不变信噪比的单源混合音频。


可以在这里找到源音频、混响脉冲响应、回响混合音频和由混合代码创建的声音来源,和一个基线模型检查程序的下载。还可以在我们的 github 页面上找到回响、混合音频数据以及用于发布模型训练的所有相关代码(地址:https://github.com/google-research/sound-separation)。


该数据集作为声音事件检测和分离任务的功能组件,还将用于 IEEE 发起的 DCASE 挑战。我们发布的模型将被当作本次 IEEE 网络竞赛的基准,并作为标准检查程序在未来实验中对进展进行展示。


我们希望这个数据集将帮助大家清除新研究的障碍,尤其是有助于未来其他机器学习领域新技术的快速迭代和应对声音分离科研上的挑战上。


原文链接:


https://opensource.googleblog.com/2020/04/free-universal-sound-separation.html


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-04-22 17:172793

评论 1 条评论

发布
用户头像
AI 心语心愿
2020-04-23 12:23
回复
没有更多了
发现更多内容

软件测试学习笔记丨接口测试面试题

测试人

软件测试 面试题 测试开发

软件测试学习笔记丨Allure2测试用例描述相关用法(测试报告类别划分、名字展示等)

测试人

软件测试

大咖公开课 | 探索AI的边界:如何精准地测试人工智能

测吧(北京)科技有限公司

测试

WorkPlus即时通讯平台,让沟通变得简单高效

WorkPlus

客户说|从4小时到15分钟,一次分布式数据库的丝滑体验

阿里云瑶池数据库

数据库 云计算 阿里云 云原生 polarDB

如何通过相对规模来估算用户故事?

敏捷开发

Scrum 敏捷 极限编程 用户故事 敏捷团队

『Java 语法基础』面向对象有哪些特性

EquatorCoco

Java JVM 语法 开发语言

毫末贺翔:DriveGPT让通用感知实现“万物识别”、通用认知具备“世界知识”

Geek_2d6073

人工智能测试开发训练营 带你快速掌握AI测试开发技能,获得更好的职业机会和晋升空间

测吧(北京)科技有限公司

测试

WorkPlus助力企业构建高效内部通讯与协作平台

WorkPlus

WorkPlus Meet提供高效、安全视频会议解决方案

WorkPlus

亮点功能:流水线编辑支持并行了!

都广科技

DevOps

Java面试必考题之线程的生命周期,结合源码,透彻讲解!

不在线第一只蜗牛

Java 面试 生命周期 开发语言

鸿蒙的跨端技术实践方案

Geek_2305a8

Touch bar pet for Mac(在macbook上养一只宠物)

Rose

Mac软件 电子宠物 touchbar 宠物桌面

人工智能测试开发训练营,快速掌握AI测试,更好职业机会晋升空间

测试人

软件测试 测试开发

快速掌握AI测试开发技能,获得更好的职业机会和晋升空间

霍格沃兹测试开发学社

pd18虚拟机如何安装?哪里有Parallels 工具箱?

Rose

PD18虚拟机破解 Parallels 工具箱 Mac虚拟机安装 Parallels Desktop破解

WorkPlus即时通讯平台,让沟通变得简单高效

WorkPlus

macos big sur 软件icons图标大全(新增至2719枚大苏尔风格图标)

Rose

macOS Big Sur icons图标

全球视角, 本土行动 —— 本地化商品管理之道

第七在线

Pandora飙升背后的ERC404 目前适合布局吗

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Digital Realty 在日本 NRT 园区设立第二座数据中心

财见

汽车软件市场迅猛扩张,Perforce Helix Core与Helix IPLM助力汽车软件开发的版本控制及IP生命周期管理

龙智—DevSecOps解决方案

汽车 汽车软件

WorkPlus移动应用平台,完美的移动化办公体验

WorkPlus

WorkPlus Meet提供高度安全的私有化会议解决方案,保护企业隐私

WorkPlus

AutoCAD 2019(cad2019)汉化激活版下载附cad产品密钥

Rose

cad2019 AutoCAD 2019

10 个解放双手的 IDEA插件,少些冤枉代码(第三弹)

程序员小富

IDEA 插件

Maple 2024 mac下载(含maple注册文件及破解工具)兼容m芯片

Rose

软件下载 Maple 2024 Maple数学软件 Maple 2024 mac破解

谷歌开源框架FUSS,让声音分离不再成为难题_行业深度_Google_InfoQ精选文章