Facebook 发布神经蛋分离法,可从嘈杂环境中提取音视频

2018 年 11 月 29 日

话题:AIFacebook机器学习

分离混合分布是机器学习和信号处理的长期挑战,而 Facebook 近日提出的新方法似乎可以有效解决这一难题。

人类天生善于分离个别声音和视觉效果,例如在拥挤的鸡尾酒会上听到别人的声音,或者在动物穿过灌木丛时发现动物。但依赖于机器学习的应用程序通常很难完成这项任务。解决这一问题的监督方法,包括对每个来源的样本进行培训,以及假定大量的训练数据都不一定能取得很好的效果,完全无监督的方法会使模型对混合信号源做出不准确的假设。

于是 Facebook 的研究人员提出了神经蛋分离法(Neural Egg Separation,简称 NES),据官方解释,这一方法的命名灵感来源于鸡蛋,意思是像分离蛋清和蛋黄一样把清晰的音视频从模糊的信号中提取出来。

这是一种半监督方法,结合了训练和估计的各个方面。在这一迭代方法中,系统通过将信号混合在一起并进行多个分析来分离已知和未知分布。在此过程中,系统逐渐将更多已知信号注入混合信号中,同时模型在隔离和提取时不断改进。实验表明,NES 明显优于采用类似监督的其他方法,即使对使用全面监督的系统,NES 方法也具有竞争力。

除了改善 ML 系统在逼真的杂乱和嘈杂条件下理解音频和视觉输入的能力之外,这种方法还可以通过应用增强人们隔离信号的自然能力。比如,可以应用在音乐会(或类似场景)中的音频、视频记录,或者开发基于 AR 的应用,用来实时放大特定音频源或视觉特征。

论文地址:

https://research.fb.com/publications/neural-separation-of-observed-and-unobserved-distributions/