谷歌为 AI 合成音视频质量引入了新的度量标准_AI&大模型_Anthony Alford

最新发布《数智时代的AI人才粮仓模型解读白皮书（2024版）》，立即领取! 了解详情 



 写点什么

谷歌人工智能的研究人员发布了两个新的度量标准来衡量由深度学习网络生成的音频和视频的质量，分别是 Fréchet Audio Distance （FAD）和 Fréchet Video Distance （FVD）。这些指标已被证明与人工质量评估有很高的相关性。

在最近的一篇博客文章中，软件工程师 Kevin Kilgour 和 Thomas Unterthiner 描述了他们的团队们所做的工作，该研究建立在以前评估由神经网络生成的图像质量的研究基础上。这些团队展示了他们的新指标如何分别检测添加到声音或视频中的噪音，以及将他们的评估指标与人工对声音或视频质量评估进行跟踪。FAD 通过对一系列失真音频样本的排序进行评价，其选择与人工判别选择的相关性为 0.39。FVD 通过对深度学习模型生成的视频进行排序进行类似的评估。根据使用的生成标准的不同，它与人工判别的一致性在 60% 到 80% 之间。

深度学习模型的成功在一定程度上是由 ImageNet 等大型高质量数据集来推动的。这些数据集还提供了可用于评估模型的“正确答案”。近年来，深度学习在图像生成中的广泛应用带来了新的问题：如何评估模型输出的质量呢？由于通过这些神经网络生成的图像或者数据没有“正确答案”，因此无法应用传统的信噪比或均方误差等常见指标来评估质量。

由于目标是生成对人类来说看起来或听起来是否真实的输出，所以数据可以由人工判别进行评分，但这既不可能规模化应用，评价的结果也不一定客观。最开始的度量标准是由 GAN 模型的发明者提出的 Inception score（IS）。这个度量标准是通过将一个预先训练好的初始图像分类器应用于图像并计算结果的统计数据来进行计算的。这个度量标准与用于训练生成模型的目标密切相关，并被证明与人工对质量的判别结果密切相关。

然而，IS 度量还有一些缺点。尤其是它对所使用的底层初始模型中的更改非常敏感。澳大利亚约翰开普勒林茨大学 LIT AI 实验室的 Unterthiner 以及其他成员改进了 Fréchet Inception Distance （FID）方法。FID 没有使用 Inception 模型的分类输出，而是使用 Inception 模型的一个隐含层来计算输入图像的嵌入。嵌入是由一组生成图片以及一组真实世界的图片（基准）来计算的。所得到的数据集被视为由多元高斯分布产生的数据，并使用 FID 对两种分布进行比较。与 IS 相比，FID 的一个优点是，当图像中加入噪声时，可以将噪声变平滑甚至消除。

谷歌的新度量方法扩展了为生成的数据计算嵌入的思想，并将统计数据与基准数据进行比较。对于 FAD，团队使用 VGGish 计算嵌入，对于 FVD，使用的是 Inflated 3D Convnet。为了验证其度量方法的有效性，研究人员计算了通过在基准数据中添加噪声而产生的数据集的度量值。预期分数的确会随着噪音的增加而增加。该团队还将他们的度量结果与人工判别进行了比较，发现了该度量方法与人工判别之间的相关性，而且这一新度量方法与人工判别的一致性比其他常用度量方法更强。

用于计算 FAD 和 FVD 的 Python 代码和 TensorFlow 代码目前已经开源至 GitHub。

原文链接：

Google Introduces New Metrics for AI-Generated Audio and Video Quality

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

谷歌为 AI 合成音视频质量引入了新的度量标准

公众号推荐：

评论

直播预告 | 博睿学院：揭开docker的神秘面纱

云计算需求激增带来的基础设施挑战及解决方案

UE像素流送是什么？像素流推流原理介绍

uni-app开发小程序：项目架构以及经验分享

2023深圳高交会|第二十五届中国国际高新技术展览会

架构经典设计思想之池化

iOS MachineLearning 系列（22）——将其他三方模型转换成CoreML模型

非托管流动性协议Hover：或将引领Cosmos新一轮DeFi Summer

推荐6个很牛的IDEA插件

大文件传输中的加密与安全措施

Nautilus Chain：主权模块化区块链的早期实践

网约车服务端线上流量巡检与测试验收技术

AIGC，你看我还有机会吗？| 融云前沿

「大模型之家」对话澜舟科技创始人兼CEO周明：马上采取行动，拥抱大模型

Nautilus Chain：主权模块化区块链的早期实践

压力测试核心性能指标及行业标准

Nautilus Chain：主权模块化区块链的早期实践

Nautilus Chain：主权模块化区块链的早期实践

澜舟科技荣膺世界经济论坛评选的2023年度技术先锋初创企业

点云标注在自动驾驶中的精度提升

滴滴是如何落地eBPF技术的？

钛媒体专访｜对话澜舟科技周明：大模型炒作过热，创业公司要选好赛道

WAIC2023精彩回顾｜澜舟科技首次亮相WAIC，孟子大模型专注垂直领域专业赛道

如何判断某个视频是深度伪造的？

6大产品20项亮点，支付宝小程序云全揭秘

软件测试/测试开发丨Python 继承学习笔记

基于 Databend 实现的海量日志实时查询服务 | 多点DMALL

快速玩转 Llama2！阿里云机器学习 PAI 推出最佳实践（一）——低代码 Lora 微调及部署

纯实战！教你2小时学会10个组件“取代”传统Java开发

澜舟科技同360牵头的多家产业链龙头企业，共同发起成立GPT产业联盟

软件测试/测试开发丨Python 封装学习笔记

创作场景

谷歌为 AI 合成音视频质量引入了新的度量标准

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载