“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

谷歌为 AI 合成音视频质量引入了新的度量标准

  • 2019-12-11
  • 本文字数:1235 字

    阅读完需:约 4 分钟

谷歌为 AI 合成音视频质量引入了新的度量标准

谷歌人工智能的研究人员发布了两个新的度量标准来衡量由深度学习网络生成的音频和视频的质量,分别是  Fréchet Audio Distance (FAD)Fréchet Video Distance (FVD)。这些指标已被证明与人工质量评估有很高的相关性。


在最近的一篇博客文章中,软件工程师 Kevin Kilgour 和 Thomas Unterthiner 描述了他们的团队们所做的工作,该研究建立在以前评估由神经网络生成的图像质量的研究基础上。这些团队展示了他们的新指标如何分别检测添加到声音或视频中的噪音,以及将他们的评估指标与人工对声音或视频质量评估进行跟踪。FAD 通过对一系列失真音频样本的排序进行评价,其选择与人工判别选择的相关性为 0.39。FVD 通过对深度学习模型生成的视频进行排序进行类似的评估。根据使用的生成标准的不同,它与人工判别的一致性在 60% 到 80% 之间。


深度学习模型的成功在一定程度上是由 ImageNet 等大型高质量数据集来推动的。这些数据集还提供了可用于评估模型的“正确答案”。近年来,深度学习在图像生成中的广泛应用带来了新的问题:如何评估模型输出的质量呢?由于通过这些神经网络生成的图像或者数据没有“正确答案”,因此无法应用传统的信噪比均方误差等常见指标来评估质量。


由于目标是生成对人类来说看起来或听起来是否真实的输出,所以数据可以由人工判别进行评分,但这既不可能规模化应用,评价的结果也不一定客观。最开始的度量标准是由 GAN 模型的发明者提出的 Inception score(IS)。这个度量标准是通过将一个预先训练好的初始图像分类器应用于图像并计算结果的统计数据来进行计算的。这个度量标准与用于训练生成模型的目标密切相关,并被证明与人工对质量的判别结果密切相关。


然而,IS 度量还有一些缺点。尤其是它对所使用的底层初始模型中的更改非常敏感。澳大利亚约翰开普勒林茨大学 LIT AI 实验室的 Unterthiner 以及其他成员改进了 Fréchet Inception Distance (FID)方法。FID 没有使用 Inception 模型的分类输出,而是使用 Inception 模型的一个隐含层来计算输入图像的嵌入。嵌入是由一组生成图片以及一组真实世界的图片(基准)来计算的。所得到的数据集被视为由多元高斯分布产生的数据,并使用 FID 对两种分布进行比较。与 IS 相比,FID 的一个优点是,当图像中加入噪声时,可以将噪声变平滑甚至消除。


谷歌的新度量方法扩展了为生成的数据计算嵌入的思想,并将统计数据与基准数据进行比较。对于 FAD,团队使用 VGGish 计算嵌入,对于 FVD,使用的是 Inflated 3D Convnet。为了验证其度量方法的有效性,研究人员计算了通过在基准数据中添加噪声而产生的数据集的度量值。预期分数的确会随着噪音的增加而增加。该团队还将他们的度量结果与人工判别进行了比较,发现了该度量方法与人工判别之间的相关性,而且这一新度量方法与人工判别的一致性比其他常用度量方法更强。


用于计算 FADFVD 的 Python 代码和 TensorFlow 代码目前已经开源至 GitHub。


原文链接:


Google Introduces New Metrics for AI-Generated Audio and Video Quality


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-12-11 14:401823

评论

发布
暂无评论
发现更多内容

2023 年公链发展报告

Footprint Analytics

区块链 以太坊 加密货币 公链 Layer 2

阿里巴巴内部热传:Java突击宝典,程序员必备升职加薪指南

Reische

MySQL sql 大厂 Java' redis'

Lightroom Classic 2024 for Mac v13.0.2中文激活版下载

影影绰绰一往直前

「繁花」绽放,「她力量」引领AI新革命

Geek_2d6073

软件测试/测试开发/全日制/测试管理丨多设备管理平台 STF

测试人

软件测试

Studio One 6 Pro for mac v6.5.1永久激活版下载(音乐创作编辑软件)

影影绰绰一往直前

23年通天塔搭建页前端性能优化阶段分享

京东科技开发者

SD-WAN解决跨国公司海外工厂网络安全问题

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

Phaser性能测试加强版

FunTester

DevOps|我们需要什么样的产研项目管理工具

EquatorCoco

DevOps 运维

大白话—70个你必须知道的AI重要概念

Geek_2305a8

macOS 12 Monterey (苹果最新系统)v12.7.2正式版下载

影影绰绰一往直前

火了!外国网红为 KubeBlocks 打 CALL:K8s 中统一管理多种数据库用 KB 就够了!

小猿姐

数据库 云计算 Kubernetes

JetBrains pycharm pro 2023 for mac v2023.3.2中文激活版下载

影影绰绰一往直前

鼓掌!阿里技术官亲荐“架构修炼宝典”,从基础到源码,一站到底

Reische

MySQL 面试 Java 面试 大厂 程序员‘

如何开通免费域名邮箱 企业邮箱

景博

如何利用API接口获取电商平台数据?

Noah

阿里巴巴重磅推出:Java进阶必备宝典,从理论到实战,一册在手

Reische

MySQL tomcat Netty 「Java 25周年」 JVM’

掌握这本算法宝典,轻松拿下字节跳动offer

Reische

算法 Java' 程序员‘ 算法、

大型企业SD-WAN异地组网实例分析

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

第七在线智能商品计划签约潮流风向标Alexander Wang亚历山大·王

第七在线

刚上线三天,OpenAI GPT 商店的「AI 女友」就已泛滥丨 RTE 开发者日报 Vol.126

声网

揭秘Spring事务失效场景分析与解决方案

EquatorCoco

数据库 spring 框架

API可视化编排如何实现

RestCloud

API ipaas API可视化

Navicat Premium 15 for Mac v15.0.36中文激活版下载

影影绰绰一往直前

电商API接口入门指南

Noah

2024谷歌SEO自学基础入门

九凌网络

KubeBlocks v0.8.0 发布!Component API 让数据库引擎组装更简单!

小猿姐

数据库 云计算 Kubernetes

荣耀开发者大会 2023·一张图读懂应用分发分论坛

荣耀开发者服务平台

开发者大会 honor 分发与计算 应用市场

macOS 14 Sonoma(苹果最新系统)14.2正式版

影影绰绰一往直前

Java Chassis 3技术解密:负载均衡选择器

华为云PaaS服务小智

云计算 软件开发 华为云

谷歌为 AI 合成音视频质量引入了新的度量标准_AI&大模型_Anthony Alford_InfoQ精选文章