东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

谷歌为 AI 合成音视频质量引入了新的度量标准

  • 2019-12-11
  • 本文字数:1235 字

    阅读完需:约 4 分钟

谷歌为 AI 合成音视频质量引入了新的度量标准

谷歌人工智能的研究人员发布了两个新的度量标准来衡量由深度学习网络生成的音频和视频的质量,分别是  Fréchet Audio Distance (FAD)Fréchet Video Distance (FVD)。这些指标已被证明与人工质量评估有很高的相关性。


在最近的一篇博客文章中,软件工程师 Kevin Kilgour 和 Thomas Unterthiner 描述了他们的团队们所做的工作,该研究建立在以前评估由神经网络生成的图像质量的研究基础上。这些团队展示了他们的新指标如何分别检测添加到声音或视频中的噪音,以及将他们的评估指标与人工对声音或视频质量评估进行跟踪。FAD 通过对一系列失真音频样本的排序进行评价,其选择与人工判别选择的相关性为 0.39。FVD 通过对深度学习模型生成的视频进行排序进行类似的评估。根据使用的生成标准的不同,它与人工判别的一致性在 60% 到 80% 之间。


深度学习模型的成功在一定程度上是由 ImageNet 等大型高质量数据集来推动的。这些数据集还提供了可用于评估模型的“正确答案”。近年来,深度学习在图像生成中的广泛应用带来了新的问题:如何评估模型输出的质量呢?由于通过这些神经网络生成的图像或者数据没有“正确答案”,因此无法应用传统的信噪比均方误差等常见指标来评估质量。


由于目标是生成对人类来说看起来或听起来是否真实的输出,所以数据可以由人工判别进行评分,但这既不可能规模化应用,评价的结果也不一定客观。最开始的度量标准是由 GAN 模型的发明者提出的 Inception score(IS)。这个度量标准是通过将一个预先训练好的初始图像分类器应用于图像并计算结果的统计数据来进行计算的。这个度量标准与用于训练生成模型的目标密切相关,并被证明与人工对质量的判别结果密切相关。


然而,IS 度量还有一些缺点。尤其是它对所使用的底层初始模型中的更改非常敏感。澳大利亚约翰开普勒林茨大学 LIT AI 实验室的 Unterthiner 以及其他成员改进了 Fréchet Inception Distance (FID)方法。FID 没有使用 Inception 模型的分类输出,而是使用 Inception 模型的一个隐含层来计算输入图像的嵌入。嵌入是由一组生成图片以及一组真实世界的图片(基准)来计算的。所得到的数据集被视为由多元高斯分布产生的数据,并使用 FID 对两种分布进行比较。与 IS 相比,FID 的一个优点是,当图像中加入噪声时,可以将噪声变平滑甚至消除。


谷歌的新度量方法扩展了为生成的数据计算嵌入的思想,并将统计数据与基准数据进行比较。对于 FAD,团队使用 VGGish 计算嵌入,对于 FVD,使用的是 Inflated 3D Convnet。为了验证其度量方法的有效性,研究人员计算了通过在基准数据中添加噪声而产生的数据集的度量值。预期分数的确会随着噪音的增加而增加。该团队还将他们的度量结果与人工判别进行了比较,发现了该度量方法与人工判别之间的相关性,而且这一新度量方法与人工判别的一致性比其他常用度量方法更强。


用于计算 FADFVD 的 Python 代码和 TensorFlow 代码目前已经开源至 GitHub。


原文链接:


Google Introduces New Metrics for AI-Generated Audio and Video Quality


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-12-11 14:401847

评论

发布
暂无评论
发现更多内容

6个优化策略,助你降低K8S成本

SEAL安全

k8s 成本管理

【Linux】中安装pip(详细教程)

A-刘晨阳

Python Linux 运维 pip 三周年连更

企业级统一数据平台建设思路

星环科技

数据平台

AI不会取代打工人,使用AI的人才会! | 社区征文

王中阳Go

程序员 AI GPT ChatGPT 三周年征文

保姆教程 | 用GPU云主机搭建AI大语言模型并用Flask封装成API,实现用户与模型对话 | 京东云技术团队

京东科技开发者

flask gpu GPU服务器 企业号 4 月 PK 榜 AI大语言模型

SQL数据库管理:RazorSQL 激活版

真大的脸盆

Mac 数据库管理工具 Mac 软件 数据库软件

跨平台应用开发进阶(五十八):短链基本工作原理与实现方案

No Silver Bullet

短链接 跨平台应用开发 三周年连更

Redis Set 用了 2 种数据结构来存储,到现在才知道

Java你猿哥

Java redis string HashMap底层原理

躬身入局的数科公司,为本就拥挤的数智化赛道带来了什么?

用友BIP

用友iuap 用友技术大会 数科公司

大数据时代数据化转型的多种模式

星环科技

电力行业信息化年会 华为解读“低碳、安全、发展”新思路

YG科技

什么是软件开发领域的 obsolete 或者 deprecated 含义

Jerry Wang

软件开发 三周年连更

华为ISDP数字化现场作业:数字化转型助力电力行业安监风险管控

轶天下事

低代码+智能化,企业数字化提速的又一场革命

科技热闻

如何用 Go 实现一个配置包

江湖十年

使用 Flomesh 服务网格进行流量拆分

Flomesh

微服务 Service Mesh 服务网格

第十七届工程建设行业信息化发展大会成功举办,华为工单宝表现亮眼

YG科技

【源码分析】【seata】at 模式分布式事务 -rm 实现逻辑

如果晴天

源码分析 分布式事务 seata Seata框架

Spring Boot如何获取Excel sheet页?

bug菌

Spring Boot spring-boot 三周年连更

面面俱到!百度出品2023版Java面试指南,囊括面试所有硬核技能

程序员小毕

程序员 后端 架构师 java面试 八股文

Matlab实现蚂蚁群算法

Shine

三周年征文

Python面试题

袁袁袁袁满

三周年连更

Unity 之 实现背景图动态适配不同分辨率

陈言必行

Unity 三周年连更

Qz学算法-数据结构篇(哈希表)

浅辄

数据结构 三周年连更

微信小程序开发限制

肥晨

三周年连更

华为ISDP工单宝应邀参加第十七届工程建设行业信息化发展大会

轶天下事

Hi3861开发板入门

鸿蒙之旅

OpenHarmony 三周年连更

Java面向对象程序设计|二人间对话示例

TiAmo

Java 三周年连更 点对点通信 socket通信 面向对象程序设计

好用的Angular组件库有哪些推荐的?TinyNG好用吗?

英勇无比的消炎药

开源 前端 angular OpenTiny

华为ISDP数字化现场作业在第十七届工程建设行业信息化发展大会亮相,备受企业瞩目

轶天下事

企业号 5 月 PK 榜,火热开启!

InfoQ写作社区官方

热门活动 企业号 5 月 PK 榜

谷歌为 AI 合成音视频质量引入了新的度量标准_AI&大模型_Anthony Alford_InfoQ精选文章