写点什么

基于三维卷积神经网络的全参考视频质量评估算法(二)

  • 2020-01-17
  • 本文字数:2130 字

    阅读完需:约 7 分钟

基于三维卷积神经网络的全参考视频质量评估算法(二)

传统 VQA 算法不能有效的使用视频的运动信息

客观视频质量评估算法只需要计算视频的质量分数。从工业界的角度来看,经典的客观算法有 PSNR,SSIM [4],MS-SSIM [5],这些算法基于经典的信号保真度来判断失真视频与无损视频源的差异,再根据差异大小拟合出视频感知质量。近期的算法有 VQM [6],从多个维度提取时空联合特征去逼近主观质量。目前的主流算法有 VMAF [7],使用机器学习方法对多个图像质量客观算法进行融合。借助于融合的思想,VMAF 能够灵活的加入新的客观算法。另一方面,通过使用新的数据集来重新训练,VMAF 也可以方便的迁移到细分维度的视频质量评估任务。


图像质量评估主要是衡量画面内失真在画面掩盖效应影响下的可感知程度。而视频质量评估不仅仅取决于画面内的失真,也包含时域内的失真和时域掩盖效应。这里掩盖效应可简单理解为背景的复杂程度。如果背景较复杂,我们称之为较强的掩盖效应,反之亦然。举个例子,图一中滑板处于快速运动的状态,掩盖效应较强,所以滑板区域的失真更难察觉。而背景中蓝天部门是大片的光滑区域,掩盖效应较弱,细微的压缩失真也能容易察觉到。因此,在开发一个客观视频质量评估算法中,我们必须把视频固有的运动信息考虑进来。


在学术界,有很多相应的策略被提出。最常用的做法是提取两种特征,一种特征去描述画面质量,另一种特征去描述视频运动的大小。比较主流的运动特征包含:TI (Temporal Information),运动向量(Motion Vector),光流(Optical Flow) 等。这种做法最大的缺陷是完全剥离了画面信息和运动信息,视频不再被当作三维数据来处理,而是二维数据加一维数据来处理。



图 2 三维空间内视频切片示意图


为了解决上述问题,另外一种比较直观的方法是对视频进行三维切片[8]。如图 2 所示,我们使用(x, y, t)来标记空域和时域轴。这里切片如果与时间轴垂直,即(x, y)方向,那么切出来的就是传统意义上的视频帧;如果与时间轴平行,即(x, t) 或(y, t)方向,我们就得到了时空联合的二维切片。在某种程度上,后两个切片包含了运动信息。对以上三种切片使用图像质量评估算法,再把切片分数融合起来,就能取得不错的质量提升。尽管如此,三维切片还是没有最大程度的使用运动信息。


有不少图片质量评估算法是基于经典的 DCT 或小波变换,再从变换系数中提取特征向量。对视频而言,一种比较直观的拓展就是使用三维变换,如三维 DCT 变换,三维小波变换等。经过三维变换后,我们从变换系数中进一步提取特征来而做质量评估。这种方法保留了视频的时空联合信息,但是三维变换会引入复杂度过高的问题。

使用三维卷积神经网络来学习视频的时空联合特征(C3D, Convolutional 3D Neural Network)

近年来深度学习在多个计算机视觉图片任务中取得了瞩目的成就。同时也有学者把二维神经网络扩展到三维神经网络来更好的处理视频任务[9]。我们尝试使用三维卷积神经网络来学习时空特征并把它用到视频质量任务中。我们先给出基本的二维和三维卷积模块,再进一步介绍所提出的网络结构。


1、图 3a 给出了二维卷积核在二维输入上的卷积操作。为了避免歧义,我们假设是对二维图像进行卷积操作。其中输入图像大小为 HxW,卷积核大小为 kxk,图像时域深度和卷积核时域深度均为 1。经过卷积运算输出仍为二维。输入输出均不包含任何运动信息。


2、图 3b 给出了二维卷积核在三维输入上的卷积操作。我们可以假设输入为一个画面大小为 HxW,包含 L 帧的视频。这里卷积核的深度不再是 1,而是跟视频帧数相同。经过卷积操作,输出仍为二维,且与图 3a 的输出大小相同。这种卷积操作有利用到视频前后帧的运动信息,但是只用一步卷积就把所有运动信息给吃掉了。


3、图 3c 给出了三维卷积核在三维输入上的卷积操作。与图 3b 相比,这里卷积核的深度为 d,且 d 小于 L。经过三维卷积操作,输出仍为三维。当 d=1 时,等价为图 3a 的卷积操作对视频帧进行逐帧处理,但是并没有利用到前后帧的运动信息。当 d=L 时,它的效果等同于图 3b。所以当 d 小于 L 时,三维卷积能更可控的利用运动信息。如果我们想让运动信息消失的快一些,就调大三维卷积的深度 d。相反,使用小一些的 d 能更缓慢的提取运动信息。



图 3 二维与三维卷积操作示意图


在此基础上,我们设计了自己的视频质量评估算法 C3DVQA。其核心思想是使用三维卷积来学习时空联合特征,进而更好的去刻画视频质量。


图 4 给出了我们所提出的网络结构图,其输入为损伤视频和残差视频。网络包含两层二维卷积来逐帧提取空域特征。经级联后,空域特征仍保留前后帧的时许关系。网络接着使用四层三维卷积层来学习时空联合特征。在这里,三维卷积输出描述了视频的时空掩盖效应,而且我们使用它来模拟人眼对视频残差的感知情况:掩盖效应弱的地方,残差更容易被感知;掩盖效应强的地方,复杂的背景更能掩盖画面失真。


网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果,它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量分数区间的非线性回归关系。



图 4 本文所提出的网络结构图。包含两层二维卷积,四层三维卷积,池化和全连接层。卷积参数表示:(channel,kernel size,stride,padding)


本文转载自 腾讯多媒体实验室公众号。


原文链接:https://mp.weixin.qq.com/s/Kk7J8dLMhHbhksxMumHuwA


2020-01-17 18:061012

评论

发布
暂无评论
发现更多内容

如何使用物联网低代码平台进行服务管理?

AIRIOT

低代码 物联网 低代码开发平台 低代码平台

“造车”,腾讯抄了华为后路

科技新知

60天远程办公经验分享 | 社区征文

Albert

初夏征文

VoIP Push 在海外音视频业务中的应用

融云 RongCloud

架构实战营毕业总结

哈喽

「架构实战营」

Freedom自由协议质押挖矿系统开发

开发微hkkf5566

福昕软件受邀亮相2022先进制造业数智发展论坛

联营汇聚

洞见科技作为「唯一」隐私计算数商,「首批」入驻长三角数据要素流通服务平台

洞见科技

架构实战营模块 5 作业

Naoki

架构实战营

什么是IGMP?IGMP与ICMP有啥区别?

wljslmz

网络协议 6月月更 IGMP 组播

软件快速交付真的需要以安全为代价吗?

华为云开发者联盟

云计算 敏捷 安全 后端 开发

细说GaussDB(DWS)复杂多样的资源负载管理手段

华为云开发者联盟

数据库 并发 CPU管控

MySQL,MVCC详解,快照读在RC、RR下的区别

乌龟哥哥

6月月更

web3 的身份验证之以太坊签名消息

devpoint

区块链 以太坊 Web3.0 6月月更

小迈科技 X Hologres:高可用的百亿级广告实时数仓建设

阿里云大数据AI技术

sql 大数据 分布式计算

小暑至,盛夏始,7月月更活动伴随着盛夏走来啦!

InfoQ写作社区官方

热门活动 7月月更

整整面试两月,凭借这份15w字Java面试刷题宝典成功入职阿里

Java全栈架构师

Java spring 程序员 面试 算法

leetcode 416. Partition Equal Subset Sum 分割等和子集(中等)

okokabcd

LeetCode 动态规划 数据结构与算法

国内酒店交易DDD应用与实践——理论篇

Qunar技术沙龙

jfinal中如何使用过滤器监控Druid监听SQL执行?

华为云开发者联盟

sql 开发

第八届“互联网+”大赛 | 云原生赛道邀你来挑战

阿里巴巴云原生

阿里云 云原生 大赛

CorelDRAW2022全新版V24.1.0.360更新

茶色酒

cdr2022

在线SQL转CSV工具

入门小站

工具

小程序容器是什么技术?能助力物联网企业红海突围?

Speedoooo

小程序 物联网 IoT 小程序容器

攻防演练中的防守基石——全方位监控

穿过生命散发芬芳

6月月更 攻防演练

linux之ClamAV杀毒软件安装配置

入门小站

Linux

从一个被应用商店坑了的BUG说起

IT蜗壳-Tango

自动化测试 IT蜗壳教学 6月月更

透过华为军团看科技之变(五):智慧园区

脑极体

微博系统中”微博评论“的高性能高可用计算架构

Geek_e8bfe4

华为云AOM 2.0版本发布

华为云开发者联盟

运维 华为云 自动化运维 AOM

DevCloud加持下的青软,让教育“智”上云端

华为云开发者联盟

云计算 软件 后端 开发 教育

基于三维卷积神经网络的全参考视频质量评估算法(二)_文化 & 方法_腾讯多媒体实验室_InfoQ精选文章