基于三维卷积神经网络的全参考视频质量评估算法(一)

阅读数:4 2020 年 1 月 17 日 18:07

基于三维卷积神经网络的全参考视频质量评估算法(一)

在腾讯,我们有多个视频业务线,点播视频有腾讯视频、企鹅影视等,短视频有微视、K 歌等,直播类有 Now 直播、企鹅电竞等,实时传输类有 QQ 和微信等音视频通话、无线投屏和腾讯会议等。
用户对不同的产品有不同程度的期待:比如理想网络环境下,能不能在 27 寸显示器上看到毛发清晰可见的高清视频?使用 3G 等弱网环境时,视频通话能不能保证画面不频繁卡死?
对业务提供方来说,所有问题都可以归结为一个目的:在不同的网络状况下,保证用户最佳的视频观看体验。在整个视频链路中,我们可以精确度量大部分模块,如采集、上传、预处理、转码、分发。我们最未知的部分却恰恰是最关键的部分,即用户的视频观看体验到底怎么样。本文旨在介绍业界视频质量评估进展并提出一种基于三维卷积神经网络的全参考视频质量评估算法。

什么是视频质量评估 (VQA, Video Quality Assessment)

视频质量评估的目的是准确地衡量视频内容的人眼感知质量。不经压缩的源视频因为码率太大而不适合互联网传输。我们必须使用标准的编解码器,如 H.264/AVC、HEVC,或自研编解码器来编码进而降低码流大小。然而,视频压缩会不可避免的引入压缩失真。以 H.264/AVC 压缩为例,图 1 给出了一个压缩失真示例图 [1]。其中,白线左边对应未经压缩的原始画面,地面砖块上的纹理清晰可见,背景的蓝天颜色过渡自然。白线右边对应压缩过的低码率视频画面。可以明显的看到压缩失真,砖块纹理变得模糊不清,蓝天也因为块效应的原因出现了不自然的条条。
基于三维卷积神经网络的全参考视频质量评估算法(一)
图 1 H.264 压缩失真截图。白线左边为高清源视频,白线右边为低码率压缩视频

在工业界和学术界,评估视频质量有两种常用方法:1)视频质量主观实验,2)视频质量客观算法。两种方法有各自的适用场景和局限性。
通过主观实验我们能精确衡量视频质量。在某些核心问题上,如 Codec 性能比较,我们仍需要通过主观实验来得到确切的答案。同时,主观实验打分数据通常会用作验证客观质量评估算法性能的 Ground Truth。完整的主观实验流程一般包含:
1)选取有代表性的源视频
2)添加待衡量的视频处理方案
3)按照 ITU 标准设计主观实验
4)招募志愿者观看视频并打分
5)收集主观打分并剔除无效数据
6)数据建模并抛出实验结论。
ITU 有一些列标准来指导如何做主观实验,如 ITU-T P910 [2],ITU-R BT.2020 [3] 等,本文不做展开。
很显然,主观实验是一个周期长,费时费力的过程。诉诸主观打分来验证所有视频质量需求是不可行的。好在我们可以使用客观质量评估算法来模拟主观打分,进而实现视频质量评估。然而,开发准确而快速的客观质量评估算法仍然是一项有挑战性的工作。

本文转载自 腾讯多媒体实验室公众号。

原文链接: https://mp.weixin.qq.com/s/Kk7J8dLMhHbhksxMumHuwA

评论

发布