结果

我们在LIVE和CSIQ两个视频质量数据集上对所提出算法的性能进行验证。LIVE数据库包含10个参考视频和对应每个参考视频的15个失真视频。CSIQ数据集包含12个源视频和相对应的18个失真视频。我们使用标准的PLCC和SROCC作为质量准则来比较不同算法的性能。
因为这两个数据库相对较小，我们参考另外一片深度学习文章[10]的做法，每次随机抽取80%的参考视频和由它们所得到的失真视频作为测试集。我们重复了20次这样的数据集划分并且每次都从头开始训练模型。具体质量评估的散点图如图5所示。

图5 质量估计结果散点图，每一个点代表一个待测视频。其中Y轴为估计视频质量，X轴为主观打分结果，左图为LIVE上测试结果，右图为CSIQ上测试结果。

我们与常用的全参考质量评估算法进行了对比，比较的算法包括PSNR，MOVIE[ 11]，ST-MAD [12]，VMAF和DeepVQA [10]。每次测试都会得到一个PLCC和SROCC，下表中我们使用多次实验结果的中值来代表最终性能。
我们可以清楚的看到本文所设计的算法C3DVQA在两个数据库上均大幅领先PSNR，MOVIE，ST-MAD，VMAF等传统算法。值得一提的是DeepVQA也是一个基于深度学习的算法，也取得了不错的性能。我们把这些性能提提升归结为两方面的原因，1）使用CNN来学习质量相关特征要优于传统的特征提取算法；2）DeepVQA和C3DVQA均学习视频的时空联合特征，显性的利用运动信息更能刻画视频质量。

表一 LIVE和CSIQ两个数据库上不同全参考算法性能比较

总结

本文简要回顾了目前学术界和工业界视频质量评估方向的发展状况。处于复杂度考虑，工业界仍倾向于使用复杂度较低的基于图像质量评估的方案。但是这样做的缺陷就是不能不能把视频作为一个整体来学习时空特性，尽管结果差强人意，也算是性能与复杂度很好的折中。
我们提出了一种基于三维卷积神经网络的全参考算法。通过学习视频的时空联合特征，能更好的解决运动信息丢失问题。相对于传统特征提取算法，我们的算法能大幅度的提升准确度。
当然，这一切才刚刚开始，还有很多工作需要补充。我们想要详细的复杂度分析，特别是在没有GPU可用的场景。我们也想知道所训练的算法在其它数据库上的性能，而且不仅仅局限于PGC视频，也包括UGC视频。
好消息是我们有计划对业界开源模型训练代码，这样能方便所有人去使用自己的数据库训练测试特定视频业务场景。同时，我们也欢迎任何形式的协同开发，不管是贡献数据库，还是贡献预训练模型，甚至是抛出业务场景中所遇到的问题。

本文转载自腾讯多媒体实验室公众号。

原文链接：https://mp.weixin.qq.com/s/Kk7J8dLMhHbhksxMumHuwA

创作场景

基于三维卷积神经网络的全参考视频质量评估算法（三）