阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

腾讯多媒体实验室开源国内首个视频质量评估算法 DVQA

  • 2020-04-08
  • 本文字数:1232 字

    阅读完需:约 4 分钟

腾讯多媒体实验室开源国内首个视频质量评估算法DVQA

视听时代,音视频应用越来越广泛:直播、短视频、视频节目、音视频通话……近期由于新冠疫情带来的在线协同办公、在线教育类产品的崛起,更带来了线上音视频需求的爆发,用户对音视频质量诉求也愈加强烈。


在整个视频链路中,大部分模块都可以精确度量,如采集、上传、预处理、转码、分发等。然而未知的部分却恰恰是最关键的部分,即用户的视频观看体验到底怎么样。目前行业内的视频质量评估方法分为两大类:客观质量评估与主观质量评估。前者计算视频的质量分数,又根据是否使用高清视频做参考、源视频是专业视频还是用户原创视频等进一步细分;后者主要依赖人眼观看并打分,能够直观反映观众对视频质量的感受。然而,这些方法仍存在耗时费力、成本较高、主观观感存在偏差等难题。


多媒体实验室提出的视频质量评估解决方案,首先结合业务需求,使用“在线主观质量评测平台”,来构建大规模主观质量数据库,同时使用所收集的主观数据来训练基于深度学习的客观质量评估算法,最后把训练好的质量评估算法部署到业务线中,闭环监控可能存在的质量问题。从以上三个角度出发,DVQA 能够在兼顾不同业务、场景的前提下,满足效率与精度两大需求。


DVQA 包含多个质量评估算法模型,本次开源的是针对 PGC 视频的算法 C3DVQA。本项目使用 Python 开发,深度学习模块使用 PyTorch。代码使用模块化设计,方便集成较新的深度学习技术,灵活的自定义模型,训练和测试新的数据集。


在算法设计上,C3DVQA 所使用的网络结构如下图所示。其输入为损伤视频和残差视频。网络包含两层二维卷积来逐帧提取空域特征。级联后使用四层三维卷积层来学习时空联合特征。三维卷积输出描述了视频的时空掩盖效应,再使用它来模拟人眼对视频残差的感知情况:掩盖效应弱的地方,残差更容易被感知;掩盖效应强的地方,复杂的背景更能掩盖画面失真。



网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果,它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量分数区间的非线性回归关系。


在评测结果上,腾讯多媒体实验室在 LIVE 和 CSIQ 两个视频质量数据集上对所提出算法的性能进行验证。并使用标准的 PLCC 和 SROCC 作为质量准则来比较不同算法的性能。将所提出的 C3DVQA 与常用的全参考质量评估算法进行对比,包括 PSNR,MOVIE,ST-MAD,VMAF 和 DeepVQA,结果如下表所示。



(LIVE 和 CSIQ 两个数据库上不同全参考算法性能比较)


目前该评估算法已在腾讯内外部多款产品中进行使用验证,如腾讯会议就借助实验室上百个符合 ITU/3GPP/AVS 等国外内标准的指标进行评判,闭环监控全网的用户体验质量,从用户真实体验出发,不断优化产品性能。


作为最早布局音视频领域的公司之一,从最早的 QQ 平台,腾讯就试图解决在当年网络条件下若干的音视频通信问题。伴随着 5G、云计算、大数据、人工智能技术的发展,腾讯多媒体实验室基于多年的技术沉淀和行业经验,逐步打磨出一条完善且高质量的音视频技术链条。


本文转载自 腾讯多媒体实验室 公众号。


原文链接: 腾讯多媒体实验室


2020-04-08 17:231868

评论

发布
暂无评论
发现更多内容

架构误区系列16:不可靠的幂等

agnostic

幂等设计

iMazing软件最新版有哪些新功能?

茶色酒

imazing

Tuxera NTFS2024免费版NTFS磁盘读写软件

茶色酒

Tuxera NTFS2024

led显示屏视频播放器的8大功能

Dylan

企业 视频 LED显示屏

面试官:什么是双亲委派模型?

做梦都在改BUG

2023Java后端面试最全攻略,一周刷完500道Java面试题,你就可以进大厂

采菊东篱下

面试

直播预告 | 字节跳动云原生大数据分析引擎 ByConity 与 ClickHouse 有何差异?

墨天轮

大数据 字节跳动 Clickhouse 数仓

面试突击:MVCC 和间隙锁有什么区别?

做梦都在改BUG

Java 面试 MVCC

金三银四互联网大厂 Java 面试题汇总(整理版)1000+ 面试题附答案详解,最全面详细!

架构师之道

Java 程序员 面试

2023 最新版 Java 面试八股文大全 PDF 版限时分享,含 700 道高频面试题

三十而立

DevEco Studio 3.1 Beta新特性知多少

HarmonyOS开发者

HarmonyOS

国外顶级架构师编写2580页DDD领域驱动设计笔记,看到内容后破防了

做梦都在改BUG

Java 架构 领域驱动设计 DDD

拥抱Serverless释放生产力,探索华为云Serverless车联网最佳实践

华为云开发者联盟

Serverless 车联网 华为云 华为云开发者联盟 企业号 4 月 PK 榜

袋鼠云春季生长大会圆满落幕,带来数实融合下的新产品、新方案、新实践!

袋鼠云数栈

数字化转型

基于容器平台 ACK 快速搭建 Stable Diffusion

阿里巴巴云原生

阿里云 云原生 容器服务

CorelDRAW2023发布!详解七大新功能

茶色酒

CorelDraw2023

一图读懂|ONES X 中国信通院《中国企业软件研发管理白皮书》

万事ONES

亮点预告!金蝶云·苍穹技术开放日第五期AI专场邀你围观!

金蝶云·苍穹

AI RPA 直播 企业云服务 ChatGPT

阿里最新 23版 Java 面试系列手册,竟堪称 GitHub 面试杀手锏

程序知音

Java java面试 后端技术 Java面试题 Java面试八股文

【转载】三十而已,信智依然 | 田溯宁:写在亚信科技30华诞

亚信AntDB数据库

AntDB AntDB数据库 企业号 4 月 PK 榜

引领文旅新体验!3DCAT实时云渲染助力打造“永不落幕”的湾区文采会元宇宙

3DCAT实时渲染

元宇宙 元宇宙线上虚拟展厅 VR虚拟现实

MobTech MobPush|A/B测试提升运营决策

MobTech袤博科技

基于低代码平台进行可视化搭建系统

这我可不懂

低代码 可视化开发

ARB链挖矿dapp系统开发模式定制

开发v-hkkf5566

为什么医疗保健需要MFT来帮助保护EHR文件传输

镭速

Sibelius2023免费版音乐制谱软件

茶色酒

Sibelius2023

CDR2023最新中文版下载安装详细教程

茶色酒

cdr2023

爆肝了!阿里最新版的这份Spring Security源码手册,狂揽GitHub榜首

做梦都在改BUG

Java spring spring security

精髓!不愧为京东内部 Spring Boot 全解笔记

程序知音

Java 微服务 后端 springboot Java进阶

JVM调优-Nacos GC引发的服务批量下线问题

程序员小毕

程序员 微服务 后端 nacos jvm调优

基于深度学习框架设计的货运管家(功能总结)

DS小龙哥

三周年连更

腾讯多媒体实验室开源国内首个视频质量评估算法DVQA_开源_腾讯多媒体实验室_InfoQ精选文章