写点什么

腾讯多媒体实验室开源国内首个视频质量评估算法 DVQA

  • 2020-04-08
  • 本文字数:1232 字

    阅读完需:约 4 分钟

腾讯多媒体实验室开源国内首个视频质量评估算法DVQA

视听时代,音视频应用越来越广泛:直播、短视频、视频节目、音视频通话……近期由于新冠疫情带来的在线协同办公、在线教育类产品的崛起,更带来了线上音视频需求的爆发,用户对音视频质量诉求也愈加强烈。


在整个视频链路中,大部分模块都可以精确度量,如采集、上传、预处理、转码、分发等。然而未知的部分却恰恰是最关键的部分,即用户的视频观看体验到底怎么样。目前行业内的视频质量评估方法分为两大类:客观质量评估与主观质量评估。前者计算视频的质量分数,又根据是否使用高清视频做参考、源视频是专业视频还是用户原创视频等进一步细分;后者主要依赖人眼观看并打分,能够直观反映观众对视频质量的感受。然而,这些方法仍存在耗时费力、成本较高、主观观感存在偏差等难题。


多媒体实验室提出的视频质量评估解决方案,首先结合业务需求,使用“在线主观质量评测平台”,来构建大规模主观质量数据库,同时使用所收集的主观数据来训练基于深度学习的客观质量评估算法,最后把训练好的质量评估算法部署到业务线中,闭环监控可能存在的质量问题。从以上三个角度出发,DVQA 能够在兼顾不同业务、场景的前提下,满足效率与精度两大需求。


DVQA 包含多个质量评估算法模型,本次开源的是针对 PGC 视频的算法 C3DVQA。本项目使用 Python 开发,深度学习模块使用 PyTorch。代码使用模块化设计,方便集成较新的深度学习技术,灵活的自定义模型,训练和测试新的数据集。


在算法设计上,C3DVQA 所使用的网络结构如下图所示。其输入为损伤视频和残差视频。网络包含两层二维卷积来逐帧提取空域特征。级联后使用四层三维卷积层来学习时空联合特征。三维卷积输出描述了视频的时空掩盖效应,再使用它来模拟人眼对视频残差的感知情况:掩盖效应弱的地方,残差更容易被感知;掩盖效应强的地方,复杂的背景更能掩盖画面失真。



网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果,它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量分数区间的非线性回归关系。


在评测结果上,腾讯多媒体实验室在 LIVE 和 CSIQ 两个视频质量数据集上对所提出算法的性能进行验证。并使用标准的 PLCC 和 SROCC 作为质量准则来比较不同算法的性能。将所提出的 C3DVQA 与常用的全参考质量评估算法进行对比,包括 PSNR,MOVIE,ST-MAD,VMAF 和 DeepVQA,结果如下表所示。



(LIVE 和 CSIQ 两个数据库上不同全参考算法性能比较)


目前该评估算法已在腾讯内外部多款产品中进行使用验证,如腾讯会议就借助实验室上百个符合 ITU/3GPP/AVS 等国外内标准的指标进行评判,闭环监控全网的用户体验质量,从用户真实体验出发,不断优化产品性能。


作为最早布局音视频领域的公司之一,从最早的 QQ 平台,腾讯就试图解决在当年网络条件下若干的音视频通信问题。伴随着 5G、云计算、大数据、人工智能技术的发展,腾讯多媒体实验室基于多年的技术沉淀和行业经验,逐步打磨出一条完善且高质量的音视频技术链条。


本文转载自 腾讯多媒体实验室 公众号。


原文链接: 腾讯多媒体实验室


2020-04-08 17:232885

评论

发布
暂无评论
发现更多内容

Committer 蔡正昕专访:勇敢迈出第一步,做开源没有那么难

Apache Pulsar

架构 云原生 中间件 Apache Pulsar 开源社区

Discuz! ML远程代码执行(CVE-2019-13956)

喀拉峻

网络安全

融云通信周边能力上新啦!一键 Get 美颜、CDN 服务

融云 RongCloud

CDN 人脸识别

猿桌派第 2 季回归,报名赢现场录制机会!

融云 RongCloud

程序员

商品库存管理和秒杀系统设计(19/100)

hackstoic

技术方案 互联网应用技术方案

我要跳槽了!

IC男奋斗史

职业规划 芯片行业思考

图文详解:Kafka到底有哪些秘密让我对它情有独钟呢?

浅羽技术

还在用递归,试试迭代吧

爱笑的小雨

Go语言实战之切片的内部实现和基础功能

山河已无恙

Go 语言 3月月更

Python从ECS内网拉取OSS数据

梦想橡皮擦

3月月更

上手测试GaussDB(for Redis) 和开源 Redis,只为推荐质优价廉的Redis

华为云开发者联盟

数据库 redis 开源 GaussDB(for Redis) 开源Redis

活动预告 | ArchSummit全球架构师峰会

第四范式开发者社区

人工智能 机器学习 数据库 架构师 热门活动

基于区块链技术的超级账本(Hyperledger) - 从理论到实战

汪子熙

区块链 智能合约 云平台 Go 语言 2月月更

天翼云SD-WAN斩获首批“SD-WAN 2.0 SASE”权威认证

天翼云开发者社区

SD-WAN

Python 学习路线(2022)

AlwaysBeta

Python django 编程语言 学习路线 编程入门

设计模式:今天你设计了吗?

SFLYQ

设计模式 服务器端开发 后端技术

模块 9 作业(毕业设计)

miliving

超级群、群组、聊天室,IM 产品的场景化「特异功能」

融云 RongCloud

即时通讯 IM

工作以后流的泪,就是当初校招时脑子进的水

IC男奋斗史

职业规划 芯片行业思考

同人于野,平常无边 | 对话 StarRocks 的三位女性工程师

StarRocks

数据工程师 38妇女节

VuePress 博客优化之开启 Algolia 全文搜索

冴羽

Vue 搜索 vuepress 博客搭建 Algolia

gRPC 简介实践

yuexin_tech

gRPC

Java最最基础入门知识总结回顾

逆锋起笔

Java java面试 javase 3月月更

论CTO的作用

hongfei

项目管理 个人提升 工程管理

Flutter 构建常见的App页面框架

岛上码农

flutter ios 安卓 移动端开发 3月月更

模块九

撿破爛ぃ

架构训练营

AI提取图片里包含的文字信息-解决文字无法复制的痛点

DS小龙哥

3月月更

好书推荐 ——《噪声:人类判断的缺陷》

天择

好书推荐 认知偏差 噪声 3月月更

教你如何搭建一个骗子举报/信息查询的平台

H

搭建平台 网络安全信息安全、

乘数智之风,为世界造舟筏:女性在当下如何创造?

脑极体

安全实战:webshell的几种免杀方式

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

腾讯多媒体实验室开源国内首个视频质量评估算法DVQA_开源_腾讯多媒体实验室_InfoQ精选文章