【AICon】硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会 >>> 了解详情
写点什么

ICME VQA Grand Challenge 获奖工作分享

xujingwen

  • 2023-03-05
    北京
  • 本文字数:2264 字

    阅读完需:约 7 分钟

ICME VQA Grand Challenge 获奖工作分享

字节跳动火山引擎-多媒体实验室团队获得了 ICME 21 Best Grand Challenge Winner Team


团队成绩


比赛共有 12 支来自不同国家的参赛队伍,其中包括上海交通大学、深圳大学、日本东京工业大学和印度 IIT 大学参赛队伍。字节跳动火山引擎-多媒体实验室在无参指标赛道中所有评价指标均排名第一;在全参考指标赛道中部分指标排名第一。


竞赛简介


该比赛为鹏城实验室、北京大学深圳研究院、腾讯和美国南加州大学联合举办项目,主办方在视频编码和质量评估方面有比较深厚的学术积累,合作参与过业界知名的全参质量评估算法 VMAF 开发工作,对 UGC ( User Generated Content )视频画质的相关学术和落地应用也有广泛的探索研究。


比赛名称: Challenge on Quality Assessment of Compressed UGC Videos ,主要针对 UGC 源视频画质和 H.264/AVC 压缩失真对视频主观画质的影响的研究,该竞赛共包含两个赛道,分别对应 VQA 领域两类主流的解决方法:


  • 无参考视频质量评价( NR-VQA ) MOS 赛道:在参考信息缺失的前提下对损伤视频质量进行评价

  • 全参考视频质量评价( FR-VQA ) DMOS 赛道:衡量参考视频和损伤视频之间的质量差异


竞赛数据集


竞赛数据集包含 6400 个训练视频片段和 800 个验证视频片段,另外举办方保留 800 支测试片段用于对参赛模型进行比较,参赛者无法获取测试集视频片段。


数据集中参考视频是从实际的视频分享 app 中收集。


通过设置不同的压缩参数,每个参考视频被 H.264/AVC 编码器压缩成损伤程度由弱到强的 7 个损伤片段。


主办方通过主观测试针对每一支视频片段收集了超过 50 个主观 MOS 评分。


竞赛难点


相比于传统的 PGC 视频, UGC 视频画面内容和损伤种类的复杂性为质量评价提出了巨大的挑战。


从画面内容角度, UGC 包含 CG 游戏录屏、自然风景、食物、建筑、人像、动物等各种类型(图 1 );同时画面中的特效,诸如文字、 CG 贴纸、特效滤镜、含黑边的三明治视频等(图 2 )都对传统评价算法性能有一定影响。


(图 1: UGC 内容种类)


(图 2: UGC 画面特效)


同时 UGC 中包含多种来源损伤(图 3 )。拍摄端的噪声、过度曝光、欠曝光和抖动等与传输过程的压缩失真等相互叠加,为质量评价算法的研究提出更大的挑战。


(图 3: UGC 画质损伤)


1.算法背景简介


早期的质量评价算法多在手工特征的基础上设计的,随着深度学习技术的发展,深度神经网络( CNNs )在 VQA 中得到了广泛的应用。


由于 Transformer 在自然语言处理( NLP )领域取得巨大成功, QOE-LAB 采用 Transformer 进行 UGC 视频的全参考和无参考视频质量评估,提出了一种 CNN 和 Transformer 相结合的框架。


采用 CNN 提取局部特征,利用 Transformer 结构通过自注意机制预测主观质量分数。


2.框架和流程


(图 4: 提出的无参考模型)


我们使用 CNN 作为特征提取器来计算输入视频块的深度特征。提取 ResNet 不同层的特征,在空间维度上利用 MaxPooling 将这些特征降采样到相同大小,并在特征维度上进行拼接。


将该特征的空间维度展平并进行 Linear projection , 并添加 embedding 作为 Transformer 的输入:



采用的 Transformer 架构遵循标准的 Vision Transformer ,包含 L 层多头注意力模块( MSA )和多层感知器模块( MLP )。


Transformer 与 MLP 头连接,用于回归最终的主观评分。


用于训练的损失函数均方误差 l1-Loss 和 PLCC-Loss 加权相加构成:



PLCC 表示一个 batch 内预测值和 groudturthlabel 的相关性,其值归一化至 [-1,1] , PLCC 值越大性能越好,因此 PLCC 损失表示为:



全参考模型框架如图 5 所示。 reference patch 和对应位置的 distortion patch 输入共享权值的孪生神经网络分别提取深度特征,并在特征空间的计算 L1 距离,拼接成新的特征输入回归模块映射得到主观 DMOS 分值。


(图 5: 提出的全参考模型)


3.实验


如图 6 所示,在训练过程中,从压缩视频片段和相应的参考视频片段中随机裁剪出一个 256×256 的图像块 patch (针对 FR 框架),然后将压缩视频的质量评分直接作为裁剪 patch 的训练标签。


测试时,从每一帧的四个角和中心裁剪得到 5 个大小为 256×256 的 patch 分别计算分值( FR 框架),所有 patch 的平均得分作为压缩视频的预测分。


(图 6: patch selection )


在实验中,用于特征提取的 ResNet18 网络使用在 ImageNet 上预训练的用于分类任务的网络的权值进行初始化,并使用相同的学习率与框架的其他部分一起进行训练;


Transformer 包含 2 层, MSA 头数为 16 。在加权 w1=1.00 , w2=0.02 的条件下,利用 L1 损失和 PLCC 损失联合优化框架。


通过对比竞赛结果中的各队伍在测试集上的性能指标( PLCC/SROCC/KROCC/RMSE )以及 SOTA FR/NR 算法预测质量分数散点图,对提出模型的性能进行验证:


A. MOS track:



Comparing with SOTA NR-VQA metrics:



B. DMOS track:



Comparing with SOTA FR-VQA metrics:



对于直接预测损伤视频 MOS 分的 NR 方法,我们提出的 NR 框架在所有评价指标中排名第一。


对于预测参考视频和损伤视频质量差异 DMOS 分值的 FR 方法,我们提出的 FR 框架在预测单调性(即 SROCC 和 KROCC )方面排名第一,在预测精度(即 PLCC 和 RMSE )方面排名第二。 


同时通过散点图可以看出,提出的方法与主观评分具有较高的相关性,显著超出了其他的 SOTA FR/NR 方法。


针对 UGC 内容的研究与实际应用场景更加贴近, UGC 质量评价算法对监控视频平台整体画质、监督画质提升算法、指导压缩效率提升等场景有重要作用。


提出的 Transformer 结构实现了算法性能的提升,对算法研究具有较强的指导意义。


Reference

ICME 比赛官方网:

https://2021.ieeeicme.org/conf_challenges

UGCVQA 官方网站:http://ugcvqa.com/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-05 15:047638
用户头像
鲁冬雪 InfoQ 策划主编

发布了 340 篇内容, 共 201.4 次阅读, 收获喜欢 275 次。

关注

评论

发布
暂无评论
发现更多内容

规模化软件开发的必由之路—大规模自动化测试

刘冉

自动化测试

记一次 JMeter 压测 HTTPS 性能问题

阿里巴巴云原生

阿里云 云原生 https Jmeter 压测

《SaaS产品经理从菜鸟到专家》读书笔记

圣迪

产品 产品经理 SaaS tob tob产品

微信朋友圈高性能架构设计

极客土豆

【LeetCode】交换链表中的节点Java题解

Albert

LeetCode 5月月更

为了兼容IE,配置Babel+Webpack

空城机

webpack 5月月更

C++最佳实践 | 1. 工具

俞凡

c++ 最佳实践

1.1 历史长河中的顶层设计

凌晞

Linux环境编译静态库

Loken

音视频 5月月更

老板对技术部产出不满意怎么办?

石云升

产品思维 职场经验 管理经验 5月月更

Bigdata 作业 第11周

Pyel

跨平台应用开发进阶(十一) :uni-app 实现IOS原生APP-云打包集成极光推送(JG-JPUSH)详细教程

No Silver Bullet

uni-app ios 5月月更 云打包 原生APP

提效客户体验管理:结合 K-Means 聚类和 RFM 模型的客户分群

龙国富

RFM 客户分群 K-Means

阿里巴巴在 Envoy Gateway 的演进历程浅析

阿里巴巴云原生

阿里云 Kubernetes 云原生

比特币价格预测两极分化:跌至1万美元还是涨至10万美元?

CECBC

从“数据”到“大数据”,激发数据潜力,深耕智能应用!

亚马逊云科技 (Amazon Web Services)

大数据 数据 智能开发

M_5: 设计微博系统中”微博评论“的高性能高可用计算架构。

Jadedev

架构训练营

Artery —— 单页面应用接口描述语言简介

全象云低代码

前端 低代码 流程 页面 artery

架构实战营 - 第 6 期 模块六课后作业

天琪实刚亮

架构实战营

架构实战营模块 6 作业

热猫

最好用的 8 款 React Datepicker 时间日期选择器测评推荐

蒋川

react.js 组件 组件库 低代码平台 Javascript框架

如何透过 Serverless 与 API 的方式异步搜寻数据湖中的数据

亚马逊云科技 (Amazon Web Services)

Serverless 数据 API

【C 语言】指针 Five 之 ["​⚔ 空指针 - NULL、💣 指针使用之前检查有效性、🗡 指针运算 💣 指针+- 整数、💣 指针 - 指针、指针关系运算、💣 标准规定、⚔ 指针和数组、⚔ 二级指针、⚔ 指针数组"]

謓泽

5月月更

密码学系列之:使用openssl检测网站是否支持ocsp

程序那些事

Java 密码学 程序那些事 5月月更

成本节省 50%,10 人团队使用函数计算开发 wolai 在线文档应用

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

聊聊我对质量度量的看法

老张

软件测试 质量保障

拆分电商系统为微服务

流火

Amazon CodePipeline 与 GitHub 集成

亚马逊云科技 (Amazon Web Services)

GitHub Code

跨平台应用开发进阶(十二) :uni-app 实现应用桌面图标角标提示及应用跳转

No Silver Bullet

uni-app 5月月更 桌面角标

WordPress 编辑用户

海拥(haiyong.site)

WordPress 5月月更

Nacos 开源之夏 2022 来了

阿里巴巴云原生

阿里云 开源 微服务 云原生 nacos

ICME VQA Grand Challenge 获奖工作分享_语言 & 开发_InfoQ精选文章