AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

CVPR 2025 | 火山引擎获得 NTIRE 视频质量评价挑战赛全球第一

  • 2025-04-15
    北京
  • 本文字数:2775 字

    阅读完需:约 9 分钟

大小:1.44M时长:08:21
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2025 NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在 NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA 赛道以显著优势夺冠。基于能力强大的多模态大模型,团队方案成功构建了评估精度、计算效率俱优的画质评价模型,为大模型能力的利用提供了可行参考范式。



本次“SharpMind”参加的 CVPR 2025 NTIRE 视频质量评估赛道,吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。夺冠方案通过构建基于 MLLM 教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。



具体比赛细节和排名可以参考比赛官网:https://codalab.lisn.upsaclay.fr/competitions/21335

 

赛事介绍


CVPR NTIRE(New Trends in Image Restoration and Enhancement)大赛是计算机视觉领域顶会 CVPR 旗下「最具影响力的国际学术竞赛之一」,素有“影像算法奥林匹克”之称。该赛事聚焦视频复原、增强、生成技术及质量评估等底层视觉任务,旨在推动技术突破并解决实际应用难题。本次 VQA 赛道相关信息如下:


  • 内容:赛道一沿用大型短视频质量评价数据集 KVQ,该数据集由快手公司授权采集,联合高校智能媒体实验室(IMCL)进行数据集标注和标准化。包含风景、人群、食物、肖像等 9 个内容场景,其中每个内容比例按照快手短视频平台在线统计量制定, 共计 4200 个短视频。


  • 要求:为提升短视频质量评价模型效率,提升算法的实用性,今年比赛将限制短视频质量评价模型,单视频运行计算开销上限为 120GFlops。鼓励参赛选手使用蒸馏、剪枝等手段对大模型进行加速。

 

研究背景


短视频 UGC 画质评价的研究背景源于移动互联网时代用户生成内容的爆炸式增长与质量评估的复杂性挑战。由于非专业拍摄设备(如手机)的物理限制、动态拍摄环境(如低光照、运动模糊)以及后期处理流程(如过度锐化、多次压缩)的叠加效应,UGC 视频普遍存在混合失真(如块效应、噪声、伪影等),且缺乏高质量参考源,导致传统全参考评价指标(如 PSNR、SSIM)难以准确拟合人眼主观感受。


此外,UGC 内容的多样性(如横竖屏、特效贴纸、二创素材)进一步加剧了失真类型与语义场景的耦合性,例如用户可能更关注主体清晰度而非背景噪声,这要求算法需同时建模技术失真与内容美学特征。

其研究重要性体现在两方面:一是用户体验优化,画质评分直接影响平台内容分发效率与用户留存率,例如通过算法量化视频质量,为推荐系统提供画质权重;二是技术突破需求,UGC 画质评价需解决无参考场景下的泛化性问题,如火山引擎 VQScore 通过细分归因指标(噪声、过曝等)和增强评估(超分质量)构建全链路画质优化闭环,显著提升了跨场景评估的鲁棒性。


当前研究趋势正探索多模态大模型强大能力的迁移和应用,以应对 AIGC 时代的新型失真挑战,并进一步提升相关算法的准确性、鲁棒性。

 

方案概述


针对用户生成内容(UGC)视频质量评估的复杂挑战,研究团队提出了一种基于"教师-学生"知识蒸馏的创新框架。该方案通过两阶段训练机制,在保持高精度评估能力的同时实现模型轻量化,有效解决了传统方法在无参考场景下的泛化性难题。



第一阶段:多模态特征融合的教师模型构建。团队首先设计了一个强大的教师模型(包含 MLLM 多模态大模型以及多种强大的骨干网络),通过多维度的特征提取全面捕捉 UGC 视频的质量特性:


  1. 多骨干特征提取​:利用 DeQA 从多模态大模型中提取 Quality-Aware 特征,采用 SlowFast 网络提取时空运动特征,结合 FAST-VQA 分析局部区域失真,并根据 LIQE 针对不同维度建立视频帧与文本的关联。考虑到人眼视觉系统特性在 UGC 视频的重要性,团队特别引入 HVS-5M 模型提取边缘掩蔽等特征,模拟人类视觉系统对边缘丰富区域敏感的特性。


  1. 特征融合架构​:将视频的关键帧调整为 384×384 的分辨率并给一个端到端可学习的 Swin-B 网络提取关键帧特征并与上述骨干特征拼接,通过两层 MLP 实现特征降维,通过这种方式引入一部分可学习参数弥补冻结骨干网络提取特征的缺陷。训练采用 Adam 优化器(学习率 1×10⁻⁵),在 A100 GPU 上以 batch size 等于 6 进行优化,最终形成具备全面评估 UGC 视频质量的教师模型。


  1. 伪标签生成​:该模型对 3 万条闭源 UGC 视频进行自动标注,生成覆盖模糊、噪声、伪影等混合失真的质量评分数据集,为轻量化学生模型训练奠定基础。


第二阶段:高效学生模型的蒸馏训练。基于教师模型输出的伪标签,团队构建了部署友好的轻量化评估方案:


  1. 帧级知识迁移​:针对一个视频提取其关键帧,采用 224×224 分辨率随机裁剪策略增强数据多样性,同时每一帧的分数被标注为对应视频的分数。创新性地采用分层特征拼接技术,将 Swin-T 网络各层级特征拼接起来达到评估多尺度物体质量的能力。在训练过程中学生网络的训练目标是输出结果与教师标签对齐,保留多尺度质量感知能力。


  1. 优化加速设计​:相比教师模型将 batch size 设置为 6,学生模型采用 64 batch size 并行训练(学习率 1×10⁻³),训练损失函数为 PLCC 以及 SRCC 的和。最终学生模型参数量仅为 33.01M,且推理过程中对一个视频仅需 47.39GFLOPs,但保持与教师网络 90%以上的评估准确率。


技术突破与产业价值。该方案通过三大创新点推动技术边界:


  1. 融合多模态大模型的​混合特征工程:将除了视觉特征以外的多模态大模型特征与多种传统骨干网络特征融合,设计了一个全面的针对 UGC 视频的教师网络,提升了对典型失真(如手抖模糊,伪影)的检测灵敏度。


  1. 动态蒸馏策略​:通过知识蒸馏机制,解决了学生网络在更细粒度维度评分不稳定的问题,使学生模型预测分与 MOS 预测误差低于 0.5。


  1. 轻量化适配优化​:支持从 4K 超清到 540P 低分辨率的全链路评估,在继承多模态大模型网络能力的前提下大幅降低模型参数量以及计算量,为短视频平台内容审核提供落地支持。

 

总结


团队创新性地融合多模态大模型(MLLM)与多种传统骨干网络融合的策略与蒸馏技术,在 NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA 赛道以显著优势夺冠。该方案通过构建基于 MLLM 教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。

 

团队介绍


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长

2025-04-15 17:595087

评论

发布
暂无评论

令人头秃的js隐式转换面试题,你能做对吗

loveX001

JavaScript

最近美团前端面试题目整理

loveX001

JavaScript

7:数据库设计思维-MySQL

Yeats_Liao

数据库 后端 10月月更

前端react面试题(边面边更)

beifeng1996

React

React源码分析8-状态更新的优先级机制

goClient1992

React

MobTech 修改已审核通过的秒验产品信息

MobTech袤博科技

开发者 sdk 秒验 手机验证码认证

从这两道题重新理解,JS的this、作用域、闭包、对象

loveX001

JavaScript

4:数据操作-MySQL

Yeats_Liao

数据库 后端 10月月更

非父子组件之间的通信方式与mitt库🔥

渔戈

前端 Vue3 10月月更

鸿蒙开发实例 | ArkUI JS飞机大战游戏开发

TiAmo

华为 鸿蒙 10月月更

OKR之剑·理念篇04:让OKR轻松上阵

vivo互联网技术

团队管理 OKR

Redis数据结构(二)-List、Hash、Set及Sorted Set的结构实现

京东科技开发者

数据库 redis List 数据结构 hash

安全沙箱隔离企业风险

Geek_99967b

小程序

6:列属性完整性-MySQL

Yeats_Liao

数据库 后端 10月月更

你真的了解过插槽Slot吗🔥

渔戈

前端 Vue3 10月月更

基于OneNet平台设计的多节点温度采集系统-有人云4G模块+STM32

DS小龙哥

10月月更

final、finally、 finalize 有什么不同?

共饮一杯无

Java final 10月月更

你是如何使用React高阶组件的?

beifeng1996

React

HarmonyOS 3首批正式版开始推送

极客天地

【web 开发基础】PHP 的流程控制之双向条件分支结构 -PHP 快速入门 (13)

迷彩

10月月更 web开发基础 PHP基础 分支结构 双向条件分支结构

8:单表查询-MySQL

Yeats_Liao

数据库 后端 10月月更

Hash Map源码分析(八)

知识浅谈

hashmap 10月月更

python爬取csdn个人首页信息以及博客

木偶

Python 爬虫 10月月更

SpringCloud-02 Eureka学习笔记

游坦之

10月月更

SpringCloud-03 Netflix Ribbon学习笔记

游坦之

10月月更

5:数据类型-MySQL

Yeats_Liao

数据库 后端 10月月更

面试官:谈谈你知道的DOM常见的操作

CoderBin

JavaScript 面试 前端 DOM 10月月更

React源码分析7-state计算流程和优先级

goClient1992

React

动态组件、异步组件以及生命周期和v-model🔥

渔戈

前端 Vue3 10月月更

手写一个Redux,深入理解其原理-面试进阶

beifeng1996

React

SAP CAP 项目 cds watch 生成的 index.html 的模板位置和权限控制

汪子熙

云原生 CAP Cloud SAP 10月月更

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一_生成式 AI_火山引擎_InfoQ精选文章