AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

CVPR 2025 | 火山引擎获得 NTIRE 视频质量评价挑战赛全球第一

  • 2025-04-15
    北京
  • 本文字数:2775 字

    阅读完需:约 9 分钟

大小:1.44M时长:08:21
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2025 NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在 NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA 赛道以显著优势夺冠。基于能力强大的多模态大模型,团队方案成功构建了评估精度、计算效率俱优的画质评价模型,为大模型能力的利用提供了可行参考范式。



本次“SharpMind”参加的 CVPR 2025 NTIRE 视频质量评估赛道,吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。夺冠方案通过构建基于 MLLM 教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。



具体比赛细节和排名可以参考比赛官网:https://codalab.lisn.upsaclay.fr/competitions/21335

 

赛事介绍


CVPR NTIRE(New Trends in Image Restoration and Enhancement)大赛是计算机视觉领域顶会 CVPR 旗下「最具影响力的国际学术竞赛之一」,素有“影像算法奥林匹克”之称。该赛事聚焦视频复原、增强、生成技术及质量评估等底层视觉任务,旨在推动技术突破并解决实际应用难题。本次 VQA 赛道相关信息如下:


  • 内容:赛道一沿用大型短视频质量评价数据集 KVQ,该数据集由快手公司授权采集,联合高校智能媒体实验室(IMCL)进行数据集标注和标准化。包含风景、人群、食物、肖像等 9 个内容场景,其中每个内容比例按照快手短视频平台在线统计量制定, 共计 4200 个短视频。


  • 要求:为提升短视频质量评价模型效率,提升算法的实用性,今年比赛将限制短视频质量评价模型,单视频运行计算开销上限为 120GFlops。鼓励参赛选手使用蒸馏、剪枝等手段对大模型进行加速。

 

研究背景


短视频 UGC 画质评价的研究背景源于移动互联网时代用户生成内容的爆炸式增长与质量评估的复杂性挑战。由于非专业拍摄设备(如手机)的物理限制、动态拍摄环境(如低光照、运动模糊)以及后期处理流程(如过度锐化、多次压缩)的叠加效应,UGC 视频普遍存在混合失真(如块效应、噪声、伪影等),且缺乏高质量参考源,导致传统全参考评价指标(如 PSNR、SSIM)难以准确拟合人眼主观感受。


此外,UGC 内容的多样性(如横竖屏、特效贴纸、二创素材)进一步加剧了失真类型与语义场景的耦合性,例如用户可能更关注主体清晰度而非背景噪声,这要求算法需同时建模技术失真与内容美学特征。

其研究重要性体现在两方面:一是用户体验优化,画质评分直接影响平台内容分发效率与用户留存率,例如通过算法量化视频质量,为推荐系统提供画质权重;二是技术突破需求,UGC 画质评价需解决无参考场景下的泛化性问题,如火山引擎 VQScore 通过细分归因指标(噪声、过曝等)和增强评估(超分质量)构建全链路画质优化闭环,显著提升了跨场景评估的鲁棒性。


当前研究趋势正探索多模态大模型强大能力的迁移和应用,以应对 AIGC 时代的新型失真挑战,并进一步提升相关算法的准确性、鲁棒性。

 

方案概述


针对用户生成内容(UGC)视频质量评估的复杂挑战,研究团队提出了一种基于"教师-学生"知识蒸馏的创新框架。该方案通过两阶段训练机制,在保持高精度评估能力的同时实现模型轻量化,有效解决了传统方法在无参考场景下的泛化性难题。



第一阶段:多模态特征融合的教师模型构建。团队首先设计了一个强大的教师模型(包含 MLLM 多模态大模型以及多种强大的骨干网络),通过多维度的特征提取全面捕捉 UGC 视频的质量特性:


  1. 多骨干特征提取​:利用 DeQA 从多模态大模型中提取 Quality-Aware 特征,采用 SlowFast 网络提取时空运动特征,结合 FAST-VQA 分析局部区域失真,并根据 LIQE 针对不同维度建立视频帧与文本的关联。考虑到人眼视觉系统特性在 UGC 视频的重要性,团队特别引入 HVS-5M 模型提取边缘掩蔽等特征,模拟人类视觉系统对边缘丰富区域敏感的特性。


  1. 特征融合架构​:将视频的关键帧调整为 384×384 的分辨率并给一个端到端可学习的 Swin-B 网络提取关键帧特征并与上述骨干特征拼接,通过两层 MLP 实现特征降维,通过这种方式引入一部分可学习参数弥补冻结骨干网络提取特征的缺陷。训练采用 Adam 优化器(学习率 1×10⁻⁵),在 A100 GPU 上以 batch size 等于 6 进行优化,最终形成具备全面评估 UGC 视频质量的教师模型。


  1. 伪标签生成​:该模型对 3 万条闭源 UGC 视频进行自动标注,生成覆盖模糊、噪声、伪影等混合失真的质量评分数据集,为轻量化学生模型训练奠定基础。


第二阶段:高效学生模型的蒸馏训练。基于教师模型输出的伪标签,团队构建了部署友好的轻量化评估方案:


  1. 帧级知识迁移​:针对一个视频提取其关键帧,采用 224×224 分辨率随机裁剪策略增强数据多样性,同时每一帧的分数被标注为对应视频的分数。创新性地采用分层特征拼接技术,将 Swin-T 网络各层级特征拼接起来达到评估多尺度物体质量的能力。在训练过程中学生网络的训练目标是输出结果与教师标签对齐,保留多尺度质量感知能力。


  1. 优化加速设计​:相比教师模型将 batch size 设置为 6,学生模型采用 64 batch size 并行训练(学习率 1×10⁻³),训练损失函数为 PLCC 以及 SRCC 的和。最终学生模型参数量仅为 33.01M,且推理过程中对一个视频仅需 47.39GFLOPs,但保持与教师网络 90%以上的评估准确率。


技术突破与产业价值。该方案通过三大创新点推动技术边界:


  1. 融合多模态大模型的​混合特征工程:将除了视觉特征以外的多模态大模型特征与多种传统骨干网络特征融合,设计了一个全面的针对 UGC 视频的教师网络,提升了对典型失真(如手抖模糊,伪影)的检测灵敏度。


  1. 动态蒸馏策略​:通过知识蒸馏机制,解决了学生网络在更细粒度维度评分不稳定的问题,使学生模型预测分与 MOS 预测误差低于 0.5。


  1. 轻量化适配优化​:支持从 4K 超清到 540P 低分辨率的全链路评估,在继承多模态大模型网络能力的前提下大幅降低模型参数量以及计算量,为短视频平台内容审核提供落地支持。

 

总结


团队创新性地融合多模态大模型(MLLM)与多种传统骨干网络融合的策略与蒸馏技术,在 NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA 赛道以显著优势夺冠。该方案通过构建基于 MLLM 教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。

 

团队介绍


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长

2025-04-15 17:595371

评论

发布
暂无评论

9秒被骗245万元?AI火了,骗子也来了!

引迈信息

AI 低代码 JNPF AI诈骗

悦数图数据库:图 + AI 在金融行业的应用及技术前瞻

悦数图数据库

AI 金融 图数据库实战

解读科学计算助力行业高质量发展|2023开放原子全球开源峰会科学智能分论坛即将启幕

开放原子开源基金会

人工智能 开源 开放原子 科学智能

通义千问预体验,如何让 AI 模型应用“奔跑”在函数计算上?

阿里巴巴云原生

阿里云 云原生 函数计算

企业出海,全球合并有高招!

用友BIP

中企出海

财务共享中心搭建以后,如何进行精细化管理?

用友BIP

财务共享

ChatGPT应用助推跨境电商发展,低代码凭啥不行?!

加入高科技仿生人

低代码 跨境电商 ChatGPT JNPF

开源教育与人才|2023开放原子全球开源峰会开源教育和人才分论坛即将启幕

开放原子开源基金会

开源 开放原子 教育与人才

对线面试官-线程池(二)

派大星

Java 面试题

【活动回顾】Databend 数据库表达式框架设计与实现 @GOTC

Databend

恒参信道特性及其对信号传输的影响

timerring

信息论

软件测试/测试开发丨Selenium Web浏览器控制

测试人

程序员 软件测试 自动化测试 测试开发

中核集团财务共享迈上新台阶

用友BIP

财务共享

单卡轻松打造 ChatGPT 竞争者“原驼”,QLoRA 革新大语言模型微调技术

Zilliz

openai AIGC Towhee ChatGPT

共建、共享开源EDA共性技术框架 | 2023开放原子全球开源峰会开源EDA分论坛即将启幕

开放原子开源基金会

开源 EDA 开放原子

信道的数学模型

timerring

信息论

2023数字政府高质量发展论坛在京召开

信通院IOMM数字化转型团队

数字化转型 数字政府 IOMM 政府数字化转型

wireshark分析tcp传输之文件上传速率问题

蓝胖子的编程梦

TCP 网络 Wireshark tcpdump 抓包

累计下载破 10 万,阿里云 ACR 制品中心 5 月最受欢迎镜像排行榜

阿里巴巴云原生

阿里云 阿里云云原生 容器镜像服务

开源数据库迎来技术创新拐点|2023开放原子全球开源峰会开源数据库分论坛即将启幕

开放原子开源基金会

数据库 开源 开放原子

软件测试/测试开发丨接口测试实战学习笔记

测试人

程序员 软件测试 自动化测试 接口测试 测试开发

Web3 游戏的用户留存的挑战与机遇:从经济模型与游戏设计谈起

Footprint Analytics

区块链游戏 web3 web3游戏

聊点技术 | 可观测性十问十答

博睿数据

可观测性 智能运维 博睿数据 发展趋势 聊点技术

火山引擎A/B测试:MAB智能调优实验,企业活动效果提升新利器

字节跳动数据平台

AB testing实战 A/B 测试

轻松掌握,板对板连接器选型指南

元器件秋姐

电路 元器件 PCB 连接器 PCB设计

活动回顾丨首期阿里云 Serverless 技术创新实战营上海开讲(含 PPT 下载)

阿里巴巴云原生

阿里云 Serverless 云原生

为什么 AIGC 和大模型创业者都在安利向量数据库?

Zilliz

Milvus AIGC 向量数据库 zillizcloud

展望开源产业与数字经济未来|2023开放原子全球开源峰会开源创新理论与实践分论坛即将启幕

开放原子开源基金会

开源 开放原子

多数据中心助力中企出海全球化经营

用友BIP

中企出海

中企出海,全球供应链业务如何更有效地经营?

用友BIP

中企出海 全球供应链

推动科技教育普惠|2023开放原子全球开源峰会校源行分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一_生成式 AI_火山引擎_InfoQ精选文章