
近期,第 5 届全国人工智能大赛 NAIC(National Artificial Intelligence Challenge)圆满落幕。火山引擎多媒体实验室团队同学组成“SharpMind”小组,提出的“High-resolution video quality assessment based on degraded multi-task learning”算法荣获 AI+增强视频质量评价赛道冠军,算法性能以显著优势排名第一,成功蝉联冠军!



本次夺冠的“AI+增强视频质量评价赛道”吸引了 1400+支队伍参加,涵盖了头部企业、知名院校和科研机构。多媒体实验室的夺冠方案“通过引入退化任务,有效强化了模型对增强损伤类型和程度的判别能力,并对高分辨率输入针对性优化输入模式和模型结构,以极低的计算代价实现了对增强 PGC 视频质量的有效评估,成功蝉联赛道冠军”。

具体比赛细节和排名可以参考比赛官网:https://app-kyxt.pcl.ac.cn/competitions/detail/src6vogj
赛事介绍
全国人工智能大赛(NAIC)自 2019 年创办以来,已成为全球 AI 领域最具影响力的顶级赛事之一。大赛聚焦前沿科研与产业难题,汇聚全球顶尖创新力量,竞争异常激烈——四届赛事累计吸引来自 20 多个国家的 2 万余支高水平团队同台竞技,其中包括来自顶尖高校、科研机构和科技巨头的精英团队。赛事构建了五大百万级高质量数据集,成为推动 AI 技术突破的重要标杆。
2025 年第五届大赛进一步升级,设立“AI+增强视频质量评价”“AI+图像编码”“AI+数智创新”三大前沿赛道,挑战全球选手在算法创新、技术落地等维度的极限。历届赛事不仅催生多项突破性研究成果,更成为全球 AI 人才展示实力、争夺技术制高点的关键舞台。
研究背景
增强视频是指将低质量的老旧视频增强到更高分辨率、更高亮度动态范围、更广色度范围、更高帧率以及更高比特数后的视频。增强生成后的视频在图像清晰度、彩色自然度、亮度对比度、流畅度等维度有显著提升,可以为用户提供更加真实生动的视觉享受和更好的用户体验。
目前视频增强算法还不够成熟,增强生成后的视频与超高清视频的质量要求还有一定的距离,不能满足视听领域高清产业的需求。视频增强修复领域急需要能对增强修复后的视频质量进行智能、准确、有效的评价方法。但是现有的图像质量评价算法都是基于降质视频图像研发的,例如压缩图像等,直接用于增强和修复视频其评测结果与主观感知质量存在差异较大,这也在一定程度上阻碍了增强视频生成算法质量的进一步提升和应用发展。
方案概述
针对增强超高清视频独特的失真特性,提出“High-resolution video quality assessment based on degraded multi-task learning”算法。整体方案包含“退化样本构建策略、基于帧裁块和片段的网络输入模式、多层级特征融合”3 个核心技术点,方案框图如下所示:

1.退化样本构建策略
在对原超高清视频进行一系列增强算法后会引入许多不同程度和类型的失真,为了模拟这个过程并强化模型辨认不同增强失真的能力,本文提出一种基于退化的多任务学习训练策略,其过程如图所示,首先通过分析选取了三种类型的增强失真,包括交错失真(Interlace),超分失真(Resize),Jpge 压缩失真(Jpge compression)。在训练过程中,对原视频帧施加某一种类型的随机失真,并对其进行不同程度的处理。通过“原始输入的分数预测任务(Smooth L1 Loss)、退化前后的画质优劣关系判别任务(Margin Rank Loss)”,实现多任务联合优化。
2.基于帧裁块和片段的网络输入模式
为了避免调整分辨率(Resize)导致局部失真细节的损失并保留一定程度的语义信息,首先在原图上截取与原分辨率相同长宽比的块输入网络。其次,进一步考虑更大尺度下的语义信息,将原视频帧通过切块和组合拼接为片段输入另一个网络。
3.多层级特征融合模块
借鉴学术界多个 SOTA 方案的特征融合思路,设计了多层级特征融合模块,将 模型中特征提取器输出的四阶段特征进行全局平均池化后拼接融合,最终得到的拼接特征输入质量回归模块生成预测分数。该融合模式有效聚合了多尺度信息,使模型预测性能获得大幅提升。
总结
团队创新性地提出了“High-resolution video quality assessment based on degraded multi-task learning”方案,在 NAIC 2025 AI+增强视频质量评价赛道以显著优势夺冠。该夺冠方案“通过引入退化任务,有效强化了模型对增强损伤类型和程度的判别能力,并对高分辨率输入针对性优化输入模式和模型结构,以极低的计算代价实现了对增强 PGC 视频质量的有效评估,成功蝉联赛道冠军”。
团队介绍
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长
评论