硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

火山引擎蝉联全国人工智能大赛 — AI+ 增强视频质量评价冠军

  • 2025-05-14
    北京
  • 本文字数:2023 字

    阅读完需:约 7 分钟

大小:1017.08K时长:05:47
火山引擎蝉联全国人工智能大赛 — AI+增强视频质量评价冠军

近期,第 5 届全国人工智能大赛 NAIC(National Artificial Intelligence Challenge)圆满落幕。火山引擎多媒体实验室团队同学组成“SharpMind”小组,提出的“High-resolution video quality assessment based on degraded multi-task learning”算法荣获 AI+增强视频质量评价赛道冠军,算法性能以显著优势排名第一,成功蝉联冠军!



本次夺冠的“AI+增强视频质量评价赛道”吸引了 1400+支队伍参加,涵盖了头部企业、知名院校和科研机构。多媒体实验室的夺冠方案“通过引入退化任务,有效强化了模型对增强损伤类型和程度的判别能力,并对高分辨率输入针对性优化输入模式和模型结构,以极低的计算代价实现了对增强 PGC 视频质量的有效评估,成功蝉联赛道冠军”。

具体比赛细节和排名可以参考比赛官网:https://app-kyxt.pcl.ac.cn/competitions/detail/src6vogj


赛事介绍

全国人工智能大赛(NAIC)自 2019 年创办以来,已成为全球 AI 领域最具影响力的顶级赛事之一。大赛聚焦前沿科研与产业难题,汇聚全球顶尖创新力量,竞争异常激烈——四届赛事累计吸引来自 20 多个国家的 2 万余支高水平团队同台竞技,其中包括来自顶尖高校、科研机构和科技巨头的精英团队。赛事构建了五大百万级高质量数据集,成为推动 AI 技术突破的重要标杆。


2025 年第五届大赛进一步升级,设立“AI+增强视频质量评价”“AI+图像编码”“AI+数智创新”三大前沿赛道,挑战全球选手在算法创新、技术落地等维度的极限。历届赛事不仅催生多项突破性研究成果,更成为全球 AI 人才展示实力、争夺技术制高点的关键舞台。

研究背景

增强视频是指将低质量的老旧视频增强到更高分辨率、更高亮度动态范围、更广色度范围、更高帧率以及更高比特数后的视频。增强生成后的视频在图像清晰度、彩色自然度、亮度对比度、流畅度等维度有显著提升,可以为用户提供更加真实生动的视觉享受和更好的用户体验。


目前视频增强算法还不够成熟,增强生成后的视频与超高清视频的质量要求还有一定的距离,不能满足视听领域高清产业的需求。视频增强修复领域急需要能对增强修复后的视频质量进行智能、准确、有效的评价方法。但是现有的图像质量评价算法都是基于降质视频图像研发的,例如压缩图像等,直接用于增强和修复视频其评测结果与主观感知质量存在差异较大,这也在一定程度上阻碍了增强视频生成算法质量的进一步提升和应用发展。

方案概述

针对增强超高清视频独特的失真特性,提出“High-resolution video quality assessment based on degraded multi-task learning”算法。整体方案包含“退化样本构建策略、基于帧裁块和片段的网络输入模式、多层级特征融合”3 个核心技术点,方案框图如下所示:

1.退化样本构建策略

在对原超高清视频进行一系列增强算法后会引入许多不同程度和类型的失真,为了模拟这个过程并强化模型辨认不同增强失真的能力,本文提出一种基于退化的多任务学习训练策略,其过程如图所示,首先通过分析选取了三种类型的增强失真,包括交错失真(Interlace),超分失真(Resize),Jpge 压缩失真(Jpge compression)。在训练过程中,对原视频帧施加某一种类型的随机失真,并对其进行不同程度的处理。通过“原始输入的分数预测任务(Smooth L1 Loss)、退化前后的画质优劣关系判别任务(Margin Rank Loss)”,实现多任务联合优化。

2.基于帧裁块和片段的网络输入模式

为了避免调整分辨率(Resize)导致局部失真细节的损失并保留一定程度的语义信息,首先在原图上截取与原分辨率相同长宽比的块输入网络。其次,进一步考虑更大尺度下的语义信息,将原视频帧通过切块和组合拼接为片段输入另一个网络。

3.多层级特征融合模块

借鉴学术界多个 SOTA 方案的特征融合思路,设计了多层级特征融合模块,将 模型中特征提取器输出的四阶段特征进行全局平均池化后拼接融合,最终得到的拼接特征输入质量回归模块生成预测分数。该融合模式有效聚合了多尺度信息,使模型预测性能获得大幅提升。

总结

团队创新性地提出了“High-resolution video quality assessment based on degraded multi-task learning”方案,在 NAIC 2025 AI+增强视频质量评价赛道以显著优势夺冠。该夺冠方案“通过引入退化任务,有效强化了模型对增强损伤类型和程度的判别能力,并对高分辨率输入针对性优化输入模式和模型结构,以极低的计算代价实现了对增强 PGC 视频质量的有效评估,成功蝉联赛道冠军”。

团队介绍

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长


2025-05-14 16:354173
用户头像

发布了 31 篇内容, 共 32.1 次阅读, 收获喜欢 21 次。

关注

评论

发布
暂无评论

随笔丨唯有超越范式

阿星AI工作室

学习 AI 思考 工具 思维

YashanDB数据库支持多云环境的部署优势分析

数据库砖家

AI 赋能热更新技术:从效率工具到智能生态的进阶

xuyinyin

暴力拓客游戏小程序:助力商家高效引流与裂变的智能解决方案

微擎应用市场

双碳不是 “选择题”:EMS 让中小制造企业也能 “零成本启动减碳”

开源能源管理系统

开源 能源管理系统

Qwen3-Omni发布:端到端全模态Thinker-Talker架构;Meta真实世界智能体基准Kimi K2开源最佳|日报

声网

YashanDB数据库智能分析功能的实现原理与应用价值

数据库砖家

YashanDB 是一个多功能的数据库管理系统

数据库砖家

从云到端:英特尔展示全栈AI能力,覆盖云、边、PC多场景

科技热闻

华为新品发布会迎来首款鸿蒙智慧屏!全新应用市场为您发现精品应用

最新动态

新活动抽奖小程序系统:开启高效互动新体验

微擎应用市场

星云架构全景图解:从服务引擎到渲染层的组件流转路径

星云低代码中间件

低代码 中间件 开发工具 数字化 业务系统

KWDB MVP 计划正式启动!速来加入!

KaiwuDB

数据库

YashanDB数据库支持多语言环境的国际化策略分析

数据库砖家

YashanDB数据库智能运维平台的构建与应用实践

数据库砖家

腾讯专有云TCE全新升级,公私同源+软硬开放+高可用性助力企业智算提速

极客天地

快微同城小程序管理系统:打造专属同城综合信息服务平台

微擎应用市场

YashanDB数据库智能索引技术及查询性能提升

数据库砖家

YashanDB数据库智能查询优化系统

数据库砖家

HashData Lightning 2.0:构建下一代智能企业数据基础设施

酷克数据HashData

YashanDB数据库支持实时流数据处理的核心优势

数据库砖家

YashanDB数据库支持混合云环境的部署优势与策略

数据库砖家

云栖2025 | 阿里云自研大数据平台ODPS 重磅升级:全面支持AI计算和服务

阿里云大数据AI技术

大数据 阿里云 AI ODPS

设施管理是干什么的?-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

多语言环境中使用 YashanDB

数据库砖家

如何分辨住宅 IP 与数据中心 IP ?

kookeey严选代理

数据中心 住宅ip 海外代理IP

YashanDB数据库中SQL优化的核心技巧解析

数据库砖家

唯品会商品列表API全解析:从搜索条件到分页查询的实战指南

tbapi

唯品会商品数据采集 唯品会API 唯品会商品列表接口 唯品会商品数据分析

扫码签到赢大奖小程序:助力多场景获客的智能工具

微擎应用市场

舆情监测的全球拼图:海外社交媒体监控如何补全战略视野

沃观Wovision

社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

YashanDB数据库智能分片技术研究与实践总结

数据库砖家

火山引擎蝉联全国人工智能大赛 — AI+增强视频质量评价冠军_云原生_火山引擎_InfoQ精选文章