首届AICon深圳正式启动|AI实践哪家强?来 AICon,解锁技术前沿,探寻产业新机! 了解详情
写点什么

ECCV 2024|有效提高盲视频去闪烁的新方法——BlazeBVD

作者:美图影像实验室

  • 2024-07-22
    北京
  • 本文字数:2177 字

    阅读完需:约 7 分钟

大小:1.10M时长:06:26
ECCV 2024|有效提高盲视频去闪烁的新方法——BlazeBVD

近年,短视频生态的赛道迅猛崛起,围绕短视频而生的创作编辑工具在不断涌现,美图公司旗下专业手机视频编辑工具——Wink,凭借独创的视频画质修复能力独占鳌头,海内外用户量持续攀升。Wink 画质修复功能火爆的背后,是美图在视频编辑应用需求加速释放背景下,对用户视频画面模糊不清、噪点严重、画质低等视频创作痛点的洞察,与此同时,也建立在美图影像研究院(MT Lab)强有力的视频修复与视频增强技术支持下,目前已推出画质修复-高清、画质修复-超清、画质修复-人像增强、分辨率提升等功能。日前,美图影像研究院(MT Lab)联合中国科学院大学更突破性地提出了基于 STE 的盲视频去闪烁(blind video deflickering, BVD)新方法 BlazeBVD,用于处理光照闪烁退化未知的低质量视频,尽可能保持原视频内容和色彩的完整性,已被计算机视觉顶会 ECCV 2024 接收。



论文链接:https://arxiv.org/pdf/2403.06243v1

 

BlazeBVD 针对的是视频闪烁场景,视频闪烁容易对时间一致性造成影响,而时间一致性是高质量视频输出的必要条件,即使是微弱的视频闪烁也有可能严重影响观看体验。究其原因,一般是由拍摄环境不佳和拍摄设备的硬件限制所引起,而当图像处理技术应用于视频帧时,这个问题往往进一步加剧。此外,闪烁伪影和色彩失真问题在最近的视频生成任务中也经常出现,包括基于生成对抗网络(GAN)和扩散模型(DM)的任务。因此在各种视频处理场景中,探索通过 Blind Video Deflickering (BVD)来消除视频闪烁并保持视频内容的完整性至关重要。

 

BVD 任务不受视频闪烁原因和闪烁程度的影响,具有广泛的应用前景,目前对此类任务的关注,主要包括老电影修复、高速相机拍摄、色彩失真处理等与视频闪烁类型、闪烁程度无关的任务,以及仅需在单个闪烁视频上操作,而不需要视频闪烁类型、参考视频输入等额外指导信息的任务。此外,BVD 现主要集中在传统滤波、强制时序一致性和地图集等方法,所以尽管深度学习方法在 BVD 任务中取得了重大进展,但由于缺乏先验知识,在应用层面上受到较大阻碍,BVD 仍然面临诸多挑战。


BlazeBVD: 有效提高盲视频去闪烁效果

 

受经典的闪烁去除方法尺度时间均衡(scale-time equalization, STE)的启发,BlazeBVD 引入了直方图辅助解决方案。图像直方图被定义为像素值的分布,它被广泛应用于图像处理,以调整图像的亮度或对比度,给定任意视频,STE 可以通过使用高斯滤波平滑直方图,并使用直方图均衡化校正每帧中的像素值,从而提高视频的视觉稳定性。虽然 STE 只对一些轻微的闪烁有效,但它验证了:

(1)直方图比像素值紧凑得多,可以很好地描绘光亮和闪烁信息。

(2)直方图序列平滑后的视频在视觉上没有明显的闪烁。


因此,利用 STE 和直方图的提示来提高盲视频去闪烁的质量和速度是可行的。

 

BlazeBVD 通过对这些直方图进行平滑处理,生成奇异帧集合、滤波光照图和曝光掩码图,可以在光照波动和曝光过度或不足的情况下实现快速、稳定的纹理恢复。与以往的深度学习方法相比,BlazeBVD 首次细致地利用直方图来降低 BVD 任务的学习复杂度,简化了学习视频数据的复杂性和资源消耗,其核心是利用 STE 的闪烁先验,包括用于指导消除全局闪烁的滤波照明图、用于识别闪烁帧索引的奇异帧集,以及用于识别局部受过曝或过暗影响的区域的曝光图。

 

与此同时,利用闪烁先验,BlazeBVD 结合了一个全局闪烁去除模块(GFRM)和一个局部闪烁去除模块(LFRM),有效地矫正了个别相邻帧的全局照明和局部曝光纹理。此外,为了增强帧间的一致性,还集成了一个轻量级的时序网络(TCM),在不消耗大量时间的情况下提高了性能。



图 1:BlazeBVD 方法与已有方法在盲视频去闪烁任务上的结果对比

 

具体而言,BlazeBVD 包括三个阶段:

首先,引入 STE 对视频帧在光照空间下的直方图序列进行校正,提取包括奇异帧集、滤波后的光照图和曝光图在内的闪烁先验。

其次,由于滤波后的照明映射具有稳定的时间性能,它们将被用作包含 2D 网络的全局闪烁去除模块(GFRM)的提示条件,以指导视频帧的颜色校正。另一方面,局部闪烁去除模块(LFRM)基于光流信息来恢复局部曝光图标记的过曝或过暗区域。

最后,引入一个轻量级的时序网络(TCM)来处理所有帧,其中设计了一个自适应掩模加权损失来提高视频一致性。


通过对合成视频、真实视频和生成视频的综合实验,展示了 BlazeBVD 优越的定性和定量结果,实现了比最先进的模型推理速度快 10 倍的模型推理速度。 

 


图 2:BlazeBVD 的训练和推理流程

实验结果


大量的实验表明,盲视频闪烁任务的通用方法——BlazeBVD,在合成数据集和真实数据集上优于先前的工作,并且消融实验也验证了 BlazeBVD 所设计模块的有效性。

 


表 1:与基线方法的量化对比



图 3:与基线方法的可视化对比



图 4:消融实验

以影像科技助力生产力

 

该论文提出了一种用于盲视频闪烁任务的通用方法 BlazeBVD,利用 2D 网络修复受光照变化或局部曝光问题影响的低质量闪烁视频。其核心是在照明空间的 STE 滤波器内预处理闪烁先验;再利用这些先验,结合全局闪烁去除模块(GFRM)和局部闪烁去除模块(LFRM),对全局闪烁和局部曝光纹理进行校正;最后,利用轻量级的时序网(TCM)提高视频的相干性和帧间一致性,此外在模型推理方面也实现了 10 倍的加速。

 

作为中国影像与设计领域的探索者,美图不断推出便捷高效的 AI 功能,为用户带来创新服务和体验,美图影像研究院(MT Lab)作为核心研发中枢,将持续迭代升级 AI 能力,为视频创作者提供全新的视频创作方式,打开更广阔的天地。

2024-07-22 16:166483

评论

发布
暂无评论
发现更多内容

618 技术特辑(二)几百万人同时下单的秒杀,为什么越来越容易抢到了

华为云开发者联盟

数据库 服务器 流量 618 弹性负载均衡

校友会小程序开发笔记四:UI基本元素设计

CC同学

小程序云开发

Bzz节点分币系统开发,云算力矿机租赁系统搭建

拍乐云受邀2021亚太CDN峰会,技术创新赋能行业新价值

拍乐云Pano

RTC

开发者如何构建技术影响力

不脱发的程序猿

程序人生 开发者如何构建技术影响力 技术影响力

5W1H聊开源之Who/When/Where——谁在何时何地“发明”了开源?

禅道项目管理

Linux 开源 软件

【LeetCode】石子游戏Java题解

Albert

算法 LeetCode 6月日更

校友会小程序开发笔记一:背景与技术方案的选型

CC同学

小程序云开发 校友录小程序 校友会小程序

可视化协助矿山,打造“高效率运营战略”,年降成本500W

一只数据鲸鱼

数据可视化 工业4.0 智慧矿山

公安情报研判分析系统解决方案,合成作战系统搭建

分布式能解决一切问题吗?百度架构师为你解答架构真正奥义!

Java架构师迁哥

MySQL中的pid与socket是什么?

Simon

MySQL

6月26日,HarmonyOS开发者日将于杭州举办

科技汇

凭这份pdf每天花2小时学习,3个月后拿下阿里/美团/京东等offer

Java 程序员 架构 面试

谁说双非本就一定无缘阿里!(四年crud经验已拿下P7)面经分享

Java 程序员 架构 面试 计算机

阿里云视频云 Retina 多媒体 AI 体验馆开张啦!

阿里云CloudImagine

阿里云 短视频 视频处理 媒体处理 视频制作

🌏【架构师指南】分布式技术知识点总结(上)

码界西柚

分布式 raft协议 paxos协议 6月日更

测试工程师如何收拾交接项目的烂摊子

陈磊@Criss

测试

针对 MySQL IO 特点进行的存储优化揭秘

焱融科技

MySQL 技术 分布式 高性能 文件存储

校友会小程序开发笔记二:功能需求设计

CC同学

小程序云开发 校友录小程序 校友会小程序

校友会小程序开发笔记三:数据库设计

CC同学

小程序云开发 校友录小程序 校友会小程序

[译] 规避供应商以及特定版本的 VM Bugs

Antway

6月日更

项目经理如何有效管理需求变更?

万事ONES

需求管理 ONES 项目经理

JAVA笔记(三)--变量及运算符

加百利

Java 程序员 后端 6月日更

译文 | AI产品经理:如何打造一款SaaS+AI的优质产品

LigaAI

产品经理 研发管理

618 技术特辑(一)不知不觉超预算3倍,你为何买买买停不下来?

华为云开发者联盟

电商 图数据库 知识图谱 618 图引擎服务

JavaScript 学习(三)

空城机

JavaScript 大前端 6月日更

教你两招,解决数据膨胀

华为云开发者联盟

数据 GaussDB(DWS) VACUUM 数据膨胀 FSM

详解 Go 程序的启动流程,你知道 g0,m0 是什么吗?

煎鱼

Java php 后端 Go 语言

pprof排查Golang服务内存问题

循环智能

pprof 性能分析 Go 语言

新思科技宣布收购 Code Dx公司 添加软件漏洞关联、优先级和合并风险报告

InfoQ_434670063458

新思科技

ECCV 2024|有效提高盲视频去闪烁的新方法——BlazeBVD_计算机视觉_InfoQ精选文章