大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

深度拆解:CVPR 2024 CAMixerSR 动态注意力分配的超分辨率加速框架

火山引擎多媒体实验室

  • 2024-03-05
    北京
  • 本文字数:1798 字

    阅读完需:约 6 分钟

深度拆解:CVPR 2024 CAMixerSR 动态注意力分配的超分辨率加速框架

随着相关技术和应用的发展,比如超高清屏幕、虚拟现实(VR)等沉浸式体验的增加,用户对超高分辨率图像和视频的需求变得越来越强烈。在这些场景中,图像的质量和清晰度对于提供最佳的用户体验至关重要。超高分辨率不仅能提供更清晰、更真实的视觉效果,还能在一定程度上增强人们的互动和沉浸感,在一些 VR 场景中我们需要 8K 甚至 16K 的才可以满足需求。然而要生成或者处理这些超高分辨率的内容,对算力的要求也是与日增长,对相关算法提出了挑战。


超分辨率是一个经典的计算机底层视觉问题,该问题要解决的是通过低分辨率的图像输入,获得高分辨率的图像输出。目前该领域的算法模型主要是有 CNN 以及 Transformer 两大类别,考虑到实际的应用场景,超分的一个细分领域方向是算法的轻量化。在上述提到的超高分辨率的场景,超分算法的算力消耗问题变得尤为关键。基于此,本文提出了一种名为 CAMixerSR 的超分框架,可以做到内容感知,通过对 Conv 和 Self-Attention 的分配做到计算量的大幅优化。


论文地址:http://arxiv.org/abs/2402.19289


方法


Table 1 不同难易程度内容的超分算力与效果对比


我们在对内容进行分块并且根据处理的难易程度分成了简单、中等、困难三个类型,并且使用不同 FLOPS 的计算单元,Conv 以及 SA+Conv 两种类型进行比较,发现对于简单的模块我们可以利用较少的 FLOPS 进行计算,并且可以得到较为不错的 PSNR 结果,只有在中等以及困难的分块内容中,SA+Conv 的效果优势才较为明显。通过这个实验我们发现,如果对内容进行分块并且动态调整优化处理策略,有可能在保持性能的同时,大幅降低 FLOPS。


图 1 CAMixer 的算法框架


上图是我们方案的整体流程图,可以看到,我们的方案分成了三个部分,包括 Predictor 模块,Self-Attention 模块以及 Convolution 模块。其中的 Predictor 模块是基于局部条件以及全局条件以及对应的线性位置编码函数,通过该模块,我们可以输出 Offsets Maps、Mixer Mask、Spatial Attention、Channel Attention,这些信息在 Self-Attention 模块以及 Convolution 模块的后续计算中进行使用。 CAMixerSR 中网络的主体模块是基于 SwinIR-light 进行优化。对于复杂区域,我们使用 offsets map 来进行更高效的 attention 计算,并且将输入和 V 分成了简单和困难两种分块,从而得到对应的 Q 和 K,并且将他们分别进行计算,得到 attention 部分的 V。Convolution 模块我们使用 depth-wise 进行计算,将 Self-Attention 的结果合并后即可得到我们最后的输出结果。

实验


图 2 Predictor 模块输出的 Mask 可视化结果


图 2 显示了我们的 Predictor 模块的输出结果,可以看到在很多的场景里,不同的区域内容有较为大的差异,并且我们的算法可以精准预测出分块的类型。


表 2 CAMixerSR 在超高分辨率数据集上的实验对比


表 2 和表 3 是 CAMixerSR 与之前高性能超分在超高分辨率数据集上做的实验对比,我们可以看到,在多个数据集(F2K、Tesk2K、Tesk4K、Tesk8K)上,相比经典的 Transformer based 超分方案 SwinIR-light,CAMixerSR 都有比较大的优势,在经过我们的方案优化后,可以做到 PSNR 接近的情况下节约将近一半的 FLOPS 以及参数量 Params。


表 3 CAMixerSR 通用超分辨率数据集上的实验对比


除了超大分辨率的场景,我们的方案在一些通用场景下同样有不错的性能优势,表 3 中我们在一些常见的超分测试集上和一些常见的高性能超分方案进行了测试。


表 4 CAMixerSR 在球面超分辨率数据集上的实验对比


球面内容是一个重要的超高分辨率场景,我们在两个全景超分数据集上进行了测试,甚至不需要通过球面数据集进行训练,仅进行测试的情况下同样发现我们的方案在 PSNR 效果以及性能上都超过了过去的方案。在这项实验中可以表明 CAMixserSR 在沉浸式场景有比较大的收益潜力。

火山引擎多媒体实验室简介


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-03-05 17:588523
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 370 篇内容, 共 306.6 次阅读, 收获喜欢 304 次。

关注

评论

发布
暂无评论
发现更多内容

【堡垒机】云堡垒机可以安装在外部数据库上吗?

行云管家

数据库 IT运维 云堡垒机 运维安全

已膜拜,GitHub大佬的微服务资源库太强了,每份学习手册都优质详细

Java Kubernetes 微服务 Spring Cloud Spring Boot

【云计算】云存储是什么意思?与本地存储有什么区别?

行云管家

云计算 云存储 云管理 云支出

基于AIGC的京东购物助手的技术方案设想 | 京东云技术团队

京东科技开发者

人工智能 智能客服 AIGC 企业号 5 月 PK 榜

起猛了!从Github大佬白嫖的分布式进阶宝典,啃完感觉能吊锤面试官

Java 架构 分布式

C端用户体验度量实战篇-京东快递小程序体验度量全面升级 | 京东云技术团队

京东科技开发者

用户体验 用户体验设计 企业号 5 月 PK 榜 京东小程序

被性能优化撂倒无数次后的顿悟!465页调优笔记助力大厂面试之旅

Java 性能优化 性能调优

MoE 系列(五)|Envoy Go 扩展之内存安全

SOFAStack

golang 开发者 后端 网关 C++

史上最全MySQL各种锁详解

Java你猿哥

MySQL 乐观锁 悲观锁 事务/行级锁

完美!啃透P9大佬这份完整版的《并发编程宝典》,成为Offer收割机

Java 并发编程 高并发

直播预告 | 博睿学院:算法平台底座-数据湖应用

博睿数据

数据湖 可观测性 智能运维 博睿数据 博睿学院

软件测试 | 测试贯穿整个项目流程

测吧(北京)科技有限公司

测试

烂怂if-else代码优化方案 | 京东云技术团队

京东科技开发者

Java 代码优化 if-else 企业号 5 月 PK 榜

Wallys/Qualcomm network chip/ipq9574/ipq9554/wireless connectivity solutions.

Cindy-wallys

ipq9554 ipq9574

图解Redis和Zookeeper分布式锁 | 京东云技术团队

京东科技开发者

redis zookeeper 分布式锁 zookeeper分布式锁 企业号 5 月 PK 榜

景区共享电动车投放:助力打造智慧景区

共享电单车厂家

共享电单车投放 校园共享电单车 景区共享电动车 共享电动车合作 共享电单车厂家

软件测试 | 应用程序签名机制实现的源代码分析

测吧(北京)科技有限公司

测试

ClickHouse进阶|如何自研一款企业级高性能网关组件?

字节跳动数据平台

数据库 字节跳动 Clickhouse 企业网关

软件测试/测试开发丨Web自动化 option 常用操作headless无头浏览器

测试人

程序员 软件测试 自动化测试 测试开发

巅峰对谈:迈向 AGI 时代,除了优秀的大模型,还需要什么?丨Fabarta&蓝驰创投

Fabarta

人工智能 图数据库 AI大模型 AGI 图智能

软件测试 | 软件开发的几个阶段

测吧(北京)科技有限公司

测试

软件测试 |JMeter怎样引用函数和变量

测吧(北京)科技有限公司

测试

软件测试中的维恩图详解

测吧(北京)科技有限公司

测试

软件测试 | JMeter函数和变量

测吧(北京)科技有限公司

测试

万众瞩目的Nautilus Chain即将上线主网,生态正式起航

鳄鱼视界

共探Serverless架构的资源平衡管理,腾讯云2023年第二期TechoDay活动圆满落幕

科技热闻

你了解LED显示屏的安装方式吗?

Dylan

安装 LED LED显示屏

基于数据驱动 U-Net 模型的大气污染物扩散快速预测,提升计算速度近6000倍

飞桨PaddlePaddle

人工智能 深度学习 百度飞桨

深度拆解:CVPR 2024 CAMixerSR 动态注意力分配的超分辨率加速框架_字节跳动_InfoQ精选文章