写点什么

火山引擎联合中国科学技术大学 IMCL 团队夺得 NTIRE 大赛盲压缩图像增强赛道冠军

火山引擎多媒体实验室

  • 2024-07-10
    北京
  • 本文字数:1406 字

    阅读完需:约 5 分钟

火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军

近日,第 2024 届 CVPR Workshop 下属的 NTIRE 大赛公布比赛结果,在盲压缩图像增强赛道,火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队自主研发的算法获得了冠军,技术能力达到行业领先水平。


图:参赛队伍

大赛背景


NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。


图:盲压缩图像增强比赛结果


随着数字图像和视频内容的快速增长,有损图像压缩技术,作为降低图像传输带宽和存储开销的必要技术,早已在各种工业应用中普及。在流行的压缩编解码器中,考虑到计算效率和复杂度,在实际应用中,JPEG 备受青睐。然而,在受限码率下,JPEG 压缩后图像往往会带有复杂压缩失真,且较难获取压缩等级。在这个背景下,盲压缩图像增强竞赛应运而生,旨在实现任意等级 JPEG 压缩失真的恢复,提升真实场景中解码图像的画质,打破未知压缩失真对增强算法的限制。


冠军算法介绍


盲压缩图像恢复的主要挑战在于如何让网络感知到图像的压缩失真程度的同时,也能感知到图像的内容,从而达到修复的目的。在此次竞赛中,团队提出了一种巧妙利用动态提示(Dynamic Prompt)的盲图像恢复方法,名叫 PromptCIR。与之前直接估计压缩质量因素来进行指导的方法不同,PromptCIR 通过提示组件之间的动态组合以及从失真图像特征生成的提示权重隐式地学习编码压缩信息,从而为盲恢复提供更多的失真自适应能力。


值得一提的是,大多数现有的基于提示学习的压缩图像恢复方法将提示大小设置为与图像特征大小相同,限制了对各种输入大小的泛化能力。为了缓解这个问题,我们采用了内容感知的动态提示。具体来说,我们将提示大小设置为 1 x 1,并生成与图像特征相同分辨率的空间位置感知的提示权重,以避免过度适应训练图像大小的潜在问题。此外,为了提高内容感知和失真感知表征能力,我们使用多个提示基动态模版编码任务自适应信息,从而自适应地编码压缩质量信息,并保留必要的空间位置知识。


不仅是算法上的改进,团队还重新审视了其他辅助技术,如数据增强、数据合成等,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。


PromptCIR 方法图


论文链接:https://arxiv.org/pdf/2404.17433


总结


火山引擎多媒体实验室联合中国科学技术大学智能媒体计算实验室(IMCL)团队在盲压缩图像恢复领域实现了突破性的进展,并获得了该赛道冠军。自研的技术方案可以帮助修复成千上万的被压缩数字图像内容,从而给用户提供更为清晰、精细的图像展现效果,有助于推动数字媒体行业向着更加智能化、高效化的方向发展。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-07-10 14:524456
用户头像
鲁冬雪 InfoQ 策划主编

发布了 362 篇内容, 共 251.3 次阅读, 收获喜欢 292 次。

关注

评论

发布
暂无评论

分享一点面试小经验,2021年互联网大厂Java笔经

Java 程序员 后端

华为财经2021春招面试,尚硅谷springboot笔记,最全Java知识总结

Java 程序员 后端

云栖大会:《永不止步的云上创新》——蒋江伟

代码 科技革命 计算 云 原生云 CTO 云栖大会

初级Java面试题大全,极客邦科技面试,linux架构学习视频

Java 程序员 后端

别再说自己不会了!极客时间破解版没用,Redis成神之路电子版教程已问世

Java 程序员 后端

十年Java编程开发生涯,尚学堂网易上的中级,推荐一个GitHub项目

Java 程序员 后端

华为大神花费5个月打造的这份714页学习笔记系列,面试看这个就够了

Java 程序员 后端

声纹识别帮你守住钱袋子,聊一聊证券行业里的人工智能

Zilliz

AI 向量检索 Milvus 向量

卧薪尝胆70天内推入职阿里,2021Java春招

Java 程序员 后端

分享Java资深架构师的成长之路,今日头条面试经历

Java 程序员 后端

分享复习经验和后台开发面经,阿里架构师深入讲解Java开发

Java 程序员 后端

Android 构建工具--AAPT2源码解析(一)

vivo互联网技术

打包APK 源码剖析 Android端

劲爆!java微信小程序开发教程视频,Java学习路线指南

Java 程序员 后端

十年Java编程开发生涯,未来教育计算机二级java激活码,面试官突击一问

Java 程序员 后端

华为Java面试题及答案,java开发实例教程课后答案石磊,查漏补缺

Java 程序员 后端

分享一波阿里、字节、腾讯、美团等精选大厂面试题,Java面试题整理

Java 程序员 后端

助你面试一臂之力,linux基础教程第2版课后思考题答案,阿里巴巴Java面试题

Java 程序员 后端

鸿蒙轻内核源码分析:异常钩子模块系统中断异常,如何转储异常信息

华为云开发者联盟

鸿蒙 内存 存储 函数 异常钩子

十分钟带你看懂Netty如何实现C-S,美团Java开发面试

Java 程序员 后端

别再说你不会!linux服务器搭建教程视频百度网盘,nginx入门书籍

Java 程序员 后端

4个实验,彻底搞懂TCP连接的断开

捉虫大师

TCP

Tapdata 携手精诚瑞宝,共拓 Real Time DaaS 蓝海市场

tapdata

数据库

DoS?DDoS?这件事要从另一个D说起……

郑州埃文科技

网络安全 DOS攻击 IP定位

十分钟带你回顾Spring常问的知识点,springcloud面试题汇集与答案

Java 程序员 后端

厉害了!java使用教程视频,我的Java春季历程

Java 程序员 后端

厉害了!尚硅谷mysql中employees表,腾讯T2手把手教你

Java 程序员 后端

分享我在Java开发中走的一些弯路,不同层级的Java开发者的不同行为

Java 程序员 后端

别再说自己不会JVM虚拟机了,35岁技术人如何转型做管理

Java 程序员 后端

分享一次面试经历,享学课堂java架构师课程,【高级Java架构师系统学习】

Java 程序员 后端

分享一点面试小经验,2021吊打面试官系列

Java 程序员 后端

区块链交易隐私如何保证?华为零知识证明技术实战解析

华为云开发者联盟

区块链 金融 零知识证明 同态加密 交易隐私

火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军_字节跳动_InfoQ精选文章