写点什么

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

火山引擎多媒体实验室

  • 2024-03-29
    北京
  • 本文字数:1567 字

    阅读完需:约 5 分钟

火山引擎国际深度学习图像压缩挑战赛蝉联冠军

近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC 大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台 b-2 在高码率视频压缩低码率视频压缩两个赛道均夺得主客观指标冠军。这也是火山引擎多媒体实验室连续两届蝉联该赛道冠军。




CLIC 大赛由电气与电子工程师协会 IEEE 主办,从诞生开始就获得了学术界与工业界的广泛关注。2023 年 CLIC 大赛暂停一届,本届大赛依托于数据压缩领域的顶级会议 Data Compression Conference (DCC)再次举办。值得一提的是,本届 DCC 中,火山引擎多媒体实验室有 8 篇论文入选。


随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限,取得突破性进展的明日之星。基于深度学习技术,火山引擎和北大 b-2 平台提出了一项智能混合解决方案。

基于深度学习的智能混合解决方案


b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统——智能混合解决方案。传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。


图 1 非对称四叉树划分结构;(a)H1 型水平 UQT,(b)H2 型水平 UQT,(c)V1 型垂直 UQT,(d)V2 型垂直 UQT。

编码单元划分是混合视频编码框架的基础,决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动,对编码性能的提升起着至关重要的作用。团队提出了非对称四叉树 (UQT) 划分结构,旨在提高视频的编码效率。与现有的四叉树(Quad Tree, QT),二叉树(Binary Tree, BT),三叉树(Ternary Tree, TT)划分结构相比,UQT 通过一次划分生成的子编码单元能触及更深的划分深度,能更有效地捕捉视频丰富的细节特性。此外,UQT 生成的子块形状是无法通过 QT 、BT、TT 组合实现的,一定程度上弥补了现有划分的不足,丰富了划分的表达。



图 2 环路滤波网络结构示意图,包括网络的输入,滤波与输出模块


传统视频编码中采用环路滤波器去除编码失真,缩小原始图像与重建之间的失真,例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术,有机地将环路滤波技术与深度学习技术结合在一起,在网络结构中与模型训练中充分利用传统视频编码的先验信息,提升环路滤波效率。网络输入方面,除重建像素外,团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习,丰富先验知识,使得网络能更好地感知压缩失真。在分层参考的编码结构中,待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式,获取最接近真实编码的训练数据,实现更高性能的滤波。此外,每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型,并将选择信息传输到解码端。


图 3 CLIC 视频压缩赛道基于 MOS 的排行榜


2022 年,火山引擎多媒体实验室第一次参加 CLIC 大赛。参赛平台 Neutron Star(中子星)在高码率视频压缩低码率视频压缩两个赛道,主客观指标均以大幅领先优势夺冠。


此次,火山引擎与北大联手夺冠,是结合了北大学科和人才优势,以及火山引擎的技术和产业优势,围绕深度学习在视频压缩领域的一次重要学术探索。


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


2024-03-29 11:274238
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 370 篇内容, 共 310.7 次阅读, 收获喜欢 304 次。

关注

评论

发布
暂无评论
发现更多内容

基于HarmonyOS Next的闹钟应用开发实践

知识浅谈

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT 实践分享

WebGL软件开发的技术方案

北京木奇移动技术有限公司

软件外包公司 webgl开发 webgl技术

用户实测YRCloudFile KVCache丨以存代算显著提升AI推理性价比

焱融科技

AI推理 大型语言模型LLM KVCache

特权账号:企业安全的关键要素与防护策略

天翼云开发者社区

安全 特权账号

WebGIS项目开发技术方案

北京木奇移动技术有限公司

软件外包公司 webGIS开发 webgl开发公司

办公网络流量隔离:为高效办公保驾护航

天翼云开发者社区

安全 网络

TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能

TiDB 社区干货传送门

TiDB第四届征文-业务场景实战

1688 商品数据接口终极指南:Python 开发者如何高效获取标题 / 价格 / 销量数据(附调试工具推荐)

tbapi

1688商品列表接口 1688API 1688商品数据采集

什么是零信任

天翼云开发者社区

零信任 SDP架构

“最近我给有代码洁癖的同事墙裂安利了通义灵码”

阿里云云效

通义灵码

针对大事务问题对业务存储过程改造

GreatSQL

“最近我给有代码洁癖的同事墙裂安利了通义灵码”

阿里巴巴云原生

HarmonyOS工具安装教程

知识浅谈

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT

HyperMesh模型导入与几何清理

智造软件

仿真 CAE cad Hypermesh hyperworks

网站进行IPv6改造的步骤有哪些?一文看懂

国科云

TiDB 中新 Hash Join 的设计与性能优化

TiDB 社区干货传送门

区块链ETF软件系统的技术方案

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

AI大模型入门 三:5分钟速成Prompt公式,让AI生成代码的通过率从30%到90%

测试人

人工智能

中国电信重塑天翼AI云手机,为用户开启云端智能新生活

极客天地

HarmonyOS Next音乐播放器组件开发实践

知识浅谈

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT 实践分享

Blender 入门教程(四):动画制作

北桥苏

游戏引擎 blender CocosCreator

1688API接口终极宝典:列表、详情全掌握,图片搜索攻略助你一臂之力

tbapi

1688商品详情接口 1688商品数据接口 1688API 1688图片搜索接口

浅谈环境检查功能框架搭建

inBuilder低代码平台

NocoBase 本周更新汇总:优化及缺陷修复

NocoBase

开源 低代码 零代码 无代码 版本更新

谷歌地图代理 | 使用HTML和矢量模式API更轻松地创建Web地图

Cloud Ace 云一

从开发者角度看数据库架构进化史:JDBC - 中间件 - TiDB

TiDB 社区干货传送门

开发语言 应用适配 数据库连接 8.x 实践

你的产品功能真的必要吗?

Feedalyze

效率工具 产品开发 产品迭代 用户反馈 用户需求

HarmonyOS Next 记事本应用开发实践

知识浅谈

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT 实践分享

Bonree ONE 2025春季版全球发布 | 云原生适配+LLM大模型接入成核心亮点!

博睿数据

云原生 博睿数据 LLM模型

让用户反馈成为产品迭代的动力源泉

Feedalyze

效率工具 产品经理 产品迭代 用户反馈 用户需求

CST如何生成简单通用的IBIS模型文件

思茂信息

cst CST软件 CST Studio Suite

火山引擎国际深度学习图像压缩挑战赛蝉联冠军_音视频(后端)_字节跳动技术团队_InfoQ精选文章