机器学习在视频编解码中的探索（一）_文化 & 方法_声网

最新发布《数智时代的AI人才粮仓模型解读白皮书（2024版）》，立即领取! 了解详情 



 写点什么

在 RTC 2018 实时互联网大会上，Visionular Inc 联合创始人兼首席科学家 Zoe Liu 进行了主题演讲，与大家一起分享了一场视频编解码的前沿探索。

1 Why Video Codec Matters？

大家都知道，从技术复杂度来讲，视频的编码和解码并不对称，编码器要比解码器复杂很多。那么，机器学习对编码可以做哪些优化呢？

大家目前讨论的比较多的是 3 个编码标准：一个是 MPEG 组织的，一个是从 VP9 到 AV1 的开源、免除版权税的，另外一个是我们自己在国内研发的从 AVS 到 AVS2、AVS3 系列。

编码的标准日新月异，一直在向前发展。而大家都会问，为什么视频编码那么重要？

以 JPEG 为例，它是一个图像标准，经历了几十年的发展。那么为什么几十年来 JPEG 没有被打败，反而被广为应用呢？很大程度上受益于它的广泛的商业用途和易实现性。接下来，我希望通过下图，和大家解释为什么视频编解码这么重要。

2013 年时，为了取代 H.264 编码器，谷歌推出了 VP9。海外用户看 YouTube，一般是两类手机，Android 上看到的是 VP9 的码流。由于 Apple 不支持 VP9 硬件解码，因此 iPhone 用户看到的是 H.264 码流。

谷歌曾做过一个统计，对比了世界范围内（不包含中国）， VP9 和 H.264 的播放时长。从上图中我们可以看到，在印度、非洲等网络带宽不佳的市场，由于 VP9 的应用，大大优化了用户体验，首屏时间大幅缩短，并且卡顿大幅减少。

与此同时，采用新一代 codec 的应用，带来了用户体验的提升和新业务推进的可能性，这正印证了 Video codec 的重要性。

在编码器中，不论是 HEVC 或 AV1，都有 partition 的概念。熟悉编码的朋友都知道，HEVC 和 AV1 中都有一个四叉树的 partition。

比如，它的 superblock 在 AV1 中的大小是 128128，它可以继续向下做四叉树的划分，每个 128128 的图像块可以分成 4 个 6464，每个 6464 又可以分成 4 个 3232。以此类推，例如在 AV1 中可以分解到最小为 44 的图像块。

对于图像宏块而言，要做出一个 partition 的 map。统计表明，Video encoder 端 partition RDO 评估的计算会占到编码器复杂度的 80% 以上。

那么此时如何利用机器学习来尝试做优化呢？

如上图所示，第一行四张图是帧内压缩，第二行四张图是帧间压缩的实例。它展示了对于不同的图像块需要有不同的 partition。

原因就在于，每个图像块内容不同。对于帧内压缩，细节、纹理越多的地方，分块就越细致。对于帧间压缩，主要是对残差分块，主要是要看帧间的预测是如何进行的。从这个角度来讲，分块本身是由内容和预测模式决定的。

那么，对任一图像块，我们可以在内容上提取一定的 feature。大家都知道，当 QP 取值比较大时，即失真度比较高时，整块的内容就趋于平滑，那就会选择比较大一些的分块。QP 比较小时，会选择比较细致的分块。从这些方面可以看出，从块的角度，在 partition 的情况下，可以从内容、编码模式中提取相应的 feature，通过离线训练可以从机器学习中获得决策结果。

上图中这篇论文是北航的徐迈老师与他的学生们所做的一项工作。他们基于神经网（这里主要用卷积神经网）做出的对 partition 的基本分类。

在真正做 partition 时，一般的做法是分级进行的，比如块的大小是 6464，此时需决策是否要往下走，做 4 个 3232，到 32 再往下做决策是否继续划分，即决策是一层一层向下推进的。

这篇论文做了一个初步的尝试，经过神经网的训练学习，输出的是图像块最终的完整的划分结果，将多级的决策结果一次性输出为最终的划分图。这种方法的优势在于，能够最大限度地降低神经网本身带来的复杂度，一次性导出结果。

另外，它在采用卷积神经网络决策的过程中，包含了 early termination 的决策。因为当网路深度和每层节点数增加的情况下，神经网本身也会引入一些新的复杂度。这篇论文的结果是跟 HM 比对的，在 encoder 端的速度大约提升了 50%。

AV1 是开放的标准，是一个开源的 codec。我们和谷歌合作一起贡献了 libaom 开源代码。上图是我们的截屏。由于采用了机器学习的方法，使得 encoder 进一步优化。

从图中可以看到，这个 CL 中不是深度学习，而是采用了一个非常简捷的神经网。一般 CL 中的神经网构造是一层到两层，每一层的节点在 128 个左右。所以这里并不是深度学习，是采用了一个比较简捷的网络结构。

以往在优化编码器时，常常采用 empirical 的想法，即做 partition 时，从一级、二级到三级，可以提取当前 block 层的方差，也可以将当前的 block 一分为四，提取每一个 subblock 的方差，对其进行一些分析，然后做出决策，给出 hard-coded 阈值。当块参数的大小低于某个阈值或高于某个阈值时，继续往下做 partition。所有这些决策可以用神经网代替，因为此时可以通过积累大量数据对一个简单的网络进行训练，同时再用这个网络生成决策，判断是否需要四叉树继续下分。

从上图可以看出，用一个简单的神经网就可以把 encoder 速度提升 10 - 20%。所以，我们在采用机器学习的方法时，不一定是深度学习，因为神经网的概念已经存在很久了，主要是用大数据做训练，从数据集中设计网络，对相对复杂的非线性关系建模，从而使得 encoder 的速度以及编码效率进一步提升。

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

机器学习在视频编解码中的探索（一）

1 Why Video Codec Matters？

公众号推荐：

评论

架构实战营 - 模块四作业

缓存的弊端，你了解吗

Intel要跟华硕等OEM品牌推出DG2显卡？官方：消息不属实

多租户是什么意思？怎么理解？

你知道怎么离线安装全局 node 模块吗？

Morphling：云原生部署 AI ，如何把降本做到极致？

Chrome浏览器控制台支持中文

从敏捷开发到全自动开发，加速实现企业数字化转型

Python代码阅读（第28篇）：计算列表中位数

如何实现一款毫秒级实时数据分析引擎

Spark 系列教程（1）Word Count

linux之mktemp命令

Flutter 对状态管理的认知与思考

滴滴 x StarRocks：极速多维分析创造更大的业务价值

网络攻防学习笔记 Day147

Prometheus 2.27.0 新特性

Linux用户/用户组编辑

送你一个Python 数据排序的好方法

等保是强制的吗？企业不办等保有啥处罚？

Go 中五个常见错误

Java变异出现错误：No enclosing instance of type XXX is accessible

华为云GaussDB(for MySQL)2.0全新升级，三大技术大揭秘

一文教你如何落地spring cloud alibaba企业级架构

华为云开天aPaaS 上线，服务千万开发者，使能行业场景化创新

ECS 选款利器！PTS助您快速上云！

考试系统高并发试卷存储设计方案

【墨天轮专访第五期】偶数科技常雷：创新改变世界，深耕云数据仓库

25. 自动驾驶：AI最大的应用场景

在线Emoji符号大全

Intel高管披露Arc显卡合作厂商？官方否认

书单 | 带你轻松度假的10本好书！

创作场景

机器学习在视频编解码中的探索（一）

1 Why Video Codec Matters？

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载