最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

机器学习在视频编解码中的探索(一)

  • 2019-11-30
  • 本文字数:2058 字

    阅读完需:约 7 分钟

机器学习在视频编解码中的探索(一)

在 RTC 2018 实时互联网大会上,Visionular Inc 联合创始人兼首席科学家 Zoe Liu 进行了主题演讲,与大家一起分享了一场视频编解码的前沿探索。

1 Why Video Codec Matters?

大家都知道,从技术复杂度来讲,视频的编码和解码并不对称,编码器要比解码器复杂很多。那么,机器学习对编码可以做哪些优化呢?


大家目前讨论的比较多的是 3 个编码标准:一个是 MPEG 组织的,一个是从 VP9 到 AV1 的开源、免除版权税的,另外一个是我们自己在国内研发的从 AVS 到 AVS2、AVS3 系列。


编码的标准日新月异,一直在向前发展。而大家都会问,为什么视频编码那么重要?


以 JPEG 为例,它是一个图像标准,经历了几十年的发展。那么为什么几十年来 JPEG 没有被打败,反而被广为应用呢?很大程度上受益于它的广泛的商业用途和易实现性。接下来,我希望通过下图,和大家解释为什么视频编解码这么重要。


2013 年时,为了取代 H.264 编码器,谷歌推出了 VP9。海外用户看 YouTube,一般是两类手机,Android 上看到的是 VP9 的码流。由于 Apple 不支持 VP9 硬件解码,因此 iPhone 用户看到的是 H.264 码流。


谷歌曾做过一个统计,对比了世界范围内(不包含中国), VP9 和 H.264 的播放时长。从上图中我们可以看到,在印度、非洲等网络带宽不佳的市场,由于 VP9 的应用,大大优化了用户体验,首屏时间大幅缩短,并且卡顿大幅减少。


与此同时,采用新一代 codec 的应用,带来了用户体验的提升和新业务推进的可能性,这正印证了 Video codec 的重要性。


在编码器中,不论是 HEVC 或 AV1,都有 partition 的概念。熟悉编码的朋友都知道,HEVC 和 AV1 中都有一个四叉树的 partition。


比如,它的 superblock 在 AV1 中的大小是 128128,它可以继续向下做四叉树的划分,每个 128128 的图像块可以分成 4 个 6464,每个 6464 又可以分成 4 个 3232。以此类推,例如在 AV1 中可以分解到最小为 44 的图像块。


对于图像宏块而言,要做出一个 partition 的 map。统计表明,Video encoder 端 partition RDO 评估的计算会占到编码器复杂度的 80% 以上。


那么此时如何利用机器学习来尝试做优化呢?


如上图所示,第一行四张图是帧内压缩,第二行四张图是帧间压缩的实例。它展示了对于不同的图像块需要有不同的 partition。


原因就在于,每个图像块内容不同。对于帧内压缩,细节、纹理越多的地方,分块就越细致。对于帧间压缩,主要是对残差分块,主要是要看帧间的预测是如何进行的。从这个角度来讲,分块本身是由内容和预测模式决定的。


那么,对任一图像块,我们可以在内容上提取一定的 feature。大家都知道,当 QP 取值比较大时,即失真度比较高时,整块的内容就趋于平滑,那就会选择比较大一些的分块。QP 比较小时,会选择比较细致的分块。从这些方面可以看出,从块的角度,在 partition 的情况下,可以从内容、编码模式中提取相应的 feature,通过离线训练可以从机器学习中获得决策结果。


上图中这篇论文是北航的徐迈老师与他的学生们所做的一项工作。他们基于神经网(这里主要用卷积神经网)做出的对 partition 的基本分类。


在真正做 partition 时,一般的做法是分级进行的,比如块的大小是 6464,此时需决策是否要往下走,做 4 个 3232,到 32 再往下做决策是否继续划分,即决策是一层一层向下推进的。


这篇论文做了一个初步的尝试,经过神经网的训练学习,输出的是图像块最终的完整的划分结果,将多级的决策结果一次性输出为最终的划分图。这种方法的优势在于,能够最大限度地降低神经网本身带来的复杂度,一次性导出结果。


另外,它在采用卷积神经网络决策的过程中,包含了 early termination 的决策。因为当网路深度和每层节点数增加的情况下,神经网本身也会引入一些新的复杂度。这篇论文的结果是跟 HM 比对的,在 encoder 端的速度大约提升了 50%。


AV1 是开放的标准,是一个开源的 codec。我们和谷歌合作一起贡献了 libaom 开源代码。上图是我们的截屏。由于采用了机器学习的方法,使得 encoder 进一步优化。


从图中可以看到,这个 CL 中不是深度学习,而是采用了一个非常简捷的神经网。一般 CL 中的神经网构造是一层到两层,每一层的节点在 128 个左右。所以这里并不是深度学习,是采用了一个比较简捷的网络结构。


以往在优化编码器时,常常采用 empirical 的想法,即做 partition 时,从一级、二级到三级,可以提取当前 block 层的方差,也可以将当前的 block 一分为四,提取每一个 subblock 的方差,对其进行一些分析,然后做出决策,给出 hard-coded 阈值。当块参数的大小低于某个阈值或高于某个阈值时,继续往下做 partition。所有这些决策可以用神经网代替,因为此时可以通过积累大量数据对一个简单的网络进行训练,同时再用这个网络生成决策,判断是否需要四叉树继续下分。


从上图可以看出,用一个简单的神经网就可以把 encoder 速度提升 10 - 20%。所以,我们在采用机器学习的方法时,不一定是深度学习,因为神经网的概念已经存在很久了,主要是用大数据做训练,从数据集中设计网络,对相对复杂的非线性关系建模,从而使得 encoder 的速度以及编码效率进一步提升。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-30 22:46786

评论

发布
暂无评论
发现更多内容

架构实战营 - 模块四作业

Alex.Wu

缓存的弊端,你了解吗

卢卡多多

缓存 9月日更

Intel要跟华硕等OEM品牌推出DG2显卡?官方:消息不属实

科技新消息

多租户是什么意思?怎么理解?

行云管家

云计算 运维 SaaS

你知道怎么离线安装全局 node 模块吗?

编程三昧

大前端 npm Node 离线包 9月日更

Morphling:云原生部署 AI , 如何把降本做到极致?

阿里巴巴云原生

阿里云 AI 云原生 Morphling

Chrome浏览器控制台支持中文

FunTester

chrome 浏览器 控制台 FunTester 中文

从敏捷开发到全自动开发,加速实现企业数字化转型

SoFlu软件机器人

Python代码阅读(第28篇):计算列表中位数

Felix

Python 编程 Code Programing 阅读代码

如何实现一款毫秒级实时数据分析引擎

Shopee技术团队

大数据 数据分析 后端 HBase

Spark 系列教程(1)Word Count

Se7en

linux之mktemp命令

入门小站

Linux

Flutter 对状态管理的认知与思考

小呆呆666

flutter ios android 大前端 dart

滴滴 x StarRocks:极速多维分析创造更大的业务价值

StarRocks

数据库 数据分析 滴滴 Clickhouse StarRocks

网络攻防学习笔记 Day147

穿过生命散发芬芳

风险评估

Prometheus 2.27.0 新特性

耳东@Erdong

release Prometheus 9月日更

Linux用户/用户组编辑

在即

9月日更

送你一个Python 数据排序的好方法

华为云开发者联盟

Python 数据分析 数据排序

等保是强制的吗?企业不办等保有啥处罚?

行云管家

网络安全 等保 等保2.0

Go 中五个常见错误

baiyutang

golang 9月日更

Java变异出现错误:No enclosing instance of type XXX is accessible

华为云开发者联盟

Java

华为云GaussDB(for MySQL)2.0全新升级,三大技术大揭秘

华为云开发者联盟

数据库 云原生 GaussDB GaussDB(for MySQL) 华为全联接2021

一文教你如何落地spring cloud alibaba企业级架构

小鲍侃java

后端 引航计划

华为云开天aPaaS 上线,服务千万开发者,使能行业场景化创新

华为云开发者联盟

华为云 企业应用 开天aPaaS aPaaS 华为云生态

ECS 选款利器!PTS助您快速上云!

阿里巴巴云原生

活动 ECS TPS

考试系统高并发试卷存储设计方案

Imaginary

【墨天轮专访第五期】偶数科技常雷:创新改变世界,深耕云数据仓库

墨天轮

数据库 国产数据库

25. 自动驾驶:AI最大的应用场景

数据与智能

人工智能

在线Emoji符号大全

入门小站

工具

Intel高管披露Arc显卡合作厂商?官方否认

科技新消息

书单 | 带你轻松度假的10本好书!

博文视点Broadview

机器学习在视频编解码中的探索(一)_文化 & 方法_声网_InfoQ精选文章