写点什么

腾讯杰出科学家刘杉:5G 时代,人工智能技术将成媒体融合的推进器

2019 年 11 月 11 日

腾讯杰出科学家刘杉:5G时代,人工智能技术将成媒体融合的推进器

11 月 6 日-7 日,首届 Techo 开发者大会在北京召开。本届 Techo 大会邀请了海内外 150 位行业专家围绕前沿技术发展进行解读。腾讯杰出科学家、多媒体实验室总经理刘杉发表了主题为“视频编解码技术的演进和应用”的演讲,从在线视频驱动互联网流量爆发的技术支撑与技术现状,当前主流视频编解码格式和标准的制定,视频编解码技术的演进和应用,以及 5G 时代下多媒体业务的发展方向等方面,分享了腾讯多媒体实验室的最新成果与思考。



腾讯杰出科学家、腾讯多媒体实验室总经理 刘杉


刘杉在演讲中介绍了当前互联网流量的来源分布,并预计 2022 年超过 82%的互联网流量将来自于视频或者包含视频的应用,而这一增长趋势蕴涵着巨大的商业价值。


视频编解码技术听起来专业难懂,可是它的应用却与人当下的感官体验有着亲密连接。比如大众日常接触的腾讯视频、微视、微信、QQ 等与视频密切相关的产品,还是其他互联网公司每天产生的视频内容,都是以压缩的形式传播的。而视频压缩即视频编解码,它的效率,直接影响到一个产品或者一套解决方案的效率、成本、品质,甚至是成败。刘杉在演讲中也分享了视频编解码技术过去 30 年的演进历程,并指出当下视频编解码的架构变得更加复杂,承载的技术更加丰富,而这些技术的演变都使得压缩效率不断提升。


尽管压缩效率非常重要,但并不是所有人都在使用压缩效率最高的编解码格式,因为不同的应用场景对视频编解码器的需求侧重有所不同。刘杉表示,在质量、延迟和带宽或者成本之间寻找一个最优平衡点是腾讯多媒体实验室努力的方向和目标。


以云游戏为例,在线游戏行业千亿市场,但云游戏商业化面临的现实挑战是它的高成本。云游戏是以云计算为基础的游戏方式,刘杉表示对其成本结构进行拆解后发现,云游戏最大一块成本来自于带宽 34%,其次是 GPU 27%。“视频编码器的优化将有助于大大降低云游戏的带宽成本,推动云游戏商业化,”刘杉表示,“腾讯多媒体实验室已经和正在使用的视频编解码器优化策略。比如,启用更高效率编解码格式,对硬件编码器进行优化,针对不同游戏场景优化编码工具集使用,同时支持多格式软件硬件编码器并根据内容和分辨率进行切换,动态编码码率策略,ROI 编码和网络自适应编码技术,硬件解码渲染一体化等。”


无论视频流量的持续增长还是云游戏的商业化,当前都正面临着一个历史性风口浪尖,即 5G。刘杉认为,5G 网络提供给我们超强的带宽,超低的延迟,使得更多的应用触手可及。在 5G 的影响下,媒体内容的生产、获取和传播方式都在发生变化。“无论是 4K/8K,还是 VR/AR/MR/点云,这些在过去因为受限于网络带宽的应用,在 5G 的推动下可能会迎来突破。而 5G 的低延迟特性还将触及医疗和其他一些倚赖高速连接和互动的领域,例如远程手术和自动驾驶等。此外,刘杉认为,在万物互联的 5G 时代,媒体的智能化已经成为不可阻挡的趋势和发展方向,人工智能技术成为媒体融合重要的技术手段和工具。


截至目前,腾讯多媒体实验室约 70 个技术提案已被 VVC 采纳,多人在标准组织中担任重要职务,并将王者荣耀推入标准测试序列。作为国际行业标准不可忽视的影响者和领导者。腾讯多媒体实验室专注于多媒体和相关领域的前沿技术探索、研发和产品落地,包含音视频编解码、网络传输和实时通信,基于信号处理和深度学习的多媒体内容分析、理解、处理和质量评估,沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案;同时负责国际国内行业标准制定,包含多媒体数据压缩,网络传输协议,多媒体系统和开源平台等。


以下为刘杉演讲全文:


尊敬的各位领导、女士们、先生们,上午好。欢迎来到北京,来到 Techo 开发者大会。我是刘杉,来自腾讯多媒体实验室。今天要和大家分享的题目是“视频编解码技术的演进和应用”。


视频编解码作为一个研究或者研发领域已经存在了一些年,大家并不陌生。无论是从早期的数字电视时代,还是到后来的 OTT 和现在的万物互联,技术在持续演进,但是重要性从来未曾改变。今天希望和大家一起对这个经典的课题做一些新的思考。


2017 年以来,视频流量在整个互联网流量的占比一直处于高位。从 2017 年的 75%, 到当前的约 80%, 到 2022 年我们预计超过 82%的互联网流量将来自于视频或者包含视频的应用。而整个互联网流量以平均每年 26%的速度增长。以 2019 年为例,每月约 200ExaBytes 的互联网流量里 80% 也就是约 160ExaBytes 的互联网流量来自于视频。到了 2022 年,这个数字将会翻倍。这个巨大的数字所代表的商业价值不言而喻。


作为全球最大的互联网公司之一,腾讯为全球互联网流量有很大贡献。而腾讯旗下的很多业务都和视频这一媒体形式密切相关,例如:腾讯视频,微视,和我们熟知的微信,QQ 等等。其中很多是通过视频云对外输出。当然在腾讯之外还有更多互联网公司每天产生巨大的视频内容流量。而所有这些视频内容都是以压缩的形式传播的。


视频压缩,即视频编解码,是数字时代视频应用的一个不可缺少的环节。而视频编解码的效率,直接影响到一个产品或者一套解决方案的效率,成本,品质甚至是成败。所以,在过去三十多年里,全球很多企业和研究机构投入巨大资源,研发了许多视频编解码技术,并形成了几代视频编解码标准。其中主流的标准有: ISO/IEC 和 ITU 制定的国际标准,像我们熟知的 MPEG-2, H.263, H.264/AVC, H.265/HEVC 和正在制定中的 VVC. 腾讯于 2018 年开始参与 VVC 标准制定。迄今为止已经向标准组织提交超过 250 个技术提案,其中约 70 个技术提案已被标准采纳。腾讯,已经成为国际视频编解码标准制定的主要贡献者之一。


自 H.264/AVC 于 2003 年截稿发布 main profile 以来,成功主导全球各个领域视频编解码市场。H.265/HEVC main (main10) profile 于 2013 截稿发布,其压缩性能比 H.264/AVC 提高约 40%,但是由于比较复杂和具有一定不确定性的专利收费政策,至今还不能像 H.264/AVC 一样主导全球市场。


与此同时(2015),Google,Mozilla, Cisco 等公司发起创立了开源标准 AOMedia,致力于建设免费的(或者专利友好的)的视频编解码标准,于 2018 年发布了第一代开源视频编解码标准 AV1. 腾讯在九月正式加入 AOMdia,是第一家也是迄今为止唯一一家成为 AOMedia 董事会成员的中国公司。腾讯将和其他 AOMedia 成员公司一起拓展开原生态,推动 AV1 商业化,并建设下一代开源视频编解码标准。


当然同时,我们也大力投入国标 AVS 的建设,推广,和应用落地。


在过去三十年里,视频编解码技术不断演进,从 MPEG-2, 到 H.264/AVC, 再到 H.265/HEVC 和 VVC; 开源侧从 VP8 到 VP9, 再到 AV1,我们可以看到视频编解码的架构变得更加复杂,承载的技术更加丰富,主要体现在几个方面,比如 编码,预测和变换单元以及树结构的拓展,帧内预测,帧间预测,变换与反变换,环路滤波和熵编码。这些技术的演变都使得压缩效率不断提升,当然同时,计算复杂度也随之增加。


将几个主流视频编解码格式的压缩效率做个简单对比。测试结果来自于开源软件 x264, x265, libvpx, libaom 的最佳质量设置,在 constant QP 模式下对 100 多个不同分辨率不同场景的测试序列进行编码,取平均值以保证结果的代表性。在同等压缩质量的情况下,使用几种编解码格式分别对应的 bitrate, 基本上,VVC 压缩性能最高,其次是 AV1, HEVC 和 VP9 效果相当, 然后是 AVC, 这些格式都比经典的 MPEG-2 压缩性能有长足的提高。


上面我们对现在市场上几种主流视频编解码标准格式做了简单技术回顾和压缩性能对比。那么是不是所有人都在使用压缩效率最高的编解码格式呢?答案是 No. 这里有一份第三方调查报告,显示了当前市场上各类编解码器的部署情况。我们可以看到,H.264/AVC 仍然是主流,其次是 H.265/HEVC。Legacy MPEG-2 编解码器尚有一定使用率,但是在未来会逐渐被取代。同时,开源编解码器 VP9 和 AV1 的部署将会大幅度增长。


不同的应用场景对视频编解码器的需求侧重有所不同。有些应用场景,比如长视频影视类点播,通常会要求高画面品质而对延迟不做过多要求。而另外一些场景比如直播和实时音视频通话等应用对延迟的要求就比较高。按照 ITU G.114 建议,对于好的通话质量,单向端到端延迟应不大于 150ms。如果时延在 200~400ms, 通话的交互性比较差, 但是尚可接受。时延大于 400ms, 则无法正常交互。而游戏对延迟的要求更是苛刻,通常要求端到端延迟小于 60ms 甚至更低。


而值得注意的是,上面说的数字都是端到端的延迟。而视频从采集到播放的整个链路里包含端上处理延迟,端到服务器延迟,以及服务器之间传输,排队和服务处理等延迟。视频编解码延迟只是端上处理延迟的一部分。这就意味着,要达到低延迟应用和业务的要求,我们的视频编解码运行速度需要很快。


在质量,延迟和带宽或者成本之间寻找一个最优平衡点是我们努力的方向和目标。


我们都知道软件编码器具有灵活的优点,可以达到更高的编码质量。但是它的一个缺点是速度慢,尤其是在压缩高分辨率内容的时候。所以对于低延迟尤其是超低延迟的应用场景,我们多采用硬件编码器。这里我们举一个云游戏的例子。云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务器端运行,并将渲染完毕后的游戏画面压缩后通过网络传送给用户。在客户端,用户的游戏设备不需要任何高端处理器和显卡,只需要视频解压缩能力就可以了。


在线游戏行业千亿市场,各行业巨头在云游戏方向重兵投入。今年三月谷歌的云游戏平台 Stadia 正式登场,并计划于 11 月在全球多地上线。Microsoft 正在积极筹备进行先期测试,Sony 也在进一步加强云游戏服务能力。腾讯已投入布局 START 云游戏平台,并在今年 4-5 月间正式开启了 Start 内测预约。如果腾讯的云游戏服务能够成功的话,将会对国内游戏行业产生极为深远的影响。


云游戏商业化面临的一个挑战是它的高成本。这里我们有一个大致的成本拆分。我们可以看到拆分之下,最大一块成本来自于带宽 34%,其次是 GPU 27%. 为了推动云游戏商业化,相关业务部门在 2020 年里希望可以将成本降低一半。在之后的每一年还会有更多的成比例的成本下降。而在 2020 年里带宽成本计划下降 67%, 这其中绝大部分会来自于视频编码器的优化。


这里简单罗列了一些我们已经和正在使用的视频编解码器优化策略,包括:启用更高效率编解码格式,对硬件编码器进行优化:针对不同游戏场景优化编码工具集使用,同时支持多格式软件硬件编码器并根据内容和分辨率进行切换,动态编码码率策略,ROI 编码和网络自适应编码技术,硬件解码渲染一体化,等。在过去的几个月里,我们针对 nvidia, intel, amd, android, iOS 等硬件平台和编解码器分别做了优化,达到节省约 30%带宽。尤其是硬件解码和渲染一体化,很大程度降低了解码端延迟和功耗。


我们正在进入 5G 时代。5G 网络提供给我们超强的带宽,超低的延迟,使得更多的应用触手可及,也使得万物互联成为可能。在 5G 的影响下,媒体内容的生产,获取和传播方式都在发生变化。无论是 4K/8K,还是 VR/AR/MR/点云,这些在过去因为受限于网络带宽的应用,在 5G 的推动下可能会迎来突破。而 5G 的低延迟特性还将触及医疗和其他一些倚赖高速连接和互动的领域,例如远程手术和自动驾驶。


在超高清视频方面,带宽的占用随视频分辨率,bitdepth 和帧率等指标的提升成倍增长。互联网流量数据显示,在 2017 年标清和高清视频内容大约各占一半。在 2019 年也就是目前标清内容占比下降到大约 1/3, 高清内容成为主流,超高清内容占比开始攀升。到 2022 年我们预计超高清内容占比会进一步提升到约总流量的 1/4. 超高清视频内容的压缩,对于视频编解码器的质量和性能都有更高的要求。


互动沉浸式媒体是又一个被 5G 强推动的领域。根据中国产业信息网,中国 VR 内容市场自 2016 年以来持续以每年 2-3 倍的速度增长。应用产业链迅速扩展,尤其是在亚太地区发展更为迅猛。互动沉浸式媒体的应用领域非常广泛,渗透到例如文旅,教育,影视和泛娱乐,安全,零售等很多垂直行业。在今年九月腾讯推出的一部手机游云南里就包含了 VR 导览这一元素。


一个高质量高效率的互动 VR 系统包含了从采集拼接,处理,压缩,传输,到解压缩,后处理,渲染和交互等端到端多个技术模块。里面包含的技术有投影技术,采集拼接技术,FOV 技术,自适应传输技术(包括 Tile 切块,自适应码率,自适应分辨率,自适应主客观质量等)涉及的传输协议有 HLS, DASH, WebRTC 等。因为 VR 视频占用的带宽可能高达普通高清视频带宽的几十倍,高效率的 VR 视频编解码器即使在 5G 时代也仍然是必须的。


在万物互联的 5G 时代,媒体的智能化已经成为不可阻挡的趋势和发展方向,人工智能技术成为媒体融合重要的技术手段和工具。在不久前的十一庆典中,腾讯多媒体实验室联合腾讯视频和腾讯云推出的 AI 智能云剪辑,在最短时间内将月饼盛典中精彩片段进行拆分和剪辑。腾讯多媒体实验室和腾讯云正在研发的智能场记解决方案,旨在运用深度学习技术结合信号处理理论,对视频内容进行高级语义理解,并已经在体育赛事等场景取得阶段性成果。


最后我想用半分钟时间简单介绍一下腾讯多媒体实验室。


作为腾讯云的一个重要技术输出方和亲密合作伙伴,腾讯多媒体实验室专注于多媒体和相关领域的前沿技术探索、研发和产品落地,包含音视频编解码、网络传输和实时通信,基于信号处理和深度学习的多媒体内容分析、理解、处理和质量评估,沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案;同时负责国际国内行业标准制定,包含多媒体数据压缩,网络传输协议,多媒体系统和开源平台等。


面向未来,我们将一如既往地以技术为本,以客户需求为导向,和腾讯云一起打造更多更好的产品,服务于社会。


谢谢大家。


2019 年 11 月 11 日 15:04891

评论

发布
暂无评论
发现更多内容

解锁华为云AI如何助力无人车飞驰“新姿势”,大赛冠军有话说

华为云开发者社区

AI 无人驾驶

1分钟带你入门 React 公共逻辑抽离HOC...

Leo

React Hooks 前端进阶训练营 HOC Render Props

第四周作业

dll

万物互联的IoT时代,柔性电子会大行其道吗?

脑极体

一个草根的日常杂碎(10月19日)

刘新吾

随笔杂谈 生活记录 社会百态

二十、深入Python迭代器和生成器

刘润森

Python

Java程序员还在为没有项目经验感到苦恼?快来看看GitHub上最火的SpringCloud微服务商城系统开源项目,附全套教程!

Java架构之路

Java 程序员 架构 面试 编程语言

云原生在京东丨云原生时代下的监控:如何基于云原生进行指标采集?

京东智联云开发者

云原生

一个草根的日常杂碎(10月20日)

刘新吾

随笔杂谈 生活记录 社会百态

利用区块链等技术,加强对交通运输信用信息的归集共享和分析应用

CECBC区块链专委会

区块链 交通运输

分布式下,我想要一致性

架构师修行之路

分布式 微服务

深入java week1-01 字节码、内存、GC、调试工具

闷骚程序员

华为云瑶光:打通云边端界限,为企业云上业务带来最优解

华为云开发者社区

华为 云服务

独角兽高级技术总监手写588页性能调优笔记,十年经验发人深省

周老师

Java 编程 程序员 架构 面试

架构训练营学习笔记之五技术选型(一)

于成龙

架构训练营

架构师必备的那些分布式事务解决方案!!

架构师修行之路

分布式 微服务 架构设计

膜拜!阿里技术总监纯手打的《MySQL笔记》内部资料限时分享

Java架构师迁哥

透视HTTPS建造固若金汤的堡垒

码哥字节

https 加密解密 HTTP

游戏数值策划之常用excel函数

吴优秀同学

Excel 游戏

Nginx 在运维领域中的应用,看这一篇就够了

华章IT

nginx Linux 运维工程师

甲方日常 35

句子

工作 随笔杂谈 日常

算法分析关键

Geek_0b8195

算法和数据结构

聊聊技术人员如何学习成长

flyer0126

职业成长

央行数字货币离我们还有多远?

CECBC区块链专委会

数字货币

Linux的上手命令

林昱榕

Linux 常用命令

java week1练习

闷骚程序员

年纪轻轻怎么就卵巢早衰了?试管可帮忙!

Geek_65d32f

试管 三代试管

Flink窗口算子-6-8

小知识点

scala 大数据 flink

mongodb 源码实现、调优、最佳实践系列-百万级代码量mongodb内核源码阅读经验分享

杨亚洲(专注mongodb及高性能中间件)

MySQL mongodb 源码 中间件 分布式数据库mongodb

一个草根的日常杂碎(10月18日)

刘新吾

随笔杂谈 生活记录 社会百态

【线上排查实战】AOP切面执行顺序你真的了解吗

Zhendong

spring aop

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

腾讯杰出科学家刘杉:5G时代,人工智能技术将成媒体融合的推进器-InfoQ