编转码、CDN 和 AI 是如何撑起短视频数百亿市场规模的

阅读数:153 2018 年 5 月 23 日

话题:CDN架构文化 & 方法

直播链接请点击这里

2018 年,你的朋友圈有没有被短视频刷屏呢?上到白发苍苍,下到咿呀学语,短视频不仅用户覆盖了各个阶层和年龄段,连创作者也覆盖了各类人群。行业迎来了全面爆发,意味着关注度、吸金力和研发重视程度都已今非昔比。那么究竟是哪些因素导致了在背后推动了短视频的全面爆发呢?

为了深入探索短视频崛起背后的秘密,首期《云中论道》节目邀请到了英特尔中国区互联网业务部技术总监高明、金山云高级总监武爱敏以及知乎专栏作者刘晓明三位业内专家参与,三人就短视频崛起背后的技术支撑,如视频编转码、CDN 以及 AI 等技术展开了深入探讨。

视频编转码的闯关路

目前,短视频行业在全国用户量已经达到 4 亿,市场规模数百亿。从视频行业接触到互联网开始,编转码就成为一个绕不开的话题。更何况现如今热门视频层出不穷,用户量巨大,那么应当如何在高并发情况下完成解码步骤,保障用户体验呢?

为什么短视频一定需要用到编转码呢?因为短视频从生成、上传等过程里需要适应不同的播放器。为了满足用户在不同播放环境的体验,就要进行不同程度的转码。而且转码在今后应用的会越来越多,目前的一大趋势就是从 H.264 向 H.265 转化。数据来看,在 2017 年 H.265 在市场中所占比例约 10% 左右,2018 年就已经达到了 30%。

改善用户体验,降低延迟是必不可少的一部分。但是视频从上传到播放之间一定会产生时延,这其中不仅包括了转码延迟,人工审核和 CDN 也一样会产生,所有的延迟在过去有可能达到几十分钟的级别。

转码方面,在多码率转码情况下,为了保持各部分同步可能需要时间比较长。但是近几年在硬件和系统升级的影响下情况得到了改善,与直播相比,短视频并不需要作者与用户之间的实时交互,因此对延时要求并不太严格,转码控制在分钟级已经足够,相对的直播的转码控制就要在毫秒级。

延时问题的产生,在 CDN、网络、缓存、DNS、服务器、负载均衡、网关等多个方面都会有影响。因此提升用户体验除了在技术上进行优化外,后端硬件支持以及网络存储等架构的升级也十分重要。在去年下半年,英特尔推出的新至强可扩展处理器每个 CPU 达到 6 通道使得内存带宽提高了 50%,并且每个 CPU 核心的二级缓存容量从 256KB 提升至 1MB 为上一代至强处理器的 4 倍,可以让视频编解码能力实现提升。

过去,短视频行业常用的英特尔至强处理器 E5 2600 系列 V3、V4 系列使用的是 AVX2.0 指令集,寄存器位宽为 256 位;新至强采用新的 AVX-512 指令集则可以达到 512 位寄存器位宽,量级翻倍也意味着单指令多数据的计算性能也可以提升高至 2 倍。举例来看,金山云的业务需要对 H.264 视频转码,使用英特尔至强铂金 8168 处理器的转码性能达到了过去使用英特尔至强处理器 E5-2690 V4 性能的 194%,对短视频转码速度提升有着很大帮助。

CDN 如何保障视频质量

本质上来看,短视频与直播采用的是一类技术,二者相比传统视频都对延迟和秒开有着较高的要求,这一点在移动时代更显得尤为突出。

是从 2015 年 10 月移动端直播出现开始,视频行业的发展就接入了高速轨道。2016 年号称移动直播元年,2017 年又成为了移动直播的下半场。走到今天,不少移动直播的末端企业已经无力回天,流量竞争已经越来越集中在头部客户中。这些客户的竞争主要集中在视频质量和内容吸引力等方面。评价视频质量主要包括延迟、秒开、卡顿等三个主要参数。

延迟一般会在三个环节中产生,一是推流;二是 CDN 传输的过程,但这个延迟很小只有几十毫秒;三则是在播放端会有 2 到 3 秒左右的延迟。不过并不是所有的延迟都是不允许出现的,对延迟要求最高的直播行业中,不同直播类型对延迟控制要求不同,游戏类、社交类、秀场类的延迟会控制在 3 到 5 秒,这样才能满足主播与粉丝之间的文字交互不受影响;对于事件类和赛事类的直播,由于会涉及到一些特殊的因素,一般延迟会更大一些,在播出过程中会要求有 15 到 30 秒的延迟,这样也方便做内容的审核。

秒开方面的实现,在离用户最近的 CDN 边缘节点缓存一部分数据,能让用户在几十毫秒内看到音视频;而且,短视频和直播不同,一些热点短视频很容易在边缘网络中存储,然后在手机端进行加速,可以进行预加载帮助实现秒开。

再者,传统网络和终端的细节也会有所影响,比如 DNS 和播放器的细节问题进行优化。典型问题就是最后一公里的网络,即从手机到最近的节点的距离。由于用户可能会身处户外或者信号不好的地方,很容易导致延迟产生。

解决这一问题有多种办法,比如金山云推出了一款双边加速产品,帮助解决边缘网络难题,提高观看质量。另外也可以让码率在传输过程中降低,然后在终端实现增强,这种码率的自适应方式可以通过算法感知到用户终端播放过程中网络问题,动态的切换到适应的码率上,以保障视频播放用户的体验。

人工智能是短视频行业的重大利好

视频质量的保障靠 CDN,而另一大竞争点内容吸引力则要靠人和人工智能了。在以往,视频是一种特殊的内容,只有人才能够理解、欣赏和应用。在人工智能崛起后,机器在人工智能的帮助下也能够做到人的部分工作,从本质上使得视频行业发生了转变。

视频吸引力的保障一方面需要优质的视频作者或主播源源不断的提供素材,另一方面就要看视频本身的因素了,这包括了内容的安全和对用户的传递。而且 AI 能做到的越来越多,包括了软件检测、物体检测、视频分析、视频分类、违规视频检测等,通过硬件和软件的提升可以在平台上将 AI 的速度和性能兼顾以达到最佳效果。内容安全方面,在内容识别领域可以通过分析找出违规或者不允许的内容,高效而且降低了人力成本;图像增强方面,AI 能够通过算法将一些不太清晰的视频细节恢复出来,既节省了传输带宽,又增强了用户体验。

AI 的出现对于视频行业意味着什么呢?这可能是一种颠覆。AI 模型可以对机器进行训练,让机器能够识别视频,并且在很多领域实现应用,在安防领域的识别,训练过的机器一个月帮助公安局多抓 500 名逃犯;而民用领域,色情、恐暴等内容也会无处遁形。AI 对视频行业带来的是重大的利好。

对于机器学习,一个优质的训练平台可以实现事半功倍的效果。目前英特尔主推的至强可扩展处理器可以很好的进行 inference,英特尔一方面会帮用户进行测试选型,从不同的 CPU 型号中选择最适合的主频和核数的 CPU 来支撑用户业务,提供最好的性能和 TCO;另一方面则是提供针对英特尔平台优化的深度学习软件框架使至强 CPU 性能的得到最大发挥,英特尔工程师也可以根据用户的具体需求进行有针对性的调优,比如根据拓扑结构等进行特定的算法优化,借助英特尔的平台提升深度学习的性能。通过提供英特尔优化版 Caffe、TensorFlow、MXNet 等机器学习框架,用户可以最大程度利用英特尔至强可扩展处理器的 AVX-512 指令集来达到性能提升,在终端设备上英特尔提供的 Movidius VPU 等硬件加速器也可以实现图像及视频的分析加速,通过引入英特尔 FPGA 等更多的新硬件也能够在提供高性能的同时进一步降低延迟。