写点什么

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

2019 年 11 月 08 日

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

“我们是全世界第一家真正把实时音视频能力做成简单易用的 API,开放给开发者和合作公司来使用。我们在这方面所做的努力,也在过去每一年的 RTC 大会里逐步辐射给互联网和实时互联网行业的参与者,给大家提供更多的服务。”这是声网 Agora CEO 赵斌在 10 月 24 日声网品牌发布会上的一句话。


而这句话的底气正是来自整个声网技术团队对实时音视频技术 6 年的坚持。RTC 大会的第五年圆满落幕,随着 AI、5G 等新技术的兴起,有更多的未知和挑战在触动技术人的心弦。InfoQ 记者在 RTC 大会期间采访到声网首席科学家钟声,听他讲述实时音视频技术背后的故事。


“实时交互是我们与生俱来的本能和需求”


钟声提到,RTC 的核心就是把用户的体验做到最好,其中最关键的是用先进的算法实现音视频处理和传输不卡不糊不延时。所以,算法的先进性是核心竞争力。“声网近一年来在研发下一代实时编码传输技术,其中部分已经完成,一些客户已经开始试用。下一代实时传输技术可以让视频在极端网络条件下,甚至在 80% 丢包的情况下,还能实现低延时下比较流畅地传输,全面提升视频传输在各种网络条件下的鲁棒性。”


随着视频业务的增长,越来越多的客户或用户在享用高清、甚至 4K 的内容和服务。这对网络带宽的压力非常大,导致经常会出现拥堵的问题。那么,如何在保证视频质量的情况下,还可以取得额外 30% 甚至更多的压缩?


钟声提到,在视频编码和传输的过程中,在低延时的情况下,有效对抗 80% 的网络丢包率十分考验公司的技术实力。“声网新一代技术可以做到在 80% 的丢包环境下保障视频流畅。在提升视频图像质量和编码效率方面,利用人工智能的深度学习算法可以取得额外 30% 的编码效率的提升,而不牺牲视频质量。”


声网 1.0——>声网 2.0


钟声提到,“我是 2017 年年底来到声网,主要任务就是把实时音视频技术从 1.0 提升到 2.0。”以视频技术为例,当一个图象采集进来之后,首先要做前处理,比如降噪、美颜、加贴纸、风格转换等操作,这是第一步。接下来要做压缩和编码,就是将原始的视频数据压缩后上传至网上。压缩的诉求就是把数据压得越小越好,同时还需要让画质的损失控制在人们可接受的程度,并且对传输友好。互联网是有带宽制约的,端到端各节点上也会出现不理想的条件,因此经常会出现拥堵或丢包的情况,这就要求编码和传输的技术能对抗丢包,对抗网络拥堵。要做到这一点,需要传输算法和编码算法的结合。在数据传输到云端的过程中,要找到一条路径可以快速稳定地传输到另一方,这是基本诉求。在接收端接收到信息后,要做解码和后处理,后处理就需要考虑到图像质量的提升,以及一些丢包隐藏技术的使用,最终呈现出让用户感觉很舒适的视频。


声网的第一代算法相对比较朴素,搭建了一套从前端到后端的架构体系。“我加入后的第一个任务,就是识别各环节上的不足或者需要改进的和可以改进的地方,从而设计出使整体水平跃升一个台阶的关键技术。这个过程中,我们提出和设计出了一系列可感知、可衡量的具体改进方法,和团队在前处理、编解码、传输、后处理上都设计出了一些有效的新算法和新架构。其中,一些创新的深度学习和机器学习算法也带来了可观的效果。”


实际环境中的实时传输会出现各种状况。钟声提到,而用户对于音视频体验的优化需求是无止境的,出现任何问题,不要奢求用户会理解或容忍,而是要主动想办法去解决,把优质体验率提升到 90%,再提升到 99%、99.9% 等,做无止境的努力。


5G 到来,RTC 会如何发展?


实时互动音视频行业将有 40 多亿美元的市场空间,整个行业的成长与发展空间都处于良好态势。未来,在更多音视频服务提供商的推动下,虚拟世界将与现实世界不断融合,让世界实时互动仅在毫秒间。


5G 是一个慢慢发展的过程,离真正普及还有一段距离,并且在很长时间里,将是 5G、4G、甚至还有 3G、2G 并存的情况。钟声解释:“在一定时间范围内,5G 的新应用会带来一些比较突出的问题,比如 5G/4G 切换不自然和拥塞。现在实时互动传输 720P 视频,会觉得这已经是很高的质量了。等到 5G 之后,4K/8K 的内容会很多。这就导致带宽会被快速地占掉,进而会出现拥塞、延时、丢包等问题。”


在未来,RTC 服务的界限会变得越来越模糊,多种技术的结合也会变得越来越普遍。在 4G 时代,解决丢包问题是声网在 RTC 领域拥有卓越表现的关键。随着 5G 的到来,带宽只是其中一个环节,数据传输依旧面临与 4G 时代同样的问题。声网除了继续优化传输质量之外,还将与 VR、AR、AI 技术相结合,拓宽使用场景,在 AI 教育、工业智能制造等领域持续发力。


5G 的传输速度对于 RTC 来说是特别必要的吗?


钟声解释,这里面其实是用户的内容消费趋势和心理在起作用。当你体验过更好质量的东西之后,你就很难退回到之前的状态了。举例来说,很多年前大家看 VCD 看得很开心,后来 DVD 来了,没人看 VCD 了。再后来高清的设备出现后 ,没有人看 DVD 了。现在屏幕上每秒 15 帧,仔细看其实是可以看的到视频是抖动的,因为不够平滑。一些大型的直播或音乐会、体育赛事等,都是需要至少每秒 60 帧。“目前我们夸耀的音视频质量,可能在下一代看来,是不可接受的。”


超分辨率等技术的发展空间



图像超分辨率越来越成为计算机视觉的一个热点,之所以火起来是因为深度神经网络大大改进了图像超分辨率的效果,实际应用希望超分辨率能成为降低越来越高的图像、视频数据存储和传输成本的新方向。


什么是图像的超分辨率技术?


简单来说,就是将一张或多张分辨率较低的图像,通过一定的技术手段,生成一张或多张分辨率高的图像。举例来说,在监控领域,通过监控画面想看清嫌疑人的脸,这个放大的过程,其实没有那么简单,需要通过超分辨率重建技术放大选定区域内的像素,形成清晰的图像。


超分辨率是计算机视觉里比较底层的一个问题,得益于深度学习的算法,尤其是近几年生成对抗网络的兴起,能够根据内容假想出一些东西来。比如说一片草坪,有可能生成一些草尖,这些草尖本来是没有的,是根据人的视觉感受假想出来的。这就不是在原来的频率上做一些调整,而是新增加了一些频率。钟声提到,“这是很有挑战的一件事。可能会有一些公司在服务端可以实现,比如做离线处理。但声网追求的是实时处理,这个要求更高。” 声网最新的 SDK 目前已经实现了在某些移动设备上 360P 到 720P 的实时超分算法。


另外,声网目前已经利用深度学习技术做基于感知的压缩算法,有力地提高了视频的压缩率。其最新的 SDK 也已经集成了这个算法。


2020 RTC 未完待续在接受采访时,钟声提到:“作为一家技术公司,只有先进的技术才可以使得我们保持竞争力。在人工智能和 5G 来临的时代,利用先进的技术让实时交互的本能和需求在虚拟的世界得以保持。这是我们一直在追求的事情。”


2020 年,声网的整个技术体系还会升级,在不卡不糊不延时方面将继续优化。另外,AI 将是声网另外一个重点发力方向,“我们已经用 AI 解决了很多问题,未来还会做视频风格转换,做分割,做情感计算或视频理解;在音频方面也会有风格转换、带宽拓展,做自然语言理解、翻译,做数据挖掘等,使人机交互或人与人之间的交互更自然、更高效。比如可以提供自动翻译不同语言的功能,这样人与人之间就可以无障碍地沟通。如果能够提供一个办法让机器理解人,那么人机交互也会变得自然和有效。”


举个例子,在教学的时候,老师可以通过 AI 脸部识别,及时了解学生是否专心听讲,通过学生的表情、状态判断其对于内容的感兴趣程度。再比如,对于许许多多的留守儿童,也能远程关爱孩子们,这也是教育大背景下的一种人文关怀。


5G 来了,带来了很多的商业机会、商业模式,比如金融可以通过视频实时处理来办理业务,不需要再到营业厅去等候;比如保险定损,一个小事故通过视频保安就定损了。未来类似这样的应用会越来越多。声网将会先主要解决在 5G 场景下可能存在的一些问题:因为 5G 和 4G 是长期共存的,那么它们之间的切换就会很频繁,只为 5G 打造的应用是没有自适应的切换能力,即便是在纯 5G 时代,5G 信号覆盖很好的时候,实现类似于 360 度的 VR 也是比较有挑战的,因为它需要整个从端上,从边缘到云,到网络的巨大升级,在算法层面也要求用更加聪明的算法,去降低成本,进而承载新业务。“而这些,都需要我们和业界同仁一起去攻克。”


正如钟声在采访结束时提到的:“生逢 AI 和 5G 交叠的时代,有很多未知和挑战,作为技术人员,我们已经等不及要去创造更好的技术了。”



2019 年 11 月 08 日 13:492761
用户头像

发布了 123 篇内容, 共 33.7 次阅读, 收获喜欢 142 次。

关注

评论 1 条评论

发布
用户头像
RTC大会的第五年,声网还在坚持技术布道,每一年都有惊喜。正如钟声在接受采访的时候提到,每年大会立下了目标,明年再看实现了没有。
2019 年 11 月 08 日 11:22
回复
没有更多了
发现更多内容

智慧社区综合应用平台搭建,社区管理解决方案

t13823115967

智慧社区管理平台开发 智慧平安社区平台建设

开设赌场的CTO | 法庭上的CTO(23)

赵新龙

CTO 法庭上的CTO

ArrayList源代码分析

肥鱼先生

盘点2020 | YourBatman 2020年感悟关键词:科比、裁员、管理层、活着

YourBatman

裁员 盘点2020 科比 管理层 活着

全面 Severless 化只需要 7天!看南瓜电影的云上升级

阿里巴巴中间件

阿里巴巴 中间件

IPFS云算力挖矿系统开发详解案例及源码

系统开发咨询1357O98O718

云算力挖矿系统开发详解 云算力APP系统软件开发 云算力模式系统开发源码 云算力软件系统开发定制

时空大数据与智能技术的时代共舞,百度地图给2020的答案

脑极体

Spring cloud Gateway(二) 一个Http请求的流程解析

Java 网关

为了搞清楚类加载,竟然手撸JVM!

小傅哥

JVM 小傅哥 类加载 生命周期 加载机制

鸟枪换炮,利用python3对球员做大数据降维(因子分析得分),为C罗找到合格僚机

刘悦的技术博客

Python 数据分析 特征选择 降维

母鸡下蛋实例:多线程通信生产者和消费者wait/notify和condition/await/signal条件队列

叫练

多线程与高并发 Wait lock 线程互斥 await

SpringCloudGateway(一) 概览

Java SpringcloudGateway

Serverless 在 SaaS 领域的最佳实践

阿里巴巴中间件

阿里巴巴 中间件

互联网大厂有哪些分库分表的思路和技巧?

冰河

分布式数据库 分库分表 分布式存储 数据一致性 数据同步

犯”集资诈骗罪“、二审判6年的CTO | 法庭上的CTO(21)

赵新龙

CTO 法庭上的CTO

生产环境全链路压测建设历程 23:FAQ 3、4 适配改造,目标压力

数列科技杨德华

全链路压测 七日更

被砍伤的技术VP | 法庭上的CTO(24)

赵新龙

CTO 法庭上的CTO

散布消极言论被开除的总监 | 法庭上的CTO(25)

赵新龙

CTO 法庭上的CTO

IPFS挖矿矿机系统开发方案丨IPFS挖矿矿机源码案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿系统开发搭建

年末了,放个大招,力软.net/java新产品附赠服务器,不容错过

力软.net/java开发平台

Java .net 服务器

阿里P8大牛亲自讲解!6年菜鸟开发面试字节跳动安卓研发岗,成功收获美团,小米安卓offer

欢喜学安卓

android 程序员 面试 移动开发

阿里P8大牛亲自讲解!Android高级工程师面试实战,Android岗

欢喜学安卓

android 程序员 面试 移动开发

盘点2020 | 2021,Begin Again !

大导演

前端进阶训练营 盘点2020

NoahTenet诺亚信条软件系统APP开发

开發I852946OIIO

系统开发

公安警务报警系统,二维码一键定位报警

t13823115967

二维码定位报警系统开发 微警务 二维码定位

侵犯著作权、判刑两年半的 CTO |法庭上的CTO(22)

赵新龙

CTO 法庭上的CTO

IPFS挖矿系统开发详情案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿软件系统开发

图解HTTP权威指南(三)| Web服务器对HTTP请求的处理和响应

李先生

DevOps 运维 HTTP SRE

总结2020:5个月出版两本书,日更公众号是一种怎样的体验?

冰河

程序员 程序人生 年终总结

架构师训练营第一周作业

Mark

10次面试,2份offer —— 大龄程序员 2020 求职记录

escray

面试经历 架构师训练营第 1 期 101次面试

NLP领域的2020年大事记及2021展望

NLP领域的2020年大事记及2021展望

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了-InfoQ