写点什么

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

  • 2019-11-08
  • 本文字数:3377 字

    阅读完需:约 11 分钟

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

“我们是全世界第一家真正把实时音视频能力做成简单易用的 API,开放给开发者和合作公司来使用。我们在这方面所做的努力,也在过去每一年的 RTC 大会里逐步辐射给互联网和实时互联网行业的参与者,给大家提供更多的服务。”这是声网 Agora CEO 赵斌在 10 月 24 日声网品牌发布会上的一句话。


而这句话的底气正是来自整个声网技术团队对实时音视频技术 6 年的坚持。RTC 大会的第五年圆满落幕,随着 AI、5G 等新技术的兴起,有更多的未知和挑战在触动技术人的心弦。InfoQ 记者在 RTC 大会期间采访到声网首席科学家钟声,听他讲述实时音视频技术背后的故事。

“实时交互是我们与生俱来的本能和需求”

钟声提到,RTC 的核心就是把用户的体验做到最好,其中最关键的是用先进的算法实现音视频处理和传输不卡不糊不延时。所以,算法的先进性是核心竞争力。“声网近一年来在研发下一代实时编码传输技术,其中部分已经完成,一些客户已经开始试用。下一代实时传输技术可以让视频在极端网络条件下,甚至在 80% 丢包的情况下,还能实现低延时下比较流畅地传输,全面提升视频传输在各种网络条件下的鲁棒性。”


随着视频业务的增长,越来越多的客户或用户在享用高清、甚至 4K 的内容和服务。这对网络带宽的压力非常大,导致经常会出现拥堵的问题。那么,如何在保证视频质量的情况下,还可以取得额外 30% 甚至更多的压缩?


钟声提到,在视频编码和传输的过程中,在低延时的情况下,有效对抗 80% 的网络丢包率十分考验公司的技术实力。“声网新一代技术可以做到在 80% 的丢包环境下保障视频流畅。在提升视频图像质量和编码效率方面,利用人工智能的深度学习算法可以取得额外 30% 的编码效率的提升,而不牺牲视频质量。”

声网 1.0——>声网 2.0

钟声提到,“我是 2017 年年底来到声网,主要任务就是把实时音视频技术从 1.0 提升到 2.0。”以视频技术为例,当一个图象采集进来之后,首先要做前处理,比如降噪、美颜、加贴纸、风格转换等操作,这是第一步。接下来要做压缩和编码,就是将原始的视频数据压缩后上传至网上。压缩的诉求就是把数据压得越小越好,同时还需要让画质的损失控制在人们可接受的程度,并且对传输友好。互联网是有带宽制约的,端到端各节点上也会出现不理想的条件,因此经常会出现拥堵或丢包的情况,这就要求编码和传输的技术能对抗丢包,对抗网络拥堵。要做到这一点,需要传输算法和编码算法的结合。在数据传输到云端的过程中,要找到一条路径可以快速稳定地传输到另一方,这是基本诉求。在接收端接收到信息后,要做解码和后处理,后处理就需要考虑到图像质量的提升,以及一些丢包隐藏技术的使用,最终呈现出让用户感觉很舒适的视频。


声网的第一代算法相对比较朴素,搭建了一套从前端到后端的架构体系。“我加入后的第一个任务,就是识别各环节上的不足或者需要改进的和可以改进的地方,从而设计出使整体水平跃升一个台阶的关键技术。这个过程中,我们提出和设计出了一系列可感知、可衡量的具体改进方法,和团队在前处理、编解码、传输、后处理上都设计出了一些有效的新算法和新架构。其中,一些创新的深度学习和机器学习算法也带来了可观的效果。”


实际环境中的实时传输会出现各种状况。钟声提到,而用户对于音视频体验的优化需求是无止境的,出现任何问题,不要奢求用户会理解或容忍,而是要主动想办法去解决,把优质体验率提升到 90%,再提升到 99%、99.9% 等,做无止境的努力。

5G 到来,RTC 会如何发展?

实时互动音视频行业将有 40 多亿美元的市场空间,整个行业的成长与发展空间都处于良好态势。未来,在更多音视频服务提供商的推动下,虚拟世界将与现实世界不断融合,让世界实时互动仅在毫秒间。


5G 是一个慢慢发展的过程,离真正普及还有一段距离,并且在很长时间里,将是 5G、4G、甚至还有 3G、2G 并存的情况。钟声解释:“在一定时间范围内,5G 的新应用会带来一些比较突出的问题,比如 5G/4G 切换不自然和拥塞。现在实时互动传输 720P 视频,会觉得这已经是很高的质量了。等到 5G 之后,4K/8K 的内容会很多。这就导致带宽会被快速地占掉,进而会出现拥塞、延时、丢包等问题。”


在未来,RTC 服务的界限会变得越来越模糊,多种技术的结合也会变得越来越普遍。在 4G 时代,解决丢包问题是声网在 RTC 领域拥有卓越表现的关键。随着 5G 的到来,带宽只是其中一个环节,数据传输依旧面临与 4G 时代同样的问题。声网除了继续优化传输质量之外,还将与 VR、AR、AI 技术相结合,拓宽使用场景,在 AI 教育、工业智能制造等领域持续发力。


5G 的传输速度对于 RTC 来说是特别必要的吗?


钟声解释,这里面其实是用户的内容消费趋势和心理在起作用。当你体验过更好质量的东西之后,你就很难退回到之前的状态了。举例来说,很多年前大家看 VCD 看得很开心,后来 DVD 来了,没人看 VCD 了。再后来高清的设备出现后 ,没有人看 DVD 了。现在屏幕上每秒 15 帧,仔细看其实是可以看的到视频是抖动的,因为不够平滑。一些大型的直播或音乐会、体育赛事等,都是需要至少每秒 60 帧。“目前我们夸耀的音视频质量,可能在下一代看来,是不可接受的。”

超分辨率等技术的发展空间


图像超分辨率越来越成为计算机视觉的一个热点,之所以火起来是因为深度神经网络大大改进了图像超分辨率的效果,实际应用希望超分辨率能成为降低越来越高的图像、视频数据存储和传输成本的新方向。


什么是图像的超分辨率技术?


简单来说,就是将一张或多张分辨率较低的图像,通过一定的技术手段,生成一张或多张分辨率高的图像。举例来说,在监控领域,通过监控画面想看清嫌疑人的脸,这个放大的过程,其实没有那么简单,需要通过超分辨率重建技术放大选定区域内的像素,形成清晰的图像。


超分辨率是计算机视觉里比较底层的一个问题,得益于深度学习的算法,尤其是近几年生成对抗网络的兴起,能够根据内容假想出一些东西来。比如说一片草坪,有可能生成一些草尖,这些草尖本来是没有的,是根据人的视觉感受假想出来的。这就不是在原来的频率上做一些调整,而是新增加了一些频率。钟声提到,“这是很有挑战的一件事。可能会有一些公司在服务端可以实现,比如做离线处理。但声网追求的是实时处理,这个要求更高。” 声网最新的 SDK 目前已经实现了在某些移动设备上 360P 到 720P 的实时超分算法。


另外,声网目前已经利用深度学习技术做基于感知的压缩算法,有力地提高了视频的压缩率。其最新的 SDK 也已经集成了这个算法。


2020 RTC 未完待续在接受采访时,钟声提到:“作为一家技术公司,只有先进的技术才可以使得我们保持竞争力。在人工智能和 5G 来临的时代,利用先进的技术让实时交互的本能和需求在虚拟的世界得以保持。这是我们一直在追求的事情。”


2020 年,声网的整个技术体系还会升级,在不卡不糊不延时方面将继续优化。另外,AI 将是声网另外一个重点发力方向,“我们已经用 AI 解决了很多问题,未来还会做视频风格转换,做分割,做情感计算或视频理解;在音频方面也会有风格转换、带宽拓展,做自然语言理解、翻译,做数据挖掘等,使人机交互或人与人之间的交互更自然、更高效。比如可以提供自动翻译不同语言的功能,这样人与人之间就可以无障碍地沟通。如果能够提供一个办法让机器理解人,那么人机交互也会变得自然和有效。”


举个例子,在教学的时候,老师可以通过 AI 脸部识别,及时了解学生是否专心听讲,通过学生的表情、状态判断其对于内容的感兴趣程度。再比如,对于许许多多的留守儿童,也能远程关爱孩子们,这也是教育大背景下的一种人文关怀。


5G 来了,带来了很多的商业机会、商业模式,比如金融可以通过视频实时处理来办理业务,不需要再到营业厅去等候;比如保险定损,一个小事故通过视频保安就定损了。未来类似这样的应用会越来越多。声网将会先主要解决在 5G 场景下可能存在的一些问题:因为 5G 和 4G 是长期共存的,那么它们之间的切换就会很频繁,只为 5G 打造的应用是没有自适应的切换能力,即便是在纯 5G 时代,5G 信号覆盖很好的时候,实现类似于 360 度的 VR 也是比较有挑战的,因为它需要整个从端上,从边缘到云,到网络的巨大升级,在算法层面也要求用更加聪明的算法,去降低成本,进而承载新业务。“而这些,都需要我们和业界同仁一起去攻克。”


正如钟声在采访结束时提到的:“生逢 AI 和 5G 交叠的时代,有很多未知和挑战,作为技术人员,我们已经等不及要去创造更好的技术了。”



2019-11-08 13:493840
用户头像

发布了 124 篇内容, 共 48.4 次阅读, 收获喜欢 177 次。

关注

评论 1 条评论

发布
用户头像
RTC大会的第五年,声网还在坚持技术布道,每一年都有惊喜。正如钟声在接受采访的时候提到,每年大会立下了目标,明年再看实现了没有。
2019-11-08 11:22
回复
没有更多了
发现更多内容

如何使用iMazing将iPhone的数据迁移到iPad

懒得勤快

iphone ipad 苹果 数据迁移 数据备份

【LeetCode】二叉搜索树节点最小距离Java题解

Albert

算法 LeetCode 4月日更

智慧公安重点人员管控系统搭建,重点人员管控解决方案

13828808769

智慧交通

区块链商品溯源平台--全流程捍卫食品安全

13530558032

区块链结合农业产业,平台全程溯源

电微13828808271

可视化运行Python的神器Jupyter Notebook

程序那些事

Python Jupyter Notebook 程序那些事

有了这个数据强一致“利器”,DBA们轻松修复数据对加班“say no”

华为云开发者联盟

存算分离 华为云数据库 GaussDB(for Cassandra) 强一致 开源Cassandra

MemVerge CEO表示基于大内存的基础架构将取代性能层级存储

Steven Xu

内存 存储 基础框架 傲腾

app启动速度优化,分享一点面试小经验,最全的BAT大厂面试题整理

欢喜学安卓

android 程序员 面试 移动开发

nginx性能优化--配置解析

箭上有毒

nginx 性能测试 4月日更

什么是自然语言处理(NLP)?

澳鹏Appen

人工智能 自然语言处理 聊天机器人 nlp 自然语言

MySQL数据库函数、DCL详解(及备份恢复操作)

若尘

MySQL 数据库 备份 DCL

Dubbo 编解码那些事

vivo互联网技术

dubbo RPC 序列化 编解码

书单|互联网企业面试案头书之产品经理篇

博文视点Broadview

CSS 学习笔记(一) 选择器

U2647

CSS CSS小技巧 4月日更

GopherChina 2021 定了,干货满满的来了

谢孟军

Go 语言 GopherChina

2021金三银四面试必备?体系化带你学习:分布式进阶技术手册

比伯

Java 架构 程序人生 编程语言 技术宅

安卓rxjava使用,现在做Android开发有前途吗?附面试题答案

欢喜学安卓

android 程序员 面试 移动开发

区块链农产品防伪溯源平台,助力赣南脐橙产业发展

13828808769

区块链+ #区块链#

Linux crontab 命令

一个大红包

Linux linux命令 4月日更

「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之docker部署(八)

crudapi

Docker Vue crud crudapi quasar

区块链“数据上链”管理系统

电微13828808271

区块链电子合同签署平台,区块链电子合同解决方案

13828808769

区块链+ #区块链#

解读金融高频交易不出错的金手指:分布式事务管理

华为云开发者联盟

微服务 事务 华为云 数据一致性 分布式事务管理

工业机器视觉系统相机如何选型?

不脱发的程序猿

工业物联网 4月日更 LabVIEW 工业视觉 工业机器视觉

java中三种内存溢出错误的处理方法

Sakura

4月日更

架构师训练营 模块2作业

eoeoeo

架构实战营

HECO火币生态链智能合约Dapp软件系统APP开发

系统开发

带你全面认识CMMI V2.0(终)——实施落地

IPD产品研发管理

项目管理 软件 CMMI

聊聊LiteOS事件模块的结构体、初始化及常用操作

华为云开发者联盟

LiteOS 事件 事件结构体 事件掩码

源中瑞区块链Baas平台--助力区块链应用落地

13530558032

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了_架构_关贺宇_InfoQ精选文章