2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

  • 2019-11-08
  • 本文字数:3377 字

    阅读完需:约 11 分钟

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

“我们是全世界第一家真正把实时音视频能力做成简单易用的 API,开放给开发者和合作公司来使用。我们在这方面所做的努力,也在过去每一年的 RTC 大会里逐步辐射给互联网和实时互联网行业的参与者,给大家提供更多的服务。”这是声网 Agora CEO 赵斌在 10 月 24 日声网品牌发布会上的一句话。


而这句话的底气正是来自整个声网技术团队对实时音视频技术 6 年的坚持。RTC 大会的第五年圆满落幕,随着 AI、5G 等新技术的兴起,有更多的未知和挑战在触动技术人的心弦。InfoQ 记者在 RTC 大会期间采访到声网首席科学家钟声,听他讲述实时音视频技术背后的故事。

“实时交互是我们与生俱来的本能和需求”

钟声提到,RTC 的核心就是把用户的体验做到最好,其中最关键的是用先进的算法实现音视频处理和传输不卡不糊不延时。所以,算法的先进性是核心竞争力。“声网近一年来在研发下一代实时编码传输技术,其中部分已经完成,一些客户已经开始试用。下一代实时传输技术可以让视频在极端网络条件下,甚至在 80% 丢包的情况下,还能实现低延时下比较流畅地传输,全面提升视频传输在各种网络条件下的鲁棒性。”


随着视频业务的增长,越来越多的客户或用户在享用高清、甚至 4K 的内容和服务。这对网络带宽的压力非常大,导致经常会出现拥堵的问题。那么,如何在保证视频质量的情况下,还可以取得额外 30% 甚至更多的压缩?


钟声提到,在视频编码和传输的过程中,在低延时的情况下,有效对抗 80% 的网络丢包率十分考验公司的技术实力。“声网新一代技术可以做到在 80% 的丢包环境下保障视频流畅。在提升视频图像质量和编码效率方面,利用人工智能的深度学习算法可以取得额外 30% 的编码效率的提升,而不牺牲视频质量。”

声网 1.0——>声网 2.0

钟声提到,“我是 2017 年年底来到声网,主要任务就是把实时音视频技术从 1.0 提升到 2.0。”以视频技术为例,当一个图象采集进来之后,首先要做前处理,比如降噪、美颜、加贴纸、风格转换等操作,这是第一步。接下来要做压缩和编码,就是将原始的视频数据压缩后上传至网上。压缩的诉求就是把数据压得越小越好,同时还需要让画质的损失控制在人们可接受的程度,并且对传输友好。互联网是有带宽制约的,端到端各节点上也会出现不理想的条件,因此经常会出现拥堵或丢包的情况,这就要求编码和传输的技术能对抗丢包,对抗网络拥堵。要做到这一点,需要传输算法和编码算法的结合。在数据传输到云端的过程中,要找到一条路径可以快速稳定地传输到另一方,这是基本诉求。在接收端接收到信息后,要做解码和后处理,后处理就需要考虑到图像质量的提升,以及一些丢包隐藏技术的使用,最终呈现出让用户感觉很舒适的视频。


声网的第一代算法相对比较朴素,搭建了一套从前端到后端的架构体系。“我加入后的第一个任务,就是识别各环节上的不足或者需要改进的和可以改进的地方,从而设计出使整体水平跃升一个台阶的关键技术。这个过程中,我们提出和设计出了一系列可感知、可衡量的具体改进方法,和团队在前处理、编解码、传输、后处理上都设计出了一些有效的新算法和新架构。其中,一些创新的深度学习和机器学习算法也带来了可观的效果。”


实际环境中的实时传输会出现各种状况。钟声提到,而用户对于音视频体验的优化需求是无止境的,出现任何问题,不要奢求用户会理解或容忍,而是要主动想办法去解决,把优质体验率提升到 90%,再提升到 99%、99.9% 等,做无止境的努力。

5G 到来,RTC 会如何发展?

实时互动音视频行业将有 40 多亿美元的市场空间,整个行业的成长与发展空间都处于良好态势。未来,在更多音视频服务提供商的推动下,虚拟世界将与现实世界不断融合,让世界实时互动仅在毫秒间。


5G 是一个慢慢发展的过程,离真正普及还有一段距离,并且在很长时间里,将是 5G、4G、甚至还有 3G、2G 并存的情况。钟声解释:“在一定时间范围内,5G 的新应用会带来一些比较突出的问题,比如 5G/4G 切换不自然和拥塞。现在实时互动传输 720P 视频,会觉得这已经是很高的质量了。等到 5G 之后,4K/8K 的内容会很多。这就导致带宽会被快速地占掉,进而会出现拥塞、延时、丢包等问题。”


在未来,RTC 服务的界限会变得越来越模糊,多种技术的结合也会变得越来越普遍。在 4G 时代,解决丢包问题是声网在 RTC 领域拥有卓越表现的关键。随着 5G 的到来,带宽只是其中一个环节,数据传输依旧面临与 4G 时代同样的问题。声网除了继续优化传输质量之外,还将与 VR、AR、AI 技术相结合,拓宽使用场景,在 AI 教育、工业智能制造等领域持续发力。


5G 的传输速度对于 RTC 来说是特别必要的吗?


钟声解释,这里面其实是用户的内容消费趋势和心理在起作用。当你体验过更好质量的东西之后,你就很难退回到之前的状态了。举例来说,很多年前大家看 VCD 看得很开心,后来 DVD 来了,没人看 VCD 了。再后来高清的设备出现后 ,没有人看 DVD 了。现在屏幕上每秒 15 帧,仔细看其实是可以看的到视频是抖动的,因为不够平滑。一些大型的直播或音乐会、体育赛事等,都是需要至少每秒 60 帧。“目前我们夸耀的音视频质量,可能在下一代看来,是不可接受的。”

超分辨率等技术的发展空间


图像超分辨率越来越成为计算机视觉的一个热点,之所以火起来是因为深度神经网络大大改进了图像超分辨率的效果,实际应用希望超分辨率能成为降低越来越高的图像、视频数据存储和传输成本的新方向。


什么是图像的超分辨率技术?


简单来说,就是将一张或多张分辨率较低的图像,通过一定的技术手段,生成一张或多张分辨率高的图像。举例来说,在监控领域,通过监控画面想看清嫌疑人的脸,这个放大的过程,其实没有那么简单,需要通过超分辨率重建技术放大选定区域内的像素,形成清晰的图像。


超分辨率是计算机视觉里比较底层的一个问题,得益于深度学习的算法,尤其是近几年生成对抗网络的兴起,能够根据内容假想出一些东西来。比如说一片草坪,有可能生成一些草尖,这些草尖本来是没有的,是根据人的视觉感受假想出来的。这就不是在原来的频率上做一些调整,而是新增加了一些频率。钟声提到,“这是很有挑战的一件事。可能会有一些公司在服务端可以实现,比如做离线处理。但声网追求的是实时处理,这个要求更高。” 声网最新的 SDK 目前已经实现了在某些移动设备上 360P 到 720P 的实时超分算法。


另外,声网目前已经利用深度学习技术做基于感知的压缩算法,有力地提高了视频的压缩率。其最新的 SDK 也已经集成了这个算法。


2020 RTC 未完待续在接受采访时,钟声提到:“作为一家技术公司,只有先进的技术才可以使得我们保持竞争力。在人工智能和 5G 来临的时代,利用先进的技术让实时交互的本能和需求在虚拟的世界得以保持。这是我们一直在追求的事情。”


2020 年,声网的整个技术体系还会升级,在不卡不糊不延时方面将继续优化。另外,AI 将是声网另外一个重点发力方向,“我们已经用 AI 解决了很多问题,未来还会做视频风格转换,做分割,做情感计算或视频理解;在音频方面也会有风格转换、带宽拓展,做自然语言理解、翻译,做数据挖掘等,使人机交互或人与人之间的交互更自然、更高效。比如可以提供自动翻译不同语言的功能,这样人与人之间就可以无障碍地沟通。如果能够提供一个办法让机器理解人,那么人机交互也会变得自然和有效。”


举个例子,在教学的时候,老师可以通过 AI 脸部识别,及时了解学生是否专心听讲,通过学生的表情、状态判断其对于内容的感兴趣程度。再比如,对于许许多多的留守儿童,也能远程关爱孩子们,这也是教育大背景下的一种人文关怀。


5G 来了,带来了很多的商业机会、商业模式,比如金融可以通过视频实时处理来办理业务,不需要再到营业厅去等候;比如保险定损,一个小事故通过视频保安就定损了。未来类似这样的应用会越来越多。声网将会先主要解决在 5G 场景下可能存在的一些问题:因为 5G 和 4G 是长期共存的,那么它们之间的切换就会很频繁,只为 5G 打造的应用是没有自适应的切换能力,即便是在纯 5G 时代,5G 信号覆盖很好的时候,实现类似于 360 度的 VR 也是比较有挑战的,因为它需要整个从端上,从边缘到云,到网络的巨大升级,在算法层面也要求用更加聪明的算法,去降低成本,进而承载新业务。“而这些,都需要我们和业界同仁一起去攻克。”


正如钟声在采访结束时提到的:“生逢 AI 和 5G 交叠的时代,有很多未知和挑战,作为技术人员,我们已经等不及要去创造更好的技术了。”



2019-11-08 13:493921
用户头像

发布了 124 篇内容, 共 49.5 次阅读, 收获喜欢 177 次。

关注

评论 1 条评论

发布
用户头像
RTC大会的第五年,声网还在坚持技术布道,每一年都有惊喜。正如钟声在接受采访的时候提到,每年大会立下了目标,明年再看实现了没有。
2019-11-08 11:22
回复
没有更多了
发现更多内容

2020上半年百度Android岗(初级到高级)面试真题全收录

android 程序员 移动开发

2020倒计时,大厂核心送给每一个脚踏实地努力着的Android程序员,逆风前行

android 程序员 移动开发

大牛手撕阿里Spring框架:AOP、IOC、注解、事务,带你统统搞定

Java spring 框架 spring aop spring ioc

2020Android开发者学习路线(快速篇),分析android进程管理机制

android 程序员 移动开发

2020年8月30写篇文章,记录我的字节跳动客户端面试之旅!

android 程序员 移动开发

Flink 的运行架构详细剖析

五分钟学大数据

flink 11月日更

2020移动互联网寒冬(Android)求职随感,移动端开发框架

android 程序员 移动开发

2020年,初级、中级-Android-工程师可能因离职而失业吗

android 程序员 移动开发

2020最全的BAT大厂面试题整理改版,flutter菜鸟教程

android 程序员 移动开发

2020Android-目前最稳定和高效的UI适配方案!你头秃都没想到还能这样吧!

android 程序员 移动开发

2020你与字节跳动只差这份笔记,我靠着这份笔记,工资从15K到了40K

android 程序员 移动开发

2020在项目中使用MVVM的正确打开方式,你没用过的船新版本,还不快学学

android 程序员 移动开发

2020年最新字节、阿里、腾讯,移动开发技术总结

android 程序员 移动开发

2020年Android开发者常见面试题(一),android视频开发的面试问题

android 程序员 移动开发

2020年上半年最接地气的Android面经,为你进大厂保驾护航

android 程序员 移动开发

2020年腾讯丶百度丶字节丶OPPO等Android面试大全,附带教你如何写好简历

android 程序员 移动开发

等保测评机构推荐证书有效期是多久?到期后怎么办?

行云管家

网络安全 等级保护 等保测评 等保评测

2020你与字节跳动只差这份笔记,我靠着这份笔记,工资从15K到了40K(1)

android 程序员 移动开发

2020年GitHub-上那些优秀Android开源库,这里是Top10!建议收藏

android 程序员 移动开发

2020年是意义非凡的一年,大专的我面试阿里P6居然过了,flutter视频教程12套

android 程序员 移动开发

2020年疫情下的Android开发是否还有未来,面试4个月被17家公司拒绝

android 程序员 移动开发

【云计算】什么是私有云?可提供哪些服务?缺点是什么?

行云管家

云计算 公有云 私有云

2020字节跳动,腾讯,网易云,美团Android面试题

android 程序员 移动开发

2020展望Android原生开发的现状,android面试试题

android 程序员 移动开发

2020荒诞的一年,35岁程序员现状:我现在房贷车贷家庭,学习Android开发的步骤,

android 程序员 移动开发

2020请收好这一份全面-&-详细的Android学习指南,androidstudio播放音频

android 程序员 移动开发

2020Android面经,历时一个半月,斩获3个大厂offer,移动端开发工程师面试题

android 程序员 移动开发

2020一个Android大牛的面试经历分享(金九银十面试30多家公司)

android 程序员 移动开发

2020跳槽过后“带薪划水”偷刷阿里老哥的面经宝典,移动客户端开发框架

android 程序员 移动开发

2020倒计时,大厂核心送给每一个脚踏实地努力着的Android程序员,逆风前行(1)

android 程序员 移动开发

632页!我熬夜读完这份“高分宝典”,竟4面拿下字节跳动offer

Java 程序员 算法 结构

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了_架构_关贺宇_InfoQ精选文章