写点什么

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

  • 2019-11-08
  • 本文字数:3377 字

    阅读完需:约 11 分钟

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了

“我们是全世界第一家真正把实时音视频能力做成简单易用的 API,开放给开发者和合作公司来使用。我们在这方面所做的努力,也在过去每一年的 RTC 大会里逐步辐射给互联网和实时互联网行业的参与者,给大家提供更多的服务。”这是声网 Agora CEO 赵斌在 10 月 24 日声网品牌发布会上的一句话。


而这句话的底气正是来自整个声网技术团队对实时音视频技术 6 年的坚持。RTC 大会的第五年圆满落幕,随着 AI、5G 等新技术的兴起,有更多的未知和挑战在触动技术人的心弦。InfoQ 记者在 RTC 大会期间采访到声网首席科学家钟声,听他讲述实时音视频技术背后的故事。

“实时交互是我们与生俱来的本能和需求”

钟声提到,RTC 的核心就是把用户的体验做到最好,其中最关键的是用先进的算法实现音视频处理和传输不卡不糊不延时。所以,算法的先进性是核心竞争力。“声网近一年来在研发下一代实时编码传输技术,其中部分已经完成,一些客户已经开始试用。下一代实时传输技术可以让视频在极端网络条件下,甚至在 80% 丢包的情况下,还能实现低延时下比较流畅地传输,全面提升视频传输在各种网络条件下的鲁棒性。”


随着视频业务的增长,越来越多的客户或用户在享用高清、甚至 4K 的内容和服务。这对网络带宽的压力非常大,导致经常会出现拥堵的问题。那么,如何在保证视频质量的情况下,还可以取得额外 30% 甚至更多的压缩?


钟声提到,在视频编码和传输的过程中,在低延时的情况下,有效对抗 80% 的网络丢包率十分考验公司的技术实力。“声网新一代技术可以做到在 80% 的丢包环境下保障视频流畅。在提升视频图像质量和编码效率方面,利用人工智能的深度学习算法可以取得额外 30% 的编码效率的提升,而不牺牲视频质量。”

声网 1.0——>声网 2.0

钟声提到,“我是 2017 年年底来到声网,主要任务就是把实时音视频技术从 1.0 提升到 2.0。”以视频技术为例,当一个图象采集进来之后,首先要做前处理,比如降噪、美颜、加贴纸、风格转换等操作,这是第一步。接下来要做压缩和编码,就是将原始的视频数据压缩后上传至网上。压缩的诉求就是把数据压得越小越好,同时还需要让画质的损失控制在人们可接受的程度,并且对传输友好。互联网是有带宽制约的,端到端各节点上也会出现不理想的条件,因此经常会出现拥堵或丢包的情况,这就要求编码和传输的技术能对抗丢包,对抗网络拥堵。要做到这一点,需要传输算法和编码算法的结合。在数据传输到云端的过程中,要找到一条路径可以快速稳定地传输到另一方,这是基本诉求。在接收端接收到信息后,要做解码和后处理,后处理就需要考虑到图像质量的提升,以及一些丢包隐藏技术的使用,最终呈现出让用户感觉很舒适的视频。


声网的第一代算法相对比较朴素,搭建了一套从前端到后端的架构体系。“我加入后的第一个任务,就是识别各环节上的不足或者需要改进的和可以改进的地方,从而设计出使整体水平跃升一个台阶的关键技术。这个过程中,我们提出和设计出了一系列可感知、可衡量的具体改进方法,和团队在前处理、编解码、传输、后处理上都设计出了一些有效的新算法和新架构。其中,一些创新的深度学习和机器学习算法也带来了可观的效果。”


实际环境中的实时传输会出现各种状况。钟声提到,而用户对于音视频体验的优化需求是无止境的,出现任何问题,不要奢求用户会理解或容忍,而是要主动想办法去解决,把优质体验率提升到 90%,再提升到 99%、99.9% 等,做无止境的努力。

5G 到来,RTC 会如何发展?

实时互动音视频行业将有 40 多亿美元的市场空间,整个行业的成长与发展空间都处于良好态势。未来,在更多音视频服务提供商的推动下,虚拟世界将与现实世界不断融合,让世界实时互动仅在毫秒间。


5G 是一个慢慢发展的过程,离真正普及还有一段距离,并且在很长时间里,将是 5G、4G、甚至还有 3G、2G 并存的情况。钟声解释:“在一定时间范围内,5G 的新应用会带来一些比较突出的问题,比如 5G/4G 切换不自然和拥塞。现在实时互动传输 720P 视频,会觉得这已经是很高的质量了。等到 5G 之后,4K/8K 的内容会很多。这就导致带宽会被快速地占掉,进而会出现拥塞、延时、丢包等问题。”


在未来,RTC 服务的界限会变得越来越模糊,多种技术的结合也会变得越来越普遍。在 4G 时代,解决丢包问题是声网在 RTC 领域拥有卓越表现的关键。随着 5G 的到来,带宽只是其中一个环节,数据传输依旧面临与 4G 时代同样的问题。声网除了继续优化传输质量之外,还将与 VR、AR、AI 技术相结合,拓宽使用场景,在 AI 教育、工业智能制造等领域持续发力。


5G 的传输速度对于 RTC 来说是特别必要的吗?


钟声解释,这里面其实是用户的内容消费趋势和心理在起作用。当你体验过更好质量的东西之后,你就很难退回到之前的状态了。举例来说,很多年前大家看 VCD 看得很开心,后来 DVD 来了,没人看 VCD 了。再后来高清的设备出现后 ,没有人看 DVD 了。现在屏幕上每秒 15 帧,仔细看其实是可以看的到视频是抖动的,因为不够平滑。一些大型的直播或音乐会、体育赛事等,都是需要至少每秒 60 帧。“目前我们夸耀的音视频质量,可能在下一代看来,是不可接受的。”

超分辨率等技术的发展空间


图像超分辨率越来越成为计算机视觉的一个热点,之所以火起来是因为深度神经网络大大改进了图像超分辨率的效果,实际应用希望超分辨率能成为降低越来越高的图像、视频数据存储和传输成本的新方向。


什么是图像的超分辨率技术?


简单来说,就是将一张或多张分辨率较低的图像,通过一定的技术手段,生成一张或多张分辨率高的图像。举例来说,在监控领域,通过监控画面想看清嫌疑人的脸,这个放大的过程,其实没有那么简单,需要通过超分辨率重建技术放大选定区域内的像素,形成清晰的图像。


超分辨率是计算机视觉里比较底层的一个问题,得益于深度学习的算法,尤其是近几年生成对抗网络的兴起,能够根据内容假想出一些东西来。比如说一片草坪,有可能生成一些草尖,这些草尖本来是没有的,是根据人的视觉感受假想出来的。这就不是在原来的频率上做一些调整,而是新增加了一些频率。钟声提到,“这是很有挑战的一件事。可能会有一些公司在服务端可以实现,比如做离线处理。但声网追求的是实时处理,这个要求更高。” 声网最新的 SDK 目前已经实现了在某些移动设备上 360P 到 720P 的实时超分算法。


另外,声网目前已经利用深度学习技术做基于感知的压缩算法,有力地提高了视频的压缩率。其最新的 SDK 也已经集成了这个算法。


2020 RTC 未完待续在接受采访时,钟声提到:“作为一家技术公司,只有先进的技术才可以使得我们保持竞争力。在人工智能和 5G 来临的时代,利用先进的技术让实时交互的本能和需求在虚拟的世界得以保持。这是我们一直在追求的事情。”


2020 年,声网的整个技术体系还会升级,在不卡不糊不延时方面将继续优化。另外,AI 将是声网另外一个重点发力方向,“我们已经用 AI 解决了很多问题,未来还会做视频风格转换,做分割,做情感计算或视频理解;在音频方面也会有风格转换、带宽拓展,做自然语言理解、翻译,做数据挖掘等,使人机交互或人与人之间的交互更自然、更高效。比如可以提供自动翻译不同语言的功能,这样人与人之间就可以无障碍地沟通。如果能够提供一个办法让机器理解人,那么人机交互也会变得自然和有效。”


举个例子,在教学的时候,老师可以通过 AI 脸部识别,及时了解学生是否专心听讲,通过学生的表情、状态判断其对于内容的感兴趣程度。再比如,对于许许多多的留守儿童,也能远程关爱孩子们,这也是教育大背景下的一种人文关怀。


5G 来了,带来了很多的商业机会、商业模式,比如金融可以通过视频实时处理来办理业务,不需要再到营业厅去等候;比如保险定损,一个小事故通过视频保安就定损了。未来类似这样的应用会越来越多。声网将会先主要解决在 5G 场景下可能存在的一些问题:因为 5G 和 4G 是长期共存的,那么它们之间的切换就会很频繁,只为 5G 打造的应用是没有自适应的切换能力,即便是在纯 5G 时代,5G 信号覆盖很好的时候,实现类似于 360 度的 VR 也是比较有挑战的,因为它需要整个从端上,从边缘到云,到网络的巨大升级,在算法层面也要求用更加聪明的算法,去降低成本,进而承载新业务。“而这些,都需要我们和业界同仁一起去攻克。”


正如钟声在采访结束时提到的:“生逢 AI 和 5G 交叠的时代,有很多未知和挑战,作为技术人员,我们已经等不及要去创造更好的技术了。”



2019-11-08 13:493947
用户头像

发布了 124 篇内容, 共 49.9 次阅读, 收获喜欢 177 次。

关注

评论 1 条评论

发布
用户头像
RTC大会的第五年,声网还在坚持技术布道,每一年都有惊喜。正如钟声在接受采访的时候提到,每年大会立下了目标,明年再看实现了没有。
2019-11-08 11:22
回复
没有更多了
发现更多内容

“创新驱动·融合发展”长三角软件产业盛会“2024南京软博会”

AIOTE智博会

软件展会 软博会 南京软博会

云南大理等级保护测评机构在哪里?电话多少?

行云管家

等保 云南

AI助力低代码平台:从智能化到高效交付的全新变革

天津汇柏科技有限公司

低代码 AI 人工智能

TiDB 和 Flink 数据集成实战

TiDB 社区干货传送门

“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!

天翼云开发者社区

云计算 大模型 天翼云

百度网盘企业版数据快速上云,数据流转平台 CloudFlow 加速大模型训练迭代

Baidu AICLOUD

数据迁移 百度网盘 数据流转

一种面向混合云平台基于LSTM预测模型的资源池配额方法。

天翼云开发者社区

云平台 预测模型 LSTM

华为发布智算数据中心基础设施十大建设原则

极客天地

还在自己实现责任链?我建议你造轮子之前先看看这个开源项目

京东科技开发者

万界星空科技商业开源MES系统全面解析

万界星空科技

开源 mes 开源mes 万界星空科技 mes源码

参赛故事|背水一战的机会,金蝶云苍穹助我圆保研梦

金蝶云·苍穹

开发者大赛 金蝶 金蝶云苍穹 中国软件杯

链游开发:TON链小游戏与其他链DApp小游戏开发指南

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 公链开发

绿色成就+1!天翼云在“新绿杯”斩获佳绩!

天翼云开发者社区

云计算 存储 天翼云

java线程池使用指南

巧手打字通

Java 性能优化 线程池

RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验

汀丶人工智能

智能问答 rag RAGflow

行业革新,数据先行:智源研究院数据与行业应用 Workshop第三期

智源研究院

《2024网络安全十大创新方向》发布,云起无垠引领新风向

云起无垠

Gradio离线部署到内网,资源加载失败问题(Gradio离线部署问题解决方法)

明金同学

Zilliz Cloud 最新功能速览:迁移服务、Fivetran Connector、多副本 Replica

Zilliz

AI 向量数据库 zilliz cloud

京东商品属性的详细api数据解析:颜色、尺寸与材质

技术冰糖葫芦

API Gateway API 接口 API 测试 pinduoduo API

【Tomcat源码分析】从零开始理解 HTTP 请求处理 (第一篇)

派大星

tomcat源码解读

掌握IT资产发现的三个步骤

ServiceDesk_Plus

IT资产 IT资产安全 IT资产管理

解密Elasticsearch:深入探究这款搜索和分析引擎

京东科技开发者

云栖大会Day1:云应用开发平台 CAP 来了

阿里巴巴云原生

阿里云 云原生 云栖大会

第二届Apache Flink极客挑战赛冠军比赛攻略_SkyPeaceLL队

阿里云天池

VLDB来啦!企业上云“搭子”天翼云TeleDB数据库有话说

天翼云开发者社区

数据库 云计算 天翼云

华为Mate XT 非凡大师 大屏阅读 海量好书非凡体验尽在掌握

最新动态

在k8s上部署tidb数据库

TiDB 社区干货传送门

eggtart队比赛攻略

阿里云天池

望繁信科技受邀出席ACS2023,为汽车行业数智化护航添翼

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 数字北极星

在 80% 的丢包环境下还能保障视频流畅?背后的这群技术人太拼了_架构_关贺宇_InfoQ精选文章