东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

专访张行功:2021,5G 将会倒逼传输协议、算法做出更多改进

  • 2021-03-05
  • 本文字数:3944 字

    阅读完需:约 13 分钟

专访张行功:2021,5G将会倒逼传输协议、算法做出更多改进

本文首发于 InfoQ,由声网 Agora 开发者社区 与 InfoQ 联合策划,并由 InfoQ 审校。


在 RTC 技术领域,如何兼顾实时视频传输的低延时和视频质量,以及如何评定视频传输质量,始终都是备受关注的话题。随着 5G 的商用,视频传输在协议层、应用层又面临着一些急需解决的变革。尽管不少 AI 模型在编解码、传输层已经开始落地应用,但其实 AI 模型还有很大的提升空间。我们邀请了北京大学王选计算机研究所的张行功教授,聊聊 2021 年视频传输技术、VR 视频以及 AI 模型在 RTC 领域应用,将会发生哪些改进与革新。

实时网络拥塞控制


声网开发者社区:您曾经在演讲中分享过实时网络拥塞控制的研究思路。有提到数据驱动的网络模型,用于预测网络状况,您还引入了神经网络。您认为目前网络拥塞控制算法的瓶颈是什么?引入神经网络带来哪些改变?


张行功:我们先看一下网络拥塞控制的目标是什么,尤其在实时音视频传输方面。第一个目标就是要求公平,其次就是低延时,最后是带宽使用率。


实现上述三个目标,最大的问题是无法预测其他用户行为方式,互联网是一个开放共享的网络。


另一个瓶颈就是由于存在网络延迟,无法获得最新的网络状态。


所以这些障碍会限制我们的决策,即决定应该发多少数据量,才能保证低延迟、高带宽,尤其在物理链路波动剧烈的 4G/5G 移动网络。


在一个不清楚网络状态和动态变化的网络环境下,要实现上述三个目标,那么这就是拥塞控制面临的最大挑战。传统上有很多种方法对网络带宽或者网络延时进行探测、建模,例如 AIMD、delay-based 等方法。但是由于互联网太过于复杂,尤其是互联网用户的行为不可预测,传统上用数学模型的方法来描述网络状态是已被证明不够准确的了。


基于上述原因,我们引入了神经网络和机器学习方法,进行拥塞控制研究。主要包括两部分,一部分是公平性目标,可采用数学模型,这是针对网络模型中可以抽象出来的,而且并且可以去验证和重现的特征,进行数学建模。另一部分是网络状态,尤其像现在的互联网状态,它缺乏比较明确的数学模型,那么采用统计和机器学习就是一个比较好的方法。


声网开发者社区:神经网络、深度学习,被当做工具应用到了很多 RTC 技术环节中,比如网络传输、编解码。仅视频网络传输层面,您认为 AI 模型这个工具是否已经被物尽其用了?还有哪些可以改进或发挥的空间?


张行功:在我看来,现在机器学习在网络中的使用,还处于一个非常初级的阶段。它的潜力还没有被充分挖掘出来,目前大家只是尝试用它解决一些简单问题,但有时效果并不好。


这里涉及到一个问题,什么地方适合用机器学习或 AI 模型,什么时候不适用?


其实并不是所有的问题,只要把数据给机器学习的模型,它都能处理。因为这也违背了人类对智能的定义。智能本来就分成演绎推理部分和归纳推理部分。AI 模型只能代表归纳部分,演绎推理的职能它还承担不了。


所以从这个角度来讲,我觉得机器学习的潜力远远的没有被发挥出来,尤其在网络领域,还有很多新的技术没有被发掘。


一个可能的改进方向,从目前来看,不管在网络传输还在编码部分的应用上,AI 模型一般都对数据有依赖,那么一旦换了一个数据集或换了一个场景,它的性能表现就会变差。


这其实证明了现在的机器学习算法有很大的局限性,其中最重要的一个问题就是模型在设计时,并没有针对于数据集的通用性和局限性,设计出一个泛化性能更好的,适用于不同场景的积极学习的模型。


所以,我觉得未来机器学习的发展,更会从一种模型复用和小样本学习的角度去设计,而不仅仅在神经网络本身去做优化。举个例子,我们在做传输的时候经常讲预测带宽。我们可以根据历史的数据,去预测未来的网络带宽。但是训练出来的模型,一旦换了一个网络环境,比如从 4G 到 5G,这时训练后的模型到新的环境下,泛化性就特别差。这也就是为什么一些新的机器学习的方法,会从架构上来改进。


声网开发者社区:目前大家普遍都是在 4G 网络下进行实验和应用落地。不过大家也在关注 5G。您认为 5G 商用后,视频传输相关的技术,比如从协议层面、算法层面,会需要作出哪些改进来适应这样的网络变化?


张行功:5G 出现后,会对传输层协议的要求更高,这里面主要有几个原因:首先是由于 5G 的带宽更大了,然后是由于 5G 的抖动,不管是延迟抖动还是带宽波动都会更大,已经远远超出了 4G 范畴。


这里先解释一下,为什么 5G 网络抖动会更大?通过测量发现,5G 是通过时间片方式调度频谱资源,这意味着将某个时间片分配给一个用户时,它带宽资源是独占的,但在其他时刻是得不到网络资源的。因此,如果我们从非常细的粒度,比如从某一个数据包的角度来看,它的延时波动以及数据包之间的带宽波动都会非常剧烈。5G 的理论带宽是 1GB/s,所以一旦出现某个时间片未将资源分配你的时候,那么你的带宽波动会非常大。


除了以上两点,5G 会带来边缘计算的普及,未来很多数据和服务都会放在一些边缘服务器上。边缘计算加上 5G 的整个物理带宽和延时的提升,会倒逼传输层协议的改进。不管是传统的 TCP 还是这些年大家比较关注的像 QUIC、BBR,以及一些私有协议。现在的传输层协议已经存在 40 年了,存在较大变革的需求。


另外从应用层的角度讲,比如说我们说的 ABR 或其它业务层相关的算法,随着 5G 商用后,都会在边缘节点发挥作用。因此,内容缓存算法、动态自适应、分布式视频编码和处理等,都会迁移到边缘节点上,而且对这些算法的性能和交互能力提出更高的要求。


5G 会推动 VR、AR、云游戏等实时视频应用场景的发展。从应用层的算法,包括刚刚提到的海量节点、小存储,到实时交互、边缘节点的业务层算法等都会得到改进。

VR 视频相关技术


声网开发者社区:您的研究中也有涉及到 VR 领域。您认为目前 VR 视频类应用,最急需解决的技术问题有哪些?分别有什么解决思路?


张行功:从广义来讲,VR 视频包含全景视频、AR、云游戏,因为现在很多云游戏也是基于视频的实时交互。所以这些都是属于 VR 视频的应用的体现形式。实际上其中最核心的问题有三个:


第一个问题就是它是一种实时交互式的视频。交互式视频就存在一个延时的问题,不管是我们看视频,还是去打云游戏,只要用户做一动作,或头部移动一个角度,画面就需要在 20ms 之内做出相应的反馈。否则,人的体验就会下降。


这对网络传输就提出了很高的要求。因为我们知道 20ms 是一个端到端的延时,而且是一个 round trip time,这里包含了网络、编解码、服务器处理、客户端渲染的延时。即使是未来实现边缘计算,想实现 20ms 的端到端往返延时也绝非易事。


第二个核心的问题就是人的运动预测。例如,我们看 VR 视频的时候会有头部的运动。未来会有 6DoF 的视频,我们不仅会有头部运动,还会在虚拟场景中运动。在这种情况下,我们如何去预测人的运动是一个非常重要且急需解决的问题。


运动预测主要是解决第一个延迟问题,从物理角度来讲,20ms 是一个难以达到的延时。现在业界提出的解决方案是通过预测人的运动,然后预加载数据。相当于在用户没有看到这一部分的视频画面的时候,我就把这个数据下载到本地。当用户移动到某个位置时,实际上就是从本地来获取这个画面,延时就小很多了。


但是,人的行为是有很大的随机性,所以随之而来的问题是如何去预测人的行为?比如我们观看 VR 视频时,每个人感兴趣的内容和位置可能都不一样。这是目前急需解决的一个难题。


第三个问题就是高通量数据。我们现在看到的这些 VR 视频可能还只是 4K、8K 分辨率的,它的码率大约在 100MB 级别。但是未来可能会有 16K,甚至 24K 的视频。16K 是什么概念呢?相当于我们在电视上看的 720P 平面视频。我们在电脑显示器上可观看的视角大约 30 度。如果将 720P 的视频延展为 360 度,这时候的数据量就相当于一个 16K 视频。 未来如果加入 6DoF 视频,支持用户在 VR 视频场景中自由活动,则会有更大的数据量。另外,AR、云游戏等场景也会产生越来越多的数据。


我们看到,硬件在不断发展。苹果已经可以实现单眼 8K 的 VR 终端了。但网络的发展实际上还没能跟上硬件的步伐。如此来看,很长时间以内,网络传输的瓶颈会始终存在。


在这方面,我们做了几个探索,一个是 QoE 驱动的视点传输。我们根据用户看的区域,传输对应的数据。这是一个比较有效的手段,已经在很多地方应用。


另一方面的研究是针对云游戏的。云游戏属于 VR 视频的一个分支,对延迟更加敏感,数据量也很大,同时用户交互行为更加复杂,很难进行动作预测。所以我们探索一种零延迟的画面预测方法,在一定程度上来解决交互延迟的问题。


声网开发者社区:一直以来,您都在研究事视频通信、网络传输相关的课题。从您的角度来看,您认为 2020 年这些方向出现了哪些值得一提的研究进展?您认为 2021 年最重要的技术趋势是什么?


张行功:从视频通信、网络传输方面,在 2020 年出现了一些比较新的场景,例如云游戏和云桌面。其本质上就是实时视频,但是技术挑战会比传统的视频更大。因为就像之前分析的,它的延时要求很苛刻,人的行为很难预测。2020 年有一些技术尝试,但是效果不是很理想。所以在 2021 年,业界还会有更多新角度的尝试来解决这些问题。


第二个就是面向 5G 以及卫星网络的研究和应用。5G 网络已经开始商用,卫星网络方面,我们已经可以看到 Elon Musk 的 StarLink 也开始提供测试服务了。所以面向新型网络的低延时传输研究也会是 2021 的热点之一。


视频传输方面。在 2020 年,机器学习、强化学习等方法更多地被用在了网络领域,包括传输层、应用层的视频通信。在 2021 年将会有更多这方面的研究,提供它的实用性和泛化能力。


最后,视频传输质量评价也是 2020 年重要的热点之一。由于现在网络视频的种类很多,包括实时视频、直播、短视频、VR 视频等,但传统上视频质量评价都是面向编码,但对传输的评价一直没有一个很好的框架。视频传输质量的监控和评价是业务的核心,包括由数据监测、质量评价到故障报警、修复的一套闭环的质量体系,将会是 2021 年被持续关注的热点之一。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-03-05 16:481898

评论

发布
暂无评论
发现更多内容

Java 日期和时间 API:实用技巧与示例 - 轻松处理日期和时间

小万哥

Java 程序人生 编程语言 软件工程 后端开发

好用工具清单——ver1.1

充实的orzi

工具 实用工具

软件测试学习笔记丨性能测试体系

测试人

软件测试

常用的数据分析方法和工具有哪些?

悦数图数据库

图数据库

百度智能云专有云 ABC Stack 平台通过一云多芯认证,为用户构建全栈国产化云平台

Baidu AICLOUD

专有云 一云多芯

CC攻击对网站的影响

德迅云安全杨德俊

架构实战营-模块一作业

满心

架构实战营

AI板块的io.net 为什么值得关注?

币离海

AI IO.NET

一文读懂 Databend 的开放表格式引擎

Databend

Frappe下解决Socket.io 的问题

麦兜

自定义对象池实践

FunTester

一键打通红圈泛微,让协同办公更轻松!

聚道云软件连接器

案例分享

ETL与抖音数据同步,让数据流动无阻

RestCloud

数据同步 ETL 数据集成

龙蜥社区成立系统安全 SIG,助力系统安全生态

OpenAnolis小助手

开源 操作系统 系统安全 龙蜥社区 sig

国内鞋服品牌如何打造出优衣库的“零库存”运营体系

第七在线

合伙/雇佣/灵活用工,供需双方该如何选择呢?

凌晞

灵活用工 人力资源规划

科技向善,真的吗?

算法的秘密

如何提高项目成功率?分享20 种项目管理工具、技术和软件

PingCode

项目管理 项目管理软件

创新技术应用:视觉CV处理在UI自动化测试中的实际应用探索

测吧(北京)科技有限公司

测试

软件测试学习笔记丨性能测试工具JMeter — 安装和录制回放

测试人

软件测试 性能测试 自动化测试 测试开发

AI制作PPT工具有哪些?10款AI生成PPT软件盘点推荐!

彭宏豪95

职场 PPT PPT模板 办公软件 AIGC

从智慧PC到千行百业:在华为擎云 G540中找到新质生产力

脑极体

AI PC

技术管理者如何避免被裁掉(3)

芃篙君

管理

104 Connection reset by peer

麦兜

数据解读乡村发展!专家详解 2024 年(第 17 届)中国大学生计算机设计大赛大数据主题赛赛题

ModelWhale

大数据 数据分析 交叉学科 中国大学生计算机设计大赛 新文科

体育赛事直播平台的进入壁垒与成本结构分析

软件开发-梦幻运营部

青否数字人7.0正式发布,数字人克隆+声音克隆效果大幅提升!

青否数字人

数字人

加速大模型落地:火山引擎向量数据库的实践应用

字节跳动云原生计算

大模型 向量数据库 混合搜索

缓存有大key?你得知道的一些手段

京东零售技术

Java 缓存 后端

可观测性十大场景 | 关于保险行业开门红期间应用性能的端到端全栈可观测

博睿数据

汽车制造业PMC组态应用最佳实践

图扑物联

专访张行功:2021,5G将会倒逼传输协议、算法做出更多改进_架构_Jeff_InfoQ精选文章