50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

实时通信的下一站,H.266 作为破局关键

  • 2025-03-26
    北京
  • 本文字数:2250 字

    阅读完需:约 7 分钟

大小:1.19M时长:06:55
实时通信的下一站,H.266作为破局关键

实时通信(RTC)作为支撑实时音视频交互的核心技术,近十年来已深度渗透至视频会议、直播连麦、在线教育及远程协作等多个场景。然而,随着超高清视频需求呈现爆发式增长,传统 RTC 技术面临严峻挑战。单路 4K 视频流的码率较 1080P 提升 4 倍以上,而用户对延迟的容忍度却从秒级压缩至 200ms 以内,尽管 5G 网络虽通过大带宽特性缓解了部分压力,但其部署成本与终端渗透率仍制约着其规模化发展。


在此背景下,RTC 技术必须加速升级以应对挑战,而新一代编码标准 H.266/VVC 凭借其高效的屏幕视频编码技术,正在成为 RTC 向超高清、低时延演进的破局关键。

面向未来的视频编码标准,如何定义“下一代”RTC 场景?


首先,H.266/VVC 有着更高的压缩效率、更优的编码质量,其深度适配 RTC 场景的需求。


更高的压缩效


在保证相同的视频质量下,理论上,H.266 对视频的压缩率相比于 上一代编码标准 H.265/HEVC 提高了 50%,大大降低了视频传输对网络带宽的要求,有效得缓解了网络拥堵,减少了卡顿和延迟现象,为用户提供更流畅的视频通信体验。


更优的编码质量


H.266 的帧内预测模式从 H.265 的 35 种扩充至 67 种,更多的预测方向能够精确捕捉字符笔画、图形线条的细微变化,减少像素预测误差。配合交叉分量预测(CCLM)、矩阵加权帧内预测(MIP)等前沿工具,进一步优化预测值,显著提升编码准确性,让共享内容在接收端得以清晰还原。


H.266 的帧间预测引入放射运动补偿打破传统平移模型局限,以数学矩阵精确描述物体的旋转,缩放等复杂运动轨迹,可以更精确的预测 RTC 应用里人物动作,物体移位等复杂运动。几何划分模式支持 64 种边界划分,能细致的勾勒运动物体的轮廓,匹配块间相关性,优化运动估计精度,显著提升帧间预测的准确性,提升编码质量。在高清和超高清视频的 RTC 应用中,如远程医疗诊断、高清视频会议等,高质量的视频图像有助于提高用户对信息的准确理解和交互效果。


更适合 RTC 场景的编码工具


  1. 屏幕编码工具(Screen Content Coding,SCC):随着屏幕共享、游戏直播和远程会议等新兴需求的出现,屏幕内容视频作为特殊的视频类型获得越来越多的关注。H.266 根据该类视频的内容特性,引入了诸多工具来提高压缩率,如:帧内块复制 IBC,调色板模式 PLT,变化跳过模式的残差编码,自适应色度变换(ACT)等。屏幕编码工具在主档次(Main profile)中被默认支持,确保了 RTC 应用在不同设备间进行屏幕共享和视频通信时的兼容性和一致性。

  2. 参考图像重采样(Reference Picture Resampling, RPR):在 RTC 的视频通话场景中,网络带宽往往是动态变化的。当网络带宽变窄时,可降低视频的分辨率以适应有限的带宽。传统的视频编解码器在这种情况下,服务器需要发送 “即时解码刷新”(IDR)帧来改变视频的分辨率。而 IDR 帧会占用较多的带宽资源,导致端到端的延迟和阻塞率增加。H.266 的 RPR 技术能够在解码时直接改变视频的分辨率,无需编码 IDR 帧,避免了大量 IDR 帧所带来的数据量激增,使得视频通话更加流畅,不会出现明显的卡顿,为用户提供了更优质的实时通信体验。

高压缩率“光环”之下,H.266 计算复杂度亟待解决


H.266 凭借其超高压缩效率,为高清视频的传输与存储带来了全新突破。但是,在性能提升的另一面却是复杂度的显著提升。CPU 计算复杂度及编码耗时的增加,使得 H.266 在一些 CPU 性能较差的低端机上无法满足实时编码的需求,这将导致在超高清直播过程中,会有肉眼可见的画面延迟。为保证用户的实时交互体验,火山引擎推出自研 BVC2 编码器,通过引入了一系列质量优化和编码加速算法,在加速编码器的同时兼顾了压缩效率与主观质量。


质量优化方面


自研编码器 BVC2 引入了时域自适应量化算法(Temporal Adaptive Quant,TAQ)视频不同区域的重要性不同,若将有限的带宽资源分配给重要性更高的区域,将有效提高视频的主观及客观质量。HEVC 所提出的 CUtree 工具,通过预估当前编码单元给后续帧所提供的参考信息的多少,来定义该单元的重要性。由于 CUtree 需拿到未来帧的编码信息才能指导当前编码单元的参数调整,这将带来较大的时延,在注重实时性的 RTC 场景是不适用的。因此我们所开发的编码器 BVC2 提出了 TAQ 工具,利用已编码图像帧的预测和重建等信息,来建立当前编码单元的失真传播关系(示例图如下),并以此为依据估计编码单元的重要性程度,同时调整量化参数,实现带宽资源的更高效分配。该工具在保证了低延时的条件下,有效提高了视频的压缩效率,带来了显著的画质提升。



编码加速方面


自研编码器 BVC2 加入了很多快速算法来提高编码器的运行速度,例如:通过背景检测算法,快速决策 cu 划分及预测模式;利用相邻编码单元的已知信息及当前编码单元自身的内容特征,来自适应的决策编码单元的块划分方式和预测模式;引入决策树可进一步强化上述判断的准确度,并对编码工具进行剪枝;在每个编码阶段和编码工具中都加入了多个快速算法来进行剪枝加速,同时对代码和内存进行精心设计,使用汇编进行深度优化,进一步提升编码速度;BVC2 在保证压缩效率的同时,编码时间显著降低。在最新的 JVET- AJ0256 提案中,在 RTC 场景 LDP CQP 配置下,BVC2 相比于 x265 superfast 档位在加速 1.2 倍的同时,压缩效率提升 47.05%。未来软件算法的持续优化也将进一步降低编码复杂度,提升编码效率。


PSNR BD-Rate
SSIM BD-Rate
VMAF
Speed-up
Y
U
V
YUV
Y
U
V
YUV

Class B
-43.55%
-52.99%
-54.80%
-45.67%
-48.89%
-55.27%
-57.89%
-49.92%
-37.22%
1.5
Class C
-41.24%
-52.14%
-53.23%
-43.62%
-44.93%
-55.25%
-57.57%
-46.90%
-36.30%
1.0
Class E
-52.18%
-58.30%
-60.80%
-53.91%
-54.99%
-58.43%
-61.91%
-55.78%
-50.53%
1.1
Overall
-44.94%
-54.03%
-55.78%
-47.05%
-49.10%
-56.05%
-58.79%
-50.38%
-40.24%
1.2


可以看出,在 H.266 的重塑之下,RTC 正在迎来新一轮的升级,技术进步正在为视频行业带来全新的可能性。在这场技术浪潮中,火山引擎 BVC2 自研编码器凭借其持续的技术创新,助力实时音视频交互的体验升级。


未来,H.266 将会与 RTC 进一步深度融合,为用户带来更流畅、清晰、高效的互动体验。跨越时空的高墙,点亮全球范围内的无缝连接与协作。

2025-03-26 16:534740

评论

发布
暂无评论

代码覆盖率最佳实践

数新网络官方账号

mybatis xml文件热加载实现

越长大越悲伤

mybatis springboot java

往往排查很久的问题,最后发现都非常简单。。。

艾小仙

Java kafka spring

解决 Font '宋体' is not available to the JVM

源字节1号

微信小程序 开源 软件开发

CDC工具之Canal

数新网络官方账号

浅谈Spark分布式计算

数新网络官方账号

赠票 | 在北京,见证边缘的力量

俞凡

零代码零距离,明道云开放日北京站圆满结束

明道云

架构蓝图--软件架构的“4+1”视图模型

涛哥 数字产品和业务架构

软件架构 模型

pdf编辑工具:PDF Expert 中文激活版

真大的脸盆

Mac PDF Mac 软件 PDF编辑 pdf编辑工具

CDC工具之Debezium

数新网络官方账号

关于GPT-4的产品化狂想

脑极体

AI

面试高频问题之C++编译过程

小万哥

c++ 程序员 后端 编译 开发

为什么大家都喜欢“人天”作为估算单位?

Bruce Talk

Scrum 敏捷开发 Agile

机器学习算法(五):基于企鹅数据集的决策树分类预测

汀丶人工智能

数据挖掘 机器学习 决策树

帮师姐把100个Excel中符合条件的数据,汇总到1个Excel里

程序员晚枫

Python Excel 自动化办公

Flink CDC

数新网络官方账号

Web3社交网络的另一种思路 - Oi! Network解析

股市老人

浅谈数据仓库工具——Hive

数新网络官方账号

【Redis源码分析】Server启动过程

零点999

redis Redis 协议 Redis 核心技术与实战 Redis 数据结构 redis 底层原理

如何选择合适的智慧公厕设备厂家?

光明源智慧厕所

智慧城市

Handler消息传递机制浅析

芯动大师

Activity Handler runOnUiThread

压缩解压工具:Keka中文版

真大的脸盆

Mac Mac 软件 压缩工具 解压缩软件 解压软件

QQ截图图片不够清晰解决方法

源字节1号

微信小程序 开源 软件开发

Kubernetes 简介及其调度原理

数新网络官方账号

华为云ECS/HECS:中小企业上云第一步

IT科技苏辞

Kotlin 学习笔记(二)—— 数据类、密闭类、循环写法以及常用集合操作符

修之竹

android kotlin

软件测试/测试开发丨app自动化测试之Andriod WebView如何测试

测试人

软件测试 自动化测试 测试开发

Elasticsearch简介以及索引原理

数新网络官方账号

前缀和算法练习集

timerring

前缀和

关于chatGPT是否会干掉程序员的一次专业评估

深清秋

ChatGPT 程序员发展

实时通信的下一站,H.266作为破局关键_字节跳动_火山引擎视频云_InfoQ精选文章