GMTC深圳站售票最后一周,点击查看最新日程>> 了解详情
写点什么

音视频技术的发展趋势

赵加雨

  • 2021 年 9 月 26 日
  • 本文字数:1541 字

    阅读完需:约 5 分钟

音视频技术的“两高一低”和 M&M 原则

音视频技术以及处理流程都比较复杂,一般情况下,系统会采集音频和视频,接下来会有一个前处理,前处理可能会完成美声、美颜和其他的一些优化。接下来,视频要经过编码再进入到网络传输,在互联网传输的过程中又需要实现网络加速。服务端分发后,需要有一个接收端,接收端收到数据包后会应用一些抗弱网的技术来保障质量,最后完成视频解码并在用户面前播放。


我认为这个过程中最重要的是保证音视频的“两高一低”,即:高质量、高流畅、低时延。


高质量是指音频的质量,包括高保真,无干扰声音(回声,噪声等),音量大等;也指视频的质量,包括视频清晰,分辨率高。高流畅是指音频的语义完整、无卡顿和视频的帧率高、无卡顿。


为了达到高质量和高流畅,我们的做法是通过音频 3A 算法智能适应各类环境,全面消除回声、消除噪音,在嘈杂环境下实现音频的自动增益;自研高性能视频引擎,无缝结合基于 AI 的前后处理,大大增强视频主观体验和视频质量;自研音视频编解码器,可伸缩的编码复杂度,针对实时场景打造极致体验;基于学习的带宽评估与拥塞判断,自适应的 FEC、ARQ、PLC 等技术,在极限场景下依然通话流畅。


“两高一低”中还有一点是低时延。通常来讲,当时延小于 200ms,用户体验较好;时延在 200ms~400ms,用户可接受;时延大于 400ms,多数用户不太满意。这里边的技术难点有弱网环境导致的端到端时延不可控;音视频处理模块多、算法复杂,导致的数据处理时间长;遇到跨国、跨运营商网络问题,导致的链路质量和传输时延不可控。


我们的做法是通过拥塞控制算法应对弱网场景,自适应的带宽预测,动态码率调整,同时采用前向纠错、丢包重传和丢包隐藏三大丢包恢复策略,降低传输时延。另外,高度优化的音视频编解码器、处理算法和网络模块也缺一不可,用于保障毫秒级的处理时延。对了应对全球用户的接入,我们独创了一套 Pano Backbone 实时传输加速网络,实现用户就近接入和全球网络覆盖。


实时音视频是非常吃资源和带宽的,需要用最少的资源、最少的算力,实现最优的效果,我把这总结为 M&M 原则:Minimum Cost, Maximum Performence。

音视频技术的发展趋势

音视频技术本身将会不断发展,首先是视频编码技术会快速迭代,目前在用的主流的视频编码标准是 H264,H264 第一版标准完成于 2003 年,距今已经 18 年了,H265 因为专利的原因并没有被广泛使用。


我们预期新的编码标准将会比较快的应用起来,尤其是 AV1,作为开源媒体联盟 AOM 制定的第一代标准,除了有非常好的生态支持,还提供了免费的专利政策,相比 H.265 等知识产权政策不明确的视频标准,有巨大的优势。


其次是 AI 技术,它对整个 RTC 行业带来的影响是非常深远的,客观地说,以深度学习为代表的 AI 技术的发展与成熟,对音视频关键技术的突破提供了另一个有希望的方向。


有些使用传统技术无法解决的问题,可以通过与 AI 技术的融合,大大降低问题解决的难度。无论是 RTC 行业的核心音视频编解码,还是其他一些音视频处理和增强技术,比如现在比较热的音频降噪、视频超分、对象分割识别、语义识别等,在 AI 的加持下,都获得了突破,从而催生了智能客服、智能监控、虚拟形象等新领域。


音视频技术也会随着 5G、AR/VR 等技术的发展而发展,将会给用户带来更加沉浸式的体验,也将催生更多行业和场景来应用音视频技术。5G 浪潮的爆发正在为实时音视频创造低时延和高带宽的网络条件,这些基础设施的改进,为超高清视频、全景视频技术的落地创造了可能。AR/VR 为音视频应用的场景和生态拓宽了道路,加速 3D 视频、虚拟现实等技术的落地,共同为下一个互联网形态“元宇宙”提供强有力的技术基建,实现科技向善的美好未来。



9 月 29 日,周三晚上 8 点,资深音视频专家、拍乐云 CEO 赵加雨老师会在直播间分享他对于音视频技术趋势的思考。如果你对这个方向感兴趣,欢迎预约直播。



2021 年 9 月 26 日 18:172244

评论 2 条评论

发布
用户头像
实时音视频技术将来必定会越来越重要,期待一下
2021 年 09 月 26 日 19:07
回复
用户头像
感觉都是干货,期待大佬的分享~
2021 年 09 月 26 日 19:02
回复
没有更多了
发现更多内容

如何从 0 到 1 开发 PyFlink API 作业

Apache Flink

flink pyflink python 3.5+

2021高校IT专业大学生就业意向调查问卷

黑马腾云

基于Kubernetes Operator的网易数帆生产级云原生中间件实践

网易数帆

架构 Kubernetes 云原生 operator 中间件

跨湖跨仓场景下如何实现海量数据分钟级分析

华为云开发者社区

大数据 数据湖 数据分析 华为云FusionInsight MRS HetuEngine

智能小车系列-动力系统(ezPWM)

波叽波叽啵😮一口盐汽水喷死你

pwm ezPWM PWM信号

面向软件 IT 专业的高校大学生课余时间自学情况调查

xiezhr

大学生日常 IT 高校学院 问卷调查

【XXX高校】软件IT专业学生(恋爱观)调查问卷

浩宇天尚

调查报告 大学生 恋爱

ArrayList 与 LinkedList 底层结构

Kori Lin

Java

Android 设备音视频兼容性适配

网易云信

WebRTC

高并发系列:架构优化之细说负载均衡

Coder的技术之路

负载均衡 高并发 高并发优化 负载均衡架构

anyRTC 音视频 uni 插件集成步骤

anyRTC开发者

uni-app android 音视频 WebRTC sdk

软件 IT 专业的高校学生有关在线课程的问卷调查

程序员历小冰

UT之最后一测

你呀不牛

Linux 上 定时备份postgresql 数据库

Yang

数据库 postgresql

被遗弃的 Vector 和 Stack

Kori Lin

Java

Kubernetes入门——Kubernetes实现应用的高可用

百度开发者中心

Kubernetes k8s入门 #技术课程#

微信小程序登录流程详解

frank-say

生命中的无奈

小天同学

读书 读后感 生命 4月日更

SCA工具:开源安全威胁一手掌控

华为云开发者社区

开源 安全 测试 SCA 软件成分分析

特斯拉行车数据被篡改?专家称车企很难自证清白,保留“数据指纹”的区块链技术在路上

Geek_987812

指纹

LeetCode题解:151. 翻转字符串里的单词,栈,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

【劳动最光荣】TcaplusDB祝大家劳动节快乐

TcaplusDB

C# 数据库 nosql 后端 TcaplusDB

5.1特辑|为何显示有票你却抢不到?技术揭秘12306如何保证车票不超卖

华为云开发者社区

数据库 GaussDB(for Redis) 五一 12306 数据强一致性

容器 & 服务: 扩容(二)

程序员架构进阶

Kubernetes 28天写作 弹性扩容 4月日更

浪潮云再次入围央采2021年云计算服务采购名单

浪潮云

云计算

云图说|数据可视化管理,搭载数据安全黑科技!华为数据安全中心,助你保障云上数据安全!

华为云开发者社区

数据安全 华为云 云图说 DSC 数据安全中心 云上数据

C盘内存杀手,原来是这款出人意料的被闲置的软件|iTunes

彭宏豪95

效率 工具 4月日更 iTunes

Jcenter 停止服务,说一说我们的迁移方案

Antway

android maven Gradle

获取chrome80谷歌浏览器存储的指定网站Cookie数据方法详解

老猿Python

Python chrome 爬虫 Cookie

音视频编解码--编码参数CRF

Fenngton

ffmpeg 视频编解码 视频压缩 码率控制 CRF

基于 HLS 创建 Golang 视频流服务器

天黑黑

Go 音视频 HLS 声网

数据cool谈(第2期)寻找下一代企业级数据库

数据cool谈(第2期)寻找下一代企业级数据库

音视频技术的发展趋势-InfoQ