NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

2023,音视频技术将如何发展?

  • 2023-02-09
    北京
  • 本文字数:4398 字

    阅读完需:约 14 分钟

2023,音视频技术将如何发展?

过去三年, 人们的日常生活、工作方式发生了巨大改变,短视频、互动直播、在线教育、云上会议等音视频使用场景深入到各行各业。井喷的需求使音视频的传输方式也发生了许多改变。


回顾音视频技术的整体发展,我们将其总共分为三个阶段。第一阶段,音视频的传输方式粗暴简单,通过非模拟信号进行传输;第二阶段,音视频信号纯数字化,诞生了如 DVD、DVB 等一系列的存储传输方式,同时音视频技术延展出了编解码器 codec、存储冗余、流媒体传输等更多细分技术;第三阶段,随着硬件能力的提升和互联网的发展,音视频技术的发展更细分,如编解码器的技术演进、流媒体传输协议的技术演进等,播放方式也变得更加丰富,如点播、直播、超低延时直播、互动直播等。


整个音视频领域正朝着超高清、低延时、强互动等方向演进,处于为全真互联时代的到来做技术储备、更多场景覆盖的关键阶段。基于此,InfoQ 与腾讯云音视频高级工程师孙祥学进行了对话,一起讨论音视频技术在 2023 年的具体发展方向。

一、追求极致的“低时延、强互动、超高清”


5G 的快速落地,4K/8K 视频快速普及,元宇宙、AR、VR 等技术兴起,全真互联时代来临,"低时延、强互动、超高清"的音视频能力越来越受到行业内的关注,这对原有的媒体处理系统发起了新挑战。


4K/8K 超高清通常需要几十兆,甚至上百兆的码率,带来了高昂的存储和带宽成本。同时,超高分辨率对媒体处理系统也提出了新的要求,尤其是对于直播系统,相比 1080P,8K 视频的分辨率实时转码对算力的要求提高了十几倍。此外,虽然超高清播放设备得到了广泛的普及,但是目前超高清的片源并不多,如何生成超高清的片源视频也是行业的绝对痛点。


想要解决这些技术挑战,这就意味着媒体处理产品需要提供性能领先的编码内核,在压缩率上帮助产品降低成本,从而提升终端用户的观看体验。通过分布式来解决单机难以完成的实时 8K 高算力视频处理,所以媒体处理产品对系统的处理能力要做到能够池化。除此之外,媒体处理产品还需要有全面的画质提升工具,包括但不限于去噪、去伪影、HDR、超分、插帧等画质修复能力,来满足用户对超高清画质的诉求。


为此,腾讯云媒体处理 MPS 在全球化 region 部署,自动扩缩容,可以灵活应对高并发转码需求。长视频支持最高 30 倍速分布式转码加速,满足极速转码发布需求。腾讯云媒体处理 MPS 的云端画质增强技术在云端进行视频超分来实现超高清的画质体验,解决了“移动端设备难以支持实时 4K/8K 采集”的问题。


值得一提的是,在低延时方面,腾讯云媒体处理 MPS 与腾讯云音视频快直播(超低延时直播)结合,通过监测用户的并发情况,为用户实时自动拉起腾讯云媒体处理 MPS 极速高清智能转码相关服务,在降低延时的同时为用户减少带宽成本。腾讯云音视频的快直播是典型的媒体传输技术的升级与融合,其在延迟、秒开、抗性等指标上的大幅优化,极大提高了用户体验。这个技术的背后其实是深刻理解媒体传输特性前提下的融合优化,在信令、数据通道上,采用云端结合的优化方式,并充分理解传输的媒体内容,最终实现“低时延”的目标。


另外行内人都知道,超高清的观看体验必然伴随着高码率,尤其当下终端用户对极致视听体验的追求,视频清晰度从高清到超高清,再到 4K/8K,视频存储越来越大,对带宽的要求也越来越高,用户的成本也越来越大,用户日益增长的观看体验追求和传输、存储成本之间的矛盾成为了音视频处理领域首先要解决的问题。


所以,腾讯内部优化了 O264/V265/TXAV1/O266 等编解码内核,在保持画质的前提下,极大地降低视频码率,减少超高清体验的带宽、存储等压力,而这些技术也都在腾讯云媒体处理 MPS 产品中有体现。腾讯云媒体处理 MPS 极速高清技术能够在保持视频画质质量不变的情况下,降 50%+ 的码率,减少视频传输存储成本。



腾讯云媒体处理 MPS 超高性能的编码算法,支持 8K 的 120FPS、144FPS 视频实时编码,融合超分辨率、HDR、拓宽色域等技术,为用户提供了极致清晰的观感。



二、“AI 智能分析”缓解爆炸式增长的短视频管理需求


最近几年,媒体传播热潮从图文向短视频进行跃迁,在短视频爆发和全民直播的风口下,视频量爆炸式增长,当越来越多人开始玩起短视频,短视频平台之间的博弈从单纯的视频发布逐渐转变为视频处理功能是否足够丰富、好玩且智能,与此同时,每日百万级短视频审核处理,也对传统媒资编目的视频管理工作带来了极大挑战。


为此,腾讯云媒体处理 MPS 支持自定义服务流程、音视频转码、音视频增强、视频截图、内容理解、审核、智能编辑等能力,开放丰富的模板配置能力,支持用户根据自身需求自定义配置。传统媒资编目通过该产品可以对海量媒体文件流程化处理,一站式完成转码、截图、水印等基本操作,集成事件回调机制,及时掌握任务进度。


其中,腾讯云媒体处理 MPS 提供的智能识别、智能分析等相关处理能力,能够通过 AI 对视频内容进行分析,自动提取出视频标签、分类、语音、文字等信息,相较于传统媒资编目效率更高且提取内容更丰富,极大地方便了视频的管理,用户能够基于标签快速检索关联视频,继而进行二次处理和推荐分发。



AI 在腾讯云媒体处理 MPS 中应用其实非常广泛,腾讯云媒体处理 MPS 的 AI 能力主要体现在三个方面:


第一,转码。在转码方面来看,腾讯云音视频团队应该是最早一批尝试 AI 智能编码的团队。比如腾讯云媒体处理 MPS 极速高清编码,他们根据视频场景识别出不同的视频分类,针对不同场景采用不同的编码参数,在不影响画质的情况下达到最优的压缩效果。同时,团队在前处理、后处理的优化方面也做了许多努力,这帮助腾讯云媒体处理 MPS 转码在 2020/2021 MSU 云端编码大赛获得 2020 全项最佳,2021 年的 15 项考量项中有 12 项为最佳,O264/V265 综合最佳,V265 MSU 连续 4 年行业领先。TXAV1 MSU2021 视频编码评测中取得综合指标第一,O266 4K@1FPS 赛道取得综合指标第一。



MPS 媒体处理在 SLC 2022 内容自适应转码服务评测中取得综合评测方面全部最佳 (Excellent) :



据孙祥学介绍,腾讯云媒体处理 MPS 转码在落地一些 AI 增强效果(超分、画质增强、插帧、抠图、色彩增强等)的场景过程中曾经遇到过引擎算力消耗大、语言框架不统一、转码集成困难、上线周期长等问题,在腾讯云音视频的强力探索下,腾讯云媒体处理 MPS 通过 AI 算力池调度的通用解决方案很好的解决了这些问题。


 MPS AI 算力池调度


腾讯云媒体处理 MPS AI 算力池调度通过统一的转码实例同机代理,很好地解耦了引擎和转码实例,既统一了直播转码、点播转码的集成方式,又做到了 CPU/GPU 资源隔离,使转码和引擎资源利用率相互不制约。同时,引擎的迭代更新也完全不依赖转码实例,能够高度解耦独立升级。横向扩充算法种类对转码实例透明,只需配置对应转码模版下发引擎类型即可。


第二,内容理解。腾讯云音视频团队集成了腾讯内部多维度的引擎算法,全方位挖掘视频内容,支持对视频进行视频分类、视频标签、视频封面提取、视频拆条、视频集锦、片头片尾识别、语音识别、文字识别、物体识别、帧标签识别等,充分理解视频内容。


第三,审核。腾讯云媒体处理 MPS 除了支持“黄暴”视频内容审核以外,腾讯云音视频团队还提出了视频质量审核的解决方案,可以智能检测视频画面中存在的抖动重影、模糊、低光照、过曝光、黑边、白边、黑屏、白屏、花屏、噪点、马赛克、二维码等多个异常场景,还可以自动检测视频无音频异常、无声音片段。


此外,腾讯云媒体处理 MPS 拥有业界领先的视频 AI 技术,支持老片修复 / 标准转高清 / 高清转 4K 的能力,能够大幅祛除视频噪声、毛刺、划痕,能够大幅提升视频清晰度和色彩丰富度。这对于有视频处理需求的终端用户来说,是一个实用价值很高的功能。

三、大幅降低“音视频媒体处理”门槛


行业里对媒体处理 MPS 的标准定义是一种多媒体音视频数据处理服务,致力于通过经济、弹性和高可扩展的转换方法,将存储于 OBS 上的音视频转码为适应各种终端播放的格式,提供极致编码能力的同时,大幅节约存储及带宽成本,并实现音视频增强、内容理解、内容审核等功能,满足多样化的业务场景下的视频处理需求。换言之,媒体处理 MPS 的终极目标是“满足业务的视频处理需求”。


于是,当音视频技术的发展走到追求极致的“低时延、强互动、超高清”的这种程度,几乎所有云厂商当前都不再只关注转码速率、高清等技术的实现,在媒体处理系统的接入、易用性方面也投入了更多精力。

事实上,随着音视频技术的发展,媒体处理门槛高一直是用户对云厂商的“不满之处”。业内对于媒体处理产品的槽点很多,比如功能繁多,却无法快速验证;接入门槛高,对非技术背景用户不友好...云厂商们为了解决这些问题,想出了不少办法。比如腾讯云媒体处理 MPS 为提高产品的易用性,进行了 2.0 版本的升级,通过模版、任务编排的方式,可视化任务处理逻辑,使得用户零代码开发即可完成腾讯云媒体处理 MPS 的接入。



又比如,针对不同的行业,腾讯云媒体处理 MPS 提出了不同的解决方案。针对在线教育行业,腾讯云媒体处理 MPS 提供具有针对性的、强悍的视频转码功能,可以针对不同的终端生成对应规格的视频,满足在线教育行业多端播放的要求;针对广电行业,腾讯云媒体处理 MPS 具备高速稳定的分片转码系统,支持多任务并发进行和动态扩容,满足广电行业对转码效率的需求;针对 OTT 智能电视领域,媒体处理支持 4K 和 8K 转码,满足智能电视的超清需求等等。


另外,腾讯云媒体处理 MPS 在产品层面,除了在不断优化迭代公有云的用户体验外,目前也陆续上线了专有云版本(包括转码 SDK 和 PaaS 平台),其可以私有化部署到用户机房或者第三方云上,全方位满足用户使用场景。在公有云方面,腾讯云音视频团队也正在尝试打通第三方云,支持通过 MPS 控制台配置走内网处理媒体文件存储在第三方云上的用户资源。多云灵活部署,最大程度地降低了用户接入门槛。3 月初即将上线的腾讯云媒体处理 MPS v3.0 版本中会有相关技术优化的体现,大家可以关注一下。

四、写在最后


总体来说,我们站在宏观视角去看整个音视频领域的发展,其实主要就分为两个部分。


从互联网行业的流量来看,将近 84% 的内容都是音视频,面对流量的增长,进一步优化 codec 能力来降低存储和带宽成本、优化产品运营,同时减少编码算力的消耗,是所有提供媒体处理 MPS 服务的云厂商都需要关注且持续探索的问题。


从全真互联这个层面看,音视频未来在各行各业的应用占比一定会进一步提升,随之而来是各种终端设备的接入,优化音视频标准和传输协议来适配海量的终端设备,也是未来的关注重点。随着元宇宙、VR 等技术的不断演进和兴起,音视频对实时互动、低延时有了更高的要求,低延时的标准协议,尤其是 WebRTC 将会有更快的发展。


但无论怎么看,未来几年,音视频技术的发展都是互联网技术发展的重头戏,云厂商是否能够抢占未来的音视频市场,就看是否能够精准抓住用户需求,是否能够在细分技术上做出新突破,就让我们一起持续关注腾讯云音视频等厂商的技术探索和优化动作。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-02-09 13:4511037
用户头像
鲁冬雪 InfoQ 策划主编

发布了 338 篇内容, 共 197.2 次阅读, 收获喜欢 270 次。

关注

评论

发布
暂无评论
发现更多内容

TASKCTL调度服务平台节点管理

TASKCTL

数据仓库 kettle 元数据 ETL任务 任务调度

Android技术分享| 安卓3行代码,实现整套音视频通话功能

anyRTC开发者

android 音视频 移动开发 实时通讯 视频通话

使用APICloud AVM框架封装app日历组件

YonBuilder低代码开发平台

前端开发 APP开发 APICloud 多端开发 avm.js

解析天翼云IPsec VPN和SSL VPN的区别

天翼云开发者社区

vpn

ModStartCMS Laravel9 v3.6.0内容标签增强,电脑手机适配

ModStart开源

在 Kubernetes 中使用 Keycloak OIDC Provider 对用户进行身份验证

Se7en

推出全新分布式计算接口!OneFlow v0.7.0发布,LiBai代码库、Serving、MLIR一应俱全

OneFlow

人工智能 机器学习 深度学习 深度学习框架 深度学习编译器

自动搭建Maven私有仓库,不限容量、免费用

阿里云云效

maven 阿里云 云原生 Maven仓库 制品仓库

到底为什么你我都要了解社会工程学

图灵教育

黑客 社会工程 社会科学

蒙牛“申”请出战 全力守“沪”战疫

科技新消息

如何利用MHA+ProxySQL实现读写分离和负载均衡

华为云开发者联盟

MySQL 读写分离 高可用架构 ProxySQL MHA

Masa Blazor in Blazor Day

MASA技术团队

C# .net 微软

天翼云CDN最佳实践

天翼云开发者社区

CDN

三高Mysql - Mysql索引和查询优化(偏实战部分)

懒时小窝

MySQL

快来一起玩转LiteOS组件:Curl

华为云开发者联盟

LiteOS 文件传输 curl LiteOS组件 嵌入式设备

DapuStor大普微电子加入PolarDB开源数据库社区

阿里云数据库开源

数据库 阿里云 开源数据库 polarDB

java培训-程序员怎样靠技术来延长职业周期

@零度

JAVA开发

Go 1.18 新特性:多模块工作区模式

华为云开发者联盟

Go 指令 go 1.18 多模块工作区 工作区

巧用天翼云盘备份云主机数据

天翼云开发者社区

云主机 云存储

如何有效的对云专线进行测速

天翼云开发者社区

网络

jackson学习之一:基本信息

程序员欣宸

4月月更

“逆行者”蒙牛 穿越疫情“暴风眼”

科技新消息

OpenHarmony 3.1 Beta版本关键特性解析——ArkUI开发框架canvas组件绘制实践

OpenHarmony开发者

canvas OpenHarmony ArKUI 3.0

郑曌:从 ACM 世界冠军到技术 VP 的制胜之道

第四范式开发者社区

人工智能 数据库 编程 程序员 ACM

谈谈Java8-18引入的新特性

CRMEB

实例带你掌握如何分解条件表达式

华为云开发者联盟

代码 函数 条件表达式 条件分支 条件逻辑

「技术人生」专栏作者来直播间啦!欢迎来提问

阿里巴巴中间件

阿里云 云原生 中间件 技术人生 一号位

守“沪”第一线 蒙牛使命必达

科技新消息

一文解读GPU服务器!

Finovy Cloud

人工智能 GPU服务器 GPU算力

社交CRM系统解决方案

低代码小观

CRM 企业管理系统 社交软件 CRM系统 客户关系管理系统

eBPF Cilium实战(1) - 基于团队的网络隔离

北京好雨科技有限公司

Kubernetes PaaS rainbond

2023,音视频技术将如何发展?_AI&大模型_鲁冬雪_InfoQ精选文章