阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

2023,音视频技术将如何发展?

  • 2023-02-09
    北京
  • 本文字数:4398 字

    阅读完需:约 14 分钟

2023,音视频技术将如何发展?

过去三年, 人们的日常生活、工作方式发生了巨大改变,短视频、互动直播、在线教育、云上会议等音视频使用场景深入到各行各业。井喷的需求使音视频的传输方式也发生了许多改变。


回顾音视频技术的整体发展,我们将其总共分为三个阶段。第一阶段,音视频的传输方式粗暴简单,通过非模拟信号进行传输;第二阶段,音视频信号纯数字化,诞生了如 DVD、DVB 等一系列的存储传输方式,同时音视频技术延展出了编解码器 codec、存储冗余、流媒体传输等更多细分技术;第三阶段,随着硬件能力的提升和互联网的发展,音视频技术的发展更细分,如编解码器的技术演进、流媒体传输协议的技术演进等,播放方式也变得更加丰富,如点播、直播、超低延时直播、互动直播等。


整个音视频领域正朝着超高清、低延时、强互动等方向演进,处于为全真互联时代的到来做技术储备、更多场景覆盖的关键阶段。基于此,InfoQ 与腾讯云音视频高级工程师孙祥学进行了对话,一起讨论音视频技术在 2023 年的具体发展方向。

一、追求极致的“低时延、强互动、超高清”


5G 的快速落地,4K/8K 视频快速普及,元宇宙、AR、VR 等技术兴起,全真互联时代来临,"低时延、强互动、超高清"的音视频能力越来越受到行业内的关注,这对原有的媒体处理系统发起了新挑战。


4K/8K 超高清通常需要几十兆,甚至上百兆的码率,带来了高昂的存储和带宽成本。同时,超高分辨率对媒体处理系统也提出了新的要求,尤其是对于直播系统,相比 1080P,8K 视频的分辨率实时转码对算力的要求提高了十几倍。此外,虽然超高清播放设备得到了广泛的普及,但是目前超高清的片源并不多,如何生成超高清的片源视频也是行业的绝对痛点。


想要解决这些技术挑战,这就意味着媒体处理产品需要提供性能领先的编码内核,在压缩率上帮助产品降低成本,从而提升终端用户的观看体验。通过分布式来解决单机难以完成的实时 8K 高算力视频处理,所以媒体处理产品对系统的处理能力要做到能够池化。除此之外,媒体处理产品还需要有全面的画质提升工具,包括但不限于去噪、去伪影、HDR、超分、插帧等画质修复能力,来满足用户对超高清画质的诉求。


为此,腾讯云媒体处理 MPS 在全球化 region 部署,自动扩缩容,可以灵活应对高并发转码需求。长视频支持最高 30 倍速分布式转码加速,满足极速转码发布需求。腾讯云媒体处理 MPS 的云端画质增强技术在云端进行视频超分来实现超高清的画质体验,解决了“移动端设备难以支持实时 4K/8K 采集”的问题。


值得一提的是,在低延时方面,腾讯云媒体处理 MPS 与腾讯云音视频快直播(超低延时直播)结合,通过监测用户的并发情况,为用户实时自动拉起腾讯云媒体处理 MPS 极速高清智能转码相关服务,在降低延时的同时为用户减少带宽成本。腾讯云音视频的快直播是典型的媒体传输技术的升级与融合,其在延迟、秒开、抗性等指标上的大幅优化,极大提高了用户体验。这个技术的背后其实是深刻理解媒体传输特性前提下的融合优化,在信令、数据通道上,采用云端结合的优化方式,并充分理解传输的媒体内容,最终实现“低时延”的目标。


另外行内人都知道,超高清的观看体验必然伴随着高码率,尤其当下终端用户对极致视听体验的追求,视频清晰度从高清到超高清,再到 4K/8K,视频存储越来越大,对带宽的要求也越来越高,用户的成本也越来越大,用户日益增长的观看体验追求和传输、存储成本之间的矛盾成为了音视频处理领域首先要解决的问题。


所以,腾讯内部优化了 O264/V265/TXAV1/O266 等编解码内核,在保持画质的前提下,极大地降低视频码率,减少超高清体验的带宽、存储等压力,而这些技术也都在腾讯云媒体处理 MPS 产品中有体现。腾讯云媒体处理 MPS 极速高清技术能够在保持视频画质质量不变的情况下,降 50%+ 的码率,减少视频传输存储成本。



腾讯云媒体处理 MPS 超高性能的编码算法,支持 8K 的 120FPS、144FPS 视频实时编码,融合超分辨率、HDR、拓宽色域等技术,为用户提供了极致清晰的观感。



二、“AI 智能分析”缓解爆炸式增长的短视频管理需求


最近几年,媒体传播热潮从图文向短视频进行跃迁,在短视频爆发和全民直播的风口下,视频量爆炸式增长,当越来越多人开始玩起短视频,短视频平台之间的博弈从单纯的视频发布逐渐转变为视频处理功能是否足够丰富、好玩且智能,与此同时,每日百万级短视频审核处理,也对传统媒资编目的视频管理工作带来了极大挑战。


为此,腾讯云媒体处理 MPS 支持自定义服务流程、音视频转码、音视频增强、视频截图、内容理解、审核、智能编辑等能力,开放丰富的模板配置能力,支持用户根据自身需求自定义配置。传统媒资编目通过该产品可以对海量媒体文件流程化处理,一站式完成转码、截图、水印等基本操作,集成事件回调机制,及时掌握任务进度。


其中,腾讯云媒体处理 MPS 提供的智能识别、智能分析等相关处理能力,能够通过 AI 对视频内容进行分析,自动提取出视频标签、分类、语音、文字等信息,相较于传统媒资编目效率更高且提取内容更丰富,极大地方便了视频的管理,用户能够基于标签快速检索关联视频,继而进行二次处理和推荐分发。



AI 在腾讯云媒体处理 MPS 中应用其实非常广泛,腾讯云媒体处理 MPS 的 AI 能力主要体现在三个方面:


第一,转码。在转码方面来看,腾讯云音视频团队应该是最早一批尝试 AI 智能编码的团队。比如腾讯云媒体处理 MPS 极速高清编码,他们根据视频场景识别出不同的视频分类,针对不同场景采用不同的编码参数,在不影响画质的情况下达到最优的压缩效果。同时,团队在前处理、后处理的优化方面也做了许多努力,这帮助腾讯云媒体处理 MPS 转码在 2020/2021 MSU 云端编码大赛获得 2020 全项最佳,2021 年的 15 项考量项中有 12 项为最佳,O264/V265 综合最佳,V265 MSU 连续 4 年行业领先。TXAV1 MSU2021 视频编码评测中取得综合指标第一,O266 4K@1FPS 赛道取得综合指标第一。



MPS 媒体处理在 SLC 2022 内容自适应转码服务评测中取得综合评测方面全部最佳 (Excellent) :



据孙祥学介绍,腾讯云媒体处理 MPS 转码在落地一些 AI 增强效果(超分、画质增强、插帧、抠图、色彩增强等)的场景过程中曾经遇到过引擎算力消耗大、语言框架不统一、转码集成困难、上线周期长等问题,在腾讯云音视频的强力探索下,腾讯云媒体处理 MPS 通过 AI 算力池调度的通用解决方案很好的解决了这些问题。


 MPS AI 算力池调度


腾讯云媒体处理 MPS AI 算力池调度通过统一的转码实例同机代理,很好地解耦了引擎和转码实例,既统一了直播转码、点播转码的集成方式,又做到了 CPU/GPU 资源隔离,使转码和引擎资源利用率相互不制约。同时,引擎的迭代更新也完全不依赖转码实例,能够高度解耦独立升级。横向扩充算法种类对转码实例透明,只需配置对应转码模版下发引擎类型即可。


第二,内容理解。腾讯云音视频团队集成了腾讯内部多维度的引擎算法,全方位挖掘视频内容,支持对视频进行视频分类、视频标签、视频封面提取、视频拆条、视频集锦、片头片尾识别、语音识别、文字识别、物体识别、帧标签识别等,充分理解视频内容。


第三,审核。腾讯云媒体处理 MPS 除了支持“黄暴”视频内容审核以外,腾讯云音视频团队还提出了视频质量审核的解决方案,可以智能检测视频画面中存在的抖动重影、模糊、低光照、过曝光、黑边、白边、黑屏、白屏、花屏、噪点、马赛克、二维码等多个异常场景,还可以自动检测视频无音频异常、无声音片段。


此外,腾讯云媒体处理 MPS 拥有业界领先的视频 AI 技术,支持老片修复 / 标准转高清 / 高清转 4K 的能力,能够大幅祛除视频噪声、毛刺、划痕,能够大幅提升视频清晰度和色彩丰富度。这对于有视频处理需求的终端用户来说,是一个实用价值很高的功能。

三、大幅降低“音视频媒体处理”门槛


行业里对媒体处理 MPS 的标准定义是一种多媒体音视频数据处理服务,致力于通过经济、弹性和高可扩展的转换方法,将存储于 OBS 上的音视频转码为适应各种终端播放的格式,提供极致编码能力的同时,大幅节约存储及带宽成本,并实现音视频增强、内容理解、内容审核等功能,满足多样化的业务场景下的视频处理需求。换言之,媒体处理 MPS 的终极目标是“满足业务的视频处理需求”。


于是,当音视频技术的发展走到追求极致的“低时延、强互动、超高清”的这种程度,几乎所有云厂商当前都不再只关注转码速率、高清等技术的实现,在媒体处理系统的接入、易用性方面也投入了更多精力。

事实上,随着音视频技术的发展,媒体处理门槛高一直是用户对云厂商的“不满之处”。业内对于媒体处理产品的槽点很多,比如功能繁多,却无法快速验证;接入门槛高,对非技术背景用户不友好...云厂商们为了解决这些问题,想出了不少办法。比如腾讯云媒体处理 MPS 为提高产品的易用性,进行了 2.0 版本的升级,通过模版、任务编排的方式,可视化任务处理逻辑,使得用户零代码开发即可完成腾讯云媒体处理 MPS 的接入。



又比如,针对不同的行业,腾讯云媒体处理 MPS 提出了不同的解决方案。针对在线教育行业,腾讯云媒体处理 MPS 提供具有针对性的、强悍的视频转码功能,可以针对不同的终端生成对应规格的视频,满足在线教育行业多端播放的要求;针对广电行业,腾讯云媒体处理 MPS 具备高速稳定的分片转码系统,支持多任务并发进行和动态扩容,满足广电行业对转码效率的需求;针对 OTT 智能电视领域,媒体处理支持 4K 和 8K 转码,满足智能电视的超清需求等等。


另外,腾讯云媒体处理 MPS 在产品层面,除了在不断优化迭代公有云的用户体验外,目前也陆续上线了专有云版本(包括转码 SDK 和 PaaS 平台),其可以私有化部署到用户机房或者第三方云上,全方位满足用户使用场景。在公有云方面,腾讯云音视频团队也正在尝试打通第三方云,支持通过 MPS 控制台配置走内网处理媒体文件存储在第三方云上的用户资源。多云灵活部署,最大程度地降低了用户接入门槛。3 月初即将上线的腾讯云媒体处理 MPS v3.0 版本中会有相关技术优化的体现,大家可以关注一下。

四、写在最后


总体来说,我们站在宏观视角去看整个音视频领域的发展,其实主要就分为两个部分。


从互联网行业的流量来看,将近 84% 的内容都是音视频,面对流量的增长,进一步优化 codec 能力来降低存储和带宽成本、优化产品运营,同时减少编码算力的消耗,是所有提供媒体处理 MPS 服务的云厂商都需要关注且持续探索的问题。


从全真互联这个层面看,音视频未来在各行各业的应用占比一定会进一步提升,随之而来是各种终端设备的接入,优化音视频标准和传输协议来适配海量的终端设备,也是未来的关注重点。随着元宇宙、VR 等技术的不断演进和兴起,音视频对实时互动、低延时有了更高的要求,低延时的标准协议,尤其是 WebRTC 将会有更快的发展。


但无论怎么看,未来几年,音视频技术的发展都是互联网技术发展的重头戏,云厂商是否能够抢占未来的音视频市场,就看是否能够精准抓住用户需求,是否能够在细分技术上做出新突破,就让我们一起持续关注腾讯云音视频等厂商的技术探索和优化动作。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-02-09 13:4510973
用户头像
鲁冬雪 InfoQ 策划主编

发布了 337 篇内容, 共 194.8 次阅读, 收获喜欢 270 次。

关注

评论

发布
暂无评论
发现更多内容

GitHub上14个屌炸天的Java进阶教程、面试真题项目,建议收藏

爱好编程进阶

Java 程序员 后端开发

复杂任务中,流程的解耦设计

架构 事件驱动 任务管理 异步设计

架构实战营总结

晨亮

「架构实战营」

linux之man命令

入门小站

python之pythonic

AIWeker

Python 人工智能 5月月更

2021 企业架构(EA)状态调查报告

涛哥 数字产品和业务架构

企业架构

八、高可用之故障隔离

穿过生命散发芬芳

5月月更 高可用设计

C语言_语句与位运算练习

DS小龙哥

5月月更

【愚公系列】2022年05月 二十三种设计模式(八)-组合模式(Composite Pattern)

愚公搬代码

5月月更

python使用 pywin32 模块操作 excel,Python 操作 excel 系列之五

梦想橡皮擦

5月月更

ElasticSearch入门(三)Logstash实现MySQL数据同步至ElasticSearch

爱好编程进阶

Java 程序员 后端开发

ftp命令解决文件的上传和下载

爱好编程进阶

Java 程序员 后端开发

Github已标星80

爱好编程进阶

Java 程序员 后端开发

如何开发LAXCUS分布式应用软件(一):前言

LAXCUS分布式操作系统

集群 并行计算 分布式操作系统 分布式应用软件

模块5 作业

KennyQ

集成 ShenYu 网关实现 Dubbo 泛化调用

码农大熊

盘古开发框架 Dubbo网关 泛化调用 ShenYu网关

在线HTML文本提取URL链接工具

入门小站

工具

全链路压测(十一):聊聊稳定性预案

老张

性能测试 全链路压测

百万级电商秒杀架构设计

晨亮

「架构实战营」

面向对象的系统分析

奔向架构师

信息系统 5月月更

java内存模型之happenbefore原则

急需上岸的小谢

5月月更

GitHub持续霸榜!2021年Java核心知识:面试突击版

爱好编程进阶

Java 程序员 后端开发

【建议收藏】Mysql知识干货(mysql八股文)汇总

利志分享

面试 面试题 MySQL 数据库 面试问题 MySQL InnoDB

JAVA为什么需要泛型?

源字节1号

软件开发 后端开发 小程序开发

Nacos源码系列—服务端那些事儿

牧小农

源码 nacos

模块五作业

HZ

架构实战营 #架构实战营

机器学习:真正的底层是什么?

海拥(haiyong.site)

5月月更

模块五:作业

本人法海

「架构实战营」

赫卡忒的眼眸:微光手机“夜视仪”是怎样炼成的?

脑极体

抖音严打虚假宣传滋补膳食内容广告主:必须严格监管信息流广告

石头IT视角

Nginx 的日志

HoneyMoose

2023,音视频技术将如何发展?_AI&大模型_鲁冬雪_InfoQ精选文章