阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

实时互动场景应用指数级增长,背后的 RTC 技术发展到哪里了?

  • 2018-09-12
  • 本文字数:2284 字

    阅读完需:约 7 分钟

随着 5G 的逐步落地,几乎每个人都相信,随时可用、高清、流畅的音视频通话即将到来。同时,我们看到,实时互动技术催生的“爆款”、风口和实用场景增长迅猛,比如之前的狼人杀、视频社交、互动连麦直播,过去一年还有在线抓娃娃、HQ 直播答题、连麦小游戏,同时还有金融、可穿戴、机器人、电商等行业应用场景。

但是,你知道这背后实时互动技术到底发展到了什么阶段,正在攻克哪些技术上的难关呢? 从音视频角度来看,决定音视频通话质量的,一个是网络,另一个是编解码。本文将从这两个角度对技术发展趋势进行详细剖析和解读,并将对实时互动技术催生的创新场景角度进行介绍。

软件定义网络提升跨网实时传输质量

网络面临的主要问题一个是基础建设,另一个是跨网通信,带宽提升、5G 落地可以帮我们解决基础设施建设的问题,但跨网通信仍然是一个问题。

这里的跨网通信障碍在行业人士眼里指的是“四跨”,是指跨国、跨运营商、跨地域、跨时段的网络传输质量存在波动的问题。互联网从业者则提出一种覆盖网络(overlay network)技术来解决这个问题,其最重要的实现就是 VoIP。近年来,随着直播的火热,实时音视频对网络低延迟的要求又提升了一个层次,随之而来的是 SD-RTN™解决方案,它通过 SDN+UDP 技术,能够显著的降低延迟,减少丢包,进而改善通信质量。这方面最新的进展则是融合 SD-RTN™,以共享方式搭建 SD-RTN™,可以降低建设 SD-RTN™的成本。

声网的 SD-RTN™就是当前最新实时网络技术的一个代表,从官网的性能测试数据可以看到,它在跨国、跨洲等情况下比传统 P2P 网络延迟降低了 50% 左右。

下一代编解码标准仍处战国时代

在编解码方面,我们请教了声网 Agora 首席科学家钟声老师,他分别在美国博通公司、海信集团芯片公司、声网公司等主要从事图像处理、图像压缩、模式识别和计算机视觉算法以及芯片架构设计的研究,在美国和中国拥有多项专利,并且曾是标准组织 MPEG/JVT (H.264) 与 INCITS 主要成员,可以说是编解码方面的权威。

今年上半年,在音视频编解码领域发生了一件大事,就是 AOM 联盟发布了 AV1 标准的 1.0 版,其执行董事兼创始董事会成员 Gabe Frost 表示,桌面浏览器会在今年就开始支持 AV1,到 2020 年几乎所有新型硬件都会支持 AV1. 这对 HEVC/H.265 编解码形成了强劲的挑战。

钟声表示,AV1 视频编码比 H.265 标准能够进一步降低 30% 左右的码率,但其编码复杂性也高出几十倍甚至更多。可以预测其会先在 on-demand 的视频收看中应用,比如 NetFlix、Youtube、Amazon 等可能最先推出 AV1 格式的高清、超高清电影,而且接收端也要有相应的芯片解码支持。AV1 在 RTC 中的应用也会依赖于芯片对 AV1 编解码的支持,尤其是高效的编码器复杂度较高。NetFlix、Youtube、Amazon、Apple 等公司的大力推进很可能会促使芯片公司也加快其主流手机、电视、PC 机芯片对 AV1 编解码的支持。

下一代的编解码标准仍然处在战国时代,其中大部分标准首要考虑的就是对 RTC 流媒体播放的支持,特别是抗丢包的支持。钟声介绍说,声网也自研了新一代音频编码算法 Agora SOLO™,主要是为了增强在实时互联网上传输音频信号时对网络丢包的对抗能力而设计的。公共互联网通常会因传输线路拥堵、延时过大等原因导致数据丢失,SOLO™的音频压缩编码算法是针对网络的这个特性来设计的。他们测试的结果表明其能达到对抗 70% 的抗丢包率。适用基于互联网的实时音视频通信、直播等应用。

RTC 快速发展的本质是实时互动需求逐渐强烈

将网络和编解码、音视频采集等等整合起来的代表技术就是 WebRTC,近年来,随着实时互动需求和技术的发展,RTC 成为 WebRTC 技术的延伸和补充。RTC 在网络、编解码和音视频采集领域都有重要的技术突破。另外,上半年斯坦福大学的实验室还发布了将网络和编解码整合起来的新一代通信技术 Satisfy,在这方面未来我们仍然有提升的空间。

在声网 Agora 创始人 &CEO 赵斌看来,RTC 技术快速发展的本质是人类对“实时”与“互动”的需求逐渐强烈。伴随着多个垂直领域的场景创新和深度应用,RTC 将成为全球最受关注的实用技术之一。RTC 已经在很多行业领域持续输出爆款,比如直播、社交、游戏、教育等,以社交为例,声网支撑了全球 80% 的社交直播平台。对于 RTC 技术催生的各类应用场景的发展情况,赵斌也进行了介绍。

“吃鸡”的语音对讲到直播连麦、直播答题组队开黑,狼人杀,再到最近有望成为风口的后狼人杀产品“剧本杀”,都是已经被市场印证过的实时通信的应用场景。“休闲类小游戏”、“竞技类游戏”的社交性需求都很强,需要实时语音增强社交属性,进而提升玩家的游戏时长和用户粘性。

同时,游戏、社交、直播正在发生更大的融合,并且出现了很多新的场景,比如对战连麦小游戏、互动视频电商等独特品类。

而当下火热的人工智能也可以和实时音视频结合起来,未来几年互联网实时视频传输会有十倍以上的增长,人工智能可以用来提升用户对音视频内容消费的体验。机器学习如何有效地帮助达到极低延时、极高流畅度、极高画质以及高效的运维服务值得深入的研究。这也是声网目前最关注的研究方向。

结束语

2018 RTC 实时互联网大会即将开始,据赵斌介绍,此次大会上会公布 RTC 和 AI 结合的一些技术进步,也会在编解码方面有更多的技术上的突破。如果你想了解以上技术细节,还想了解更多嘉宾精彩分享,快来点击阅读原文或者扫描下方二维码预定专属大会门票,您将会听到来自 Google、声网、WebRTC、Twitch、新浪微博、华为、腾讯、Cocos、陌陌、花椒直播、VIPKID、Bilibili、沪江、招商银行等知名互联网公司的技术领袖、音视频技术大咖、产品创新专家,以及来自亚洲各地区的 2500 名开发者,将共同与您交流分享。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-09-12 08:221157
用户头像
张晓楠 InfoQ总编辑

发布了 144 篇内容, 共 94.7 次阅读, 收获喜欢 378 次。

关注

评论

发布
暂无评论
发现更多内容

面试官:请实现Javascript发布-订阅模式

helloworld1024fd

JavaScript

深度讲解React Props

夏天的味道123

React

案例解读华为隐私计算产品TICS如何实现城市跨部门数据隐私计算

华为云开发者联盟

云计算 华为云 隐私计算 企业号十月 PK 榜

PaddleBox:百度基于GPU的超大规模离散DNN模型训练解决方案

百度Geek说

企业号十月 PK 榜 PaddlePaddl 模型训练框架 大规模离散模型

云小课|MRS基础原理之MapReduce介绍

华为云开发者联盟

大数据 华为云 企业号十月 PK 榜

爆肝整理高频js手写题请查收

helloworld1024fd

JavaScript

深度理解Redux原理并实现一个redux

夏天的味道123

React

关于“React 和 Vue 该用哪个”我真的栓Q

京东科技开发者

Vue 前端 Vue 3 VUE 3.0 源码 react rout

计算机网络:电路、报文与分组交换

timerring

计算机网络 11月月更

珠宝加工厂:我的成本下降空间在哪里

华为云开发者联盟

云计算 物联网 华为云 企业号十月 PK 榜

京东云开发者|提高IT运维效率,深度解读京东云AIOps落地实践

京东科技开发者

人工智能 异常检测 时序架构 运维‘

Wallys//IPQ8072/IPQ8074/IPQ8072A/IPQ8074A/HighPower 802.11ax SoC for Routers, Gateways and Access Points

Cindy-wallys

802.11AX IPQ8072 IPQ8074 HighPower

RocketMQ Flink Catalog 设计与实践

晓双

flink Apache RocketMQ catalog

公链defi质押挖矿分红dapp系统开发(合约定制)

开发微hkkf5566

11月必须要了解的一项福利

夏夜许游

AI 双十一 视觉智能

Ten Million-Level Capacity Storage Solution of Student Management System - Examination

David

架构实战营

Docker不香吗?为什么还要用k8s

源字节1号

微信小程序 软件开发 前端开发 后端开发

应用实践:Paddle分类模型大集成者[PaddleHub、Finetune、prompt]

汀丶人工智能

nlp 文本分类 关系抽取 命名实体识别 11月月更

基于BPMN2.0的业务流程引擎

GFE

前端 BPMN 流程引擎

用git上传项目到GitHub或者码云全过程

肥晨

代码上传 githun 11月月更 Git上传

【C语言】前言关键字

謓泽

11月月更

没想到GoFrame的gcache天然支持缓存淘汰策略

王中阳Go

Go golang 高效工作 学习方法 11月月更

探索行为可回溯系统的应用与实现

GFE

前端 监控

基于qiankun的微服务落地实践

GFE

微服务 前端 qiankun

量化合约系统开发逻辑篡改方案

I8O28578624

Wallys/Qualcomm IPQ5018 solution application wifi6 , support M.2 Card Slot for QCN9074 WIFI 6E Card

Cindy-wallys

802.11AX WIFI 6e ipq5018

高频js手写题之实现数组扁平化、深拷贝、总线模式

helloworld1024fd

JavaScript

探究Presto SQL引擎(4)-统计计数

vivo互联网技术

浏览器 presto 引擎

币安DAPP系统开发技术概念及篡改逻辑

I8O28578624

“鸿蒙生态专家面对面”技术交流会,专家齐聚,等你前来!

HarmonyOS开发者

HarmonyOS

前端高频手写题自测,你能做出几道

helloworld1024fd

JavaScript

实时互动场景应用指数级增长,背后的RTC技术发展到哪里了?_语言 & 开发_张晓楠_InfoQ精选文章