“我们是全世界第一家真正把实时音视频能力做成简单易用的 API，开放给开发者和合作公司来使用。我们在这方面所做的努力，也在过去每一年的 RTC 大会里逐步辐射给互联网和实时互联网行业的参与者，给大家提供更多的服务。”这是声网 Agora CEO 赵斌在 10 月 24 日声网品牌发布会上的一句话。

而这句话的底气正是来自整个声网技术团队对实时音视频技术 6 年的坚持。RTC 大会的第五年圆满落幕，随着 AI、5G 等新技术的兴起，有更多的未知和挑战在触动技术人的心弦。InfoQ 记者在 RTC 大会期间采访到声网首席科学家钟声，听他讲述实时音视频技术背后的故事。

“实时交互是我们与生俱来的本能和需求”

钟声提到，RTC 的核心就是把用户的体验做到最好，其中最关键的是用先进的算法实现音视频处理和传输不卡不糊不延时。所以，算法的先进性是核心竞争力。“声网近一年来在研发下一代实时编码传输技术，其中部分已经完成，一些客户已经开始试用。下一代实时传输技术可以让视频在极端网络条件下，甚至在 80% 丢包的情况下，还能实现低延时下比较流畅地传输，全面提升视频传输在各种网络条件下的鲁棒性。”

随着视频业务的增长，越来越多的客户或用户在享用高清、甚至 4K 的内容和服务。这对网络带宽的压力非常大，导致经常会出现拥堵的问题。那么，如何在保证视频质量的情况下，还可以取得额外 30% 甚至更多的压缩？

钟声提到，在视频编码和传输的过程中，在低延时的情况下，有效对抗 80% 的网络丢包率十分考验公司的技术实力。“声网新一代技术可以做到在 80% 的丢包环境下保障视频流畅。在提升视频图像质量和编码效率方面，利用人工智能的深度学习算法可以取得额外 30% 的编码效率的提升，而不牺牲视频质量。”

声网 1.0——>声网 2.0

钟声提到，“我是 2017 年年底来到声网，主要任务就是把实时音视频技术从 1.0 提升到 2.0。”以视频技术为例，当一个图象采集进来之后，首先要做前处理，比如降噪、美颜、加贴纸、风格转换等操作，这是第一步。接下来要做压缩和编码，就是将原始的视频数据压缩后上传至网上。压缩的诉求就是把数据压得越小越好，同时还需要让画质的损失控制在人们可接受的程度，并且对传输友好。互联网是有带宽制约的，端到端各节点上也会出现不理想的条件，因此经常会出现拥堵或丢包的情况，这就要求编码和传输的技术能对抗丢包，对抗网络拥堵。要做到这一点，需要传输算法和编码算法的结合。在数据传输到云端的过程中，要找到一条路径可以快速稳定地传输到另一方，这是基本诉求。在接收端接收到信息后，要做解码和后处理，后处理就需要考虑到图像质量的提升，以及一些丢包隐藏技术的使用，最终呈现出让用户感觉很舒适的视频。

声网的第一代算法相对比较朴素，搭建了一套从前端到后端的架构体系。“我加入后的第一个任务，就是识别各环节上的不足或者需要改进的和可以改进的地方，从而设计出使整体水平跃升一个台阶的关键技术。这个过程中，我们提出和设计出了一系列可感知、可衡量的具体改进方法，和团队在前处理、编解码、传输、后处理上都设计出了一些有效的新算法和新架构。其中，一些创新的深度学习和机器学习算法也带来了可观的效果。”

实际环境中的实时传输会出现各种状况。钟声提到，而用户对于音视频体验的优化需求是无止境的，出现任何问题，不要奢求用户会理解或容忍，而是要主动想办法去解决，把优质体验率提升到 90%，再提升到 99%、99.9% 等，做无止境的努力。

5G 到来，RTC 会如何发展？

实时互动音视频行业将有 40 多亿美元的市场空间，整个行业的成长与发展空间都处于良好态势。未来，在更多音视频服务提供商的推动下，虚拟世界将与现实世界不断融合，让世界实时互动仅在毫秒间。

5G 是一个慢慢发展的过程，离真正普及还有一段距离，并且在很长时间里，将是 5G、4G、甚至还有 3G、2G 并存的情况。钟声解释：“在一定时间范围内，5G 的新应用会带来一些比较突出的问题，比如 5G/4G 切换不自然和拥塞。现在实时互动传输 720P 视频，会觉得这已经是很高的质量了。等到 5G 之后，4K/8K 的内容会很多。这就导致带宽会被快速地占掉，进而会出现拥塞、延时、丢包等问题。”

在未来，RTC 服务的界限会变得越来越模糊，多种技术的结合也会变得越来越普遍。在 4G 时代，解决丢包问题是声网在 RTC 领域拥有卓越表现的关键。随着 5G 的到来，带宽只是其中一个环节，数据传输依旧面临与 4G 时代同样的问题。声网除了继续优化传输质量之外，还将与 VR、AR、AI 技术相结合，拓宽使用场景，在 AI 教育、工业智能制造等领域持续发力。

5G 的传输速度对于 RTC 来说是特别必要的吗？

钟声解释，这里面其实是用户的内容消费趋势和心理在起作用。当你体验过更好质量的东西之后，你就很难退回到之前的状态了。举例来说，很多年前大家看 VCD 看得很开心，后来 DVD 来了，没人看 VCD 了。再后来高清的设备出现后，没有人看 DVD 了。现在屏幕上每秒 15 帧，仔细看其实是可以看的到视频是抖动的，因为不够平滑。一些大型的直播或音乐会、体育赛事等，都是需要至少每秒 60 帧。“目前我们夸耀的音视频质量，可能在下一代看来，是不可接受的。”

超分辨率等技术的发展空间

图像超分辨率越来越成为计算机视觉的一个热点，之所以火起来是因为深度神经网络大大改进了图像超分辨率的效果，实际应用希望超分辨率能成为降低越来越高的图像、视频数据存储和传输成本的新方向。

什么是图像的超分辨率技术？

简单来说，就是将一张或多张分辨率较低的图像，通过一定的技术手段，生成一张或多张分辨率高的图像。举例来说，在监控领域，通过监控画面想看清嫌疑人的脸，这个放大的过程，其实没有那么简单，需要通过超分辨率重建技术放大选定区域内的像素，形成清晰的图像。

超分辨率是计算机视觉里比较底层的一个问题，得益于深度学习的算法，尤其是近几年生成对抗网络的兴起，能够根据内容假想出一些东西来。比如说一片草坪，有可能生成一些草尖，这些草尖本来是没有的，是根据人的视觉感受假想出来的。这就不是在原来的频率上做一些调整，而是新增加了一些频率。钟声提到，“这是很有挑战的一件事。可能会有一些公司在服务端可以实现，比如做离线处理。但声网追求的是实时处理，这个要求更高。” 声网最新的 SDK 目前已经实现了在某些移动设备上 360P 到 720P 的实时超分算法。

另外，声网目前已经利用深度学习技术做基于感知的压缩算法，有力地提高了视频的压缩率。其最新的 SDK 也已经集成了这个算法。

2020 RTC 未完待续在接受采访时，钟声提到：“作为一家技术公司，只有先进的技术才可以使得我们保持竞争力。在人工智能和 5G 来临的时代，利用先进的技术让实时交互的本能和需求在虚拟的世界得以保持。这是我们一直在追求的事情。”

2020 年，声网的整个技术体系还会升级，在不卡不糊不延时方面将继续优化。另外，AI 将是声网另外一个重点发力方向，“我们已经用 AI 解决了很多问题，未来还会做视频风格转换，做分割，做情感计算或视频理解；在音频方面也会有风格转换、带宽拓展，做自然语言理解、翻译，做数据挖掘等，使人机交互或人与人之间的交互更自然、更高效。比如可以提供自动翻译不同语言的功能，这样人与人之间就可以无障碍地沟通。如果能够提供一个办法让机器理解人，那么人机交互也会变得自然和有效。”

举个例子，在教学的时候，老师可以通过 AI 脸部识别，及时了解学生是否专心听讲，通过学生的表情、状态判断其对于内容的感兴趣程度。再比如，对于许许多多的留守儿童，也能远程关爱孩子们，这也是教育大背景下的一种人文关怀。

5G 来了，带来了很多的商业机会、商业模式，比如金融可以通过视频实时处理来办理业务，不需要再到营业厅去等候；比如保险定损，一个小事故通过视频保安就定损了。未来类似这样的应用会越来越多。声网将会先主要解决在 5G 场景下可能存在的一些问题：因为 5G 和 4G 是长期共存的，那么它们之间的切换就会很频繁，只为 5G 打造的应用是没有自适应的切换能力，即便是在纯 5G 时代，5G 信号覆盖很好的时候，实现类似于 360 度的 VR 也是比较有挑战的，因为它需要整个从端上，从边缘到云，到网络的巨大升级，在算法层面也要求用更加聪明的算法，去降低成本，进而承载新业务。“而这些，都需要我们和业界同仁一起去攻克。”

正如钟声在采访结束时提到的：“生逢 AI 和 5G 交叠的时代，有很多未知和挑战，作为技术人员，我们已经等不及要去创造更好的技术了。”

创作场景

在 80% 的丢包环境下还能保障视频流畅？背后的这群技术人太拼了