低延迟连麦技术

目前大多数的互动直播都是主播与观众的一对多模式，观众与主播的互动主要通过使用文字、点赞、礼物等方式进行。在这种模式下，主播和观众的互动性不够直观和及时。考虑到直播时观众若能与主播进行实时的音视频互动，将会大大提高用户的参与感、增加用户粘性，目前很多直播平台都支持或者正在开发支持观众和主播连麦互动的功能，这也是目前各直播平台主要的竞争技术点之一。

连麦的简单过程如下：

主播正常开始直播，观众进入房间观看主播直播画面（普通直播）；
直播过程中，想要连麦互动的观众发起连麦请求，进入连麦申请列表；
主播从连麦申请列表中选择一名或多名观众进行连麦互动，主播可以看到并听到连麦观*众的声音画面；观众也可以看到并听到主播和其他观众的声音画面（连麦直播）；
连麦结束，恢复原来的主播单人直播模式。

由此可知，“连麦”要求主播和上麦的观众能够展开实时的音视频互动，这对音视频的延时和同步提出了很高的要求。

那么它该如何实现呢？

音视频实验室互动直播SDK针对以下几个方面持续地进行优化：

首先，在上麦时刻，基于SDK的秒进房特性（在另外一篇SDK介绍文章《音视频实验室：服务于130+客户的直播SDK是怎样炼成的》中有详细介绍），连麦观众能够实现快速进房间，主播也能够快速看到上麦观众的音视频画面。
其次，在编解码端，我们对编码器效率的持续优化使得编码器耗时更小，在同等质量下码率更低，从而需要传输的数据量更小，更有利于延迟的减少；对于视频编码，我们支持IOS、Android、PC三端的硬件编解码，使得编码耗时更低；同时也支持软、硬件编码实时互相切换，调整更灵活，响应及时。
接着，在传输端，我们采用基于实时性很高的UDP协议而优化的私有的UDT协议，而不是直播行业常用的RTMP、HLS、FLV等方式，从而减小了延迟，适合于对实时性要求高的应用场景。

小科普：
RTMP、HLS、FLV等传输协议是基于TCP的上层协议。TCP协议的几次握手挥手过程和丢包重传特性都会使得延迟无法降到很低，尤其当网络有丢包和抖动时，延迟变得更加不可控。

UDP协议就没有这些繁琐的过程，因此它有非常高的实时性，延迟能够达到1s以下，因此一般用在视频会议、监控、IP电话等实时场景。但UDP是简单不可靠的传输方式，本身没有QoS的保障机制，存在丢包和乱序现象，必须要额外增加网络QoS机制来保证传输的质量。

我们自研的UDT协议通过一系列策略优化，既保证了网络QoS抗性，也保证了连麦场景下能够有较高的实时性：
在流控层，连麦场场景下，专门调测一组低延迟的、对音视频质量无明显影响的编解码参数和网络传输控制参数。

在接入层，依托腾讯在全球强大的服务器部署，利用智能的接入分配策略，实现最优的就近接入、跨地域、跨运营商优化接入。

基于上述几个方面的优化，音视频实验室互动直播SDK的连麦场景实现了最低可达到400ms，普通网络下平均600+ms的低延迟连麦体验，在兼顾低延迟的同时还能保证抗性能抗最大45%的网络丢包：

结语

本文简单介绍了最近很火的互动直播基本情况和技术特性，接着对音视频实验室互动直播SDK及其音视频核心技术特点进行了分享（点击阅读原文按钮，可查看上篇直播SDK技术揭秘）。

针对音视频实验室互动直播SDK现有的高性能，我们还将持续深入地优化、精益求精，以实现更丰富多样的功能性、更强的网络适应性，和更优质的音视频体验。

本文转载自腾讯多媒体实验室公众号。

原文链接：https://mp.weixin.qq.com/s/BmLeVbM5wsZUKVcCH1skbw

创作场景

音视频媒体 QoS 保障机制