2016 年携程 App 网络服务通道治理和性能优化实践

阅读数:2480 2016 年 9 月 25 日

话题:移动性能调优语言 & 开发架构

携程旅行作为一款用户使用地点遍布全球的应用,其网络优化是性能和用户体验优化的重中之重,之前我们分享过携程在网络和应用架构优化方面的探索:

本文是 2016 年携程在网络优化取得阶段性成果后的最新总结。

App 网络服务的高可靠和低延迟对于无线业务稳定发展至关重要,过去两年来我们一直在持续优化 App 网络服务的性能,到今年 Q2 结束时基本完成了 App 网络服务通道治理和性能优化的阶段性目标,特此撰文总结其中的经验教训,为以后的工作打下基础。

携程 App 无线网络服务架构

2014 年携程为无线服务开发了 Mobile Gateway,有两种类型:TCP Gateway 和 HTTP Gateway。 TCP Gateway 设计用于 App 中 Native 业务网络服务,基于 TCP 协议之上设计了应用层协议,类似于 RPC 机制。TCP Gateway 兼具了接入层和服务动态路由的功能,接入层的功能基于 Netty 实现,管理客户端的 TCP 长连接或者短连接;动态路由的功能基于 Netfix 开源的Zuul实现(Zuul is a gateway service that provides dynamic routing, monitoring, resiliency, security, and more. ),可以在 TCP Gateway 上实现服务路由、监控、反爬和用户鉴权等功能。

每个 TCP 服务请求到达 TCP Gateway 之后,会根据报文头中的服务号,转发到后端对应的业务服务集群上,从而实现后端服务的解耦。TCP Gateway 到后端业务服务集群之间的转发使用 HTTP 协议的接口形式实现,一个 TCP 服务请求的完整报文会作为 HTTP 请求的 Payload 转发到后端业务服务集群,接收到 HTTP 响应后,会将其 Payload 完整的返回到对应的 TCP 连接中。

HTTP Gateway 用于 App 中 Hybrid 和 H5 Web 站点的网络服务,采用 HTTP Restful 接口形式提供服务,其逻辑相对简单,核心是 HTTP 服务动态转发的功能。

Mobile Gateway 的更多设计实现细节可以参考王兴朝同学在 2015 上海 QCon 的演讲《携程无线 Gateway》:

http://www.infoq.com/cn/presentations/ctrip-wireless-gateway

基于 TCP 协议实现 App 网络服务

带宽和延迟是影响网络服务性能的两个因素,带宽受网络通道上最小带宽的网段限制,延迟是网络包在客户端和服务端之间的来回传输时长,不同网络类型上的带宽和延迟差别非常大(见下图)。

我们要实现更好性能的网络服务,对于网络自身的带宽和延迟这两点而言,能做只是尽可能选择最合适的网络通道,其他只能在如何使用网络通道上进行优化。

传统的非 IM 即时消息类 App 通常都是使用 HTTP 协议来实现网络服务的(Restful API 形式),携程使用 TCP 协议来实现,确实会增加很多开发成本,例如需要设计应用层协议、管理网络连接、处理异常等,但下面几点原因还是让我们最终选择基于 TCP 协议来实现 App 网络服务:

  1. 携程用户有时会在网络环境非常差的景区使用,需要针对弱网进行特别的优化,单纯 HTTP 应用层协议很难实现。
  2. HTTP 请求首次需要进行 DNS 域名解析,我们发现国内环境下针对携程域名的失败率在 2-3%(包含域名劫持和解析失败的情况),严重影响用户体验。
  3. HTTP 虽然是基于 TCP 协议实现的应用层协议,优势是封装性好,客户端和服务端解决方案成熟。劣势是可控性小,无法针对网络连接、发送请求和接收响应做定制性的优化,即使是 HTTP 的特性如保持长连接 KeepAlive 或者管道 Pipeline 等都会受制于网络环境中的 Proxy 或者服务端实现,很难充分发挥作用。

基于 TCP 协议实现可以让我们能够完整控制整个网络服务生命周期的各个阶段,包括如下几个阶段:

  1. 获取服务端 IP 地址
  2. 建立连接
  3. 序列化网络请求报文
  4. 发送网络请求
  5. 接受网络响应
  6. 反序列化网络响应报文

我们的网络服务通道治理和优化工作就是从这几个方面展开的。

TCP 网络服务通道治理和性能优化

1. 告别 DNS,直接使用 IP 地址

如果是首次发送基于 HTTP 协议的网路服务,第一件事就是进行 DNS 域名解析,我们统计过 DNS 解析成功率只有 98%,剩下 2% 是解析失败或者运营商 DNS 劫持(Local DNS 返回了非源站 IP 地址),同时 DNS 解析在 3G 下耗时 200 毫秒左右,4G 也有 100 毫秒左右,延迟明显。我们基于 TCP 连接,直接跳过了 DNS 解析阶段,使用内置 IP 列表的方式进行网络连接。

携程 App 内置了一组 Server IP 列表,同时每个 IP 具备权重。每次建立新连接,会选择权重最高的 IP 地址进行连接。App 启动时,IP 列表的所有权重是相同的,此时会启动一组 Ping 的操作,根据 Ping 值的延迟时间来计算 IP 的权重,这么做的原理是 Ping 值越小的 IP 地址,连接后的网络传输延迟也应该相对更小。业界也有使用 HTTP DNS 方式来解决 DNS 劫持问题,同时返回最合适用户网络的 Server IP。然而 HTTP DNS 的开发和部署需要不小的开发成本,我们目前没有使用。

内置 Server IP 列表也会被更新,每次 App 启动后会有个 Mobile Config 服务(支持 TCP 和 HTTP 两种网络类型服务)更新 Server IP 列表,同时支持不同产品线的 Server IP 列表更新。因此,传统 DNS 解析能够解决多 IDC 导流的功能也可以通过此方法解决。

2. Socket 连接优化,减少连接时间

和 HTTP 协议中的 Keepalive 特性一样,最直接减少网络服务时间的优化手段就是保持长连接。每次 TCP 三次握手连接需要耗费客户端和服务端各一个 RTT(Round trip time)时间才能完成,就意味着 100-300 毫秒的延迟;TCP 协议自身应对网络拥塞的Slow Start机制也会影响新连接的传输性能。

携程 App 使用了长连接池的方式来使用长连接,长连接池中维护了多个保持和服务端的 TCP 连接,每次网络服务发起后会从长连接池中获取一个空闲长连接,完成网络服务后再将该 TCP 连接放回长连接池。我们没有在单个 TCP 连接上实现 Pipeline 和 Multiplexing 机制,而是采用最简单的 FIFO 机制,原因有二:

  1. 简化 Mobile Gateway 的服务处理逻辑,减少开发成本;
  2. 在服务端同时返回多个响应时,如果某个响应报文非常大,使用多个长连接方式可以加快接收服务响应报文速度。

如果发起网络服务时长连接池中的 TCP 连接都正在被占用,或者 TCP 长连接的网络服务失败,则会发起一个 TCP 短连接实现网络服务。这里长连接和短连接的区别仅仅是服务完成后是否直接关闭这个 TCP 连接。

附:Pipeline 和 Multiplexing 是有区别的,如 HTTP/1.1 支持 Pipeline,客户端能否同时发送多个请求,但是服务端返回响应时也要按照请求的发送次序来返回响应;SPDY 和 HTTP/2 协议支持 Multiplexing,即支持响应报文的乱序返回,发送请求和接收响应互不干扰,因此避免了 HTTP/1.1 Pipeline 也没能完全解决的 Head of line blocking 问题。

参考资料

  1. http://stackoverflow.com/questions/10362171/is-spdy-any-different-than-http-multiplexing-over-keep-alive-connections

  2. https://http2.github.io/faq/

参考资料 2 中提到 HTTP/1.1 的 Pipeline 特性只是部分解决了 Head of line blocking 问题,因为 a large or slow response can still block others behind it。

3. 弱网和网络抖动优化

携程 App 引入了网络质量参数,通过网络类型和端到端 Ping 值进行计算,根据不同的网络质量改变网络服务策略:

  1. 调整长连接池个数:例如在 2G/2.5G Egde 网络下,会减少长连接池个数为 1(运营商会限制单个目标 IP 的 TCP 连接个数);WIFI 网络下可以增加长连接池个数等机制。
  2. 动态调整 TCP connection、write、read 的超时时间。
  3. 网络类型切换时,例如 WIFI 和移动网络、4G/3G 切换至 2G 时,客户端 IP 地址会发生变化,已经连接上的 TCP Socket 注定已经失效(每个 Socket 对应一个四元组:源 IP、源 Port、目标 IP、目标 Port),此时会自动关闭所有空闲长连接,现有网络服务也会根据状态自动重试。

4. 数据格式优化,减少数据传输量和序列化时间

传输数据量越小,在相同 TCP 连接上的传输时间越短。携程 App 曾经使用自行设计的一套数据格式,后来和 Google ProtocolBuffer 对比后发现,特定数据类型下数据包大小会降低 20-30%,序列化和反序列化时间可以降低 10-20%,因此目前核心服务都在逐步迁移到到 ProtocolBuffer 格式。另外 Facebook 曾分享过他们使用FlatBuffer 数据格式提高性能的实践,我们分析后不太适合携程的业务场景因而没有使用。

5. 引入重试机制,提升网络服务成功率

受 TCP 协议重传机制来保证可靠传输的机制启发,我们在应用层面也引入了重试机制来提高网络服务成功率。我们发现 90% 以上的的网络服务失败都是由于网络连接失败,此时再次重试是有机会连接成功并完成服务的;同时我们发现前面提到的网络服务生命周期处于 1 建立连接、序列化网络请求报文、发送网络请求这三个阶段失败时,都是可以自动重试的,因为我们可以确信请求还没有达到服务端进行处理,不会产生幂等性问题(如果存在幂等性问题,会出现重复订单等情况)。当网络服务需要重试时,会使用短连接进行补偿,而不再使用长连接。

实现了上述机制后,携程 App 网络服务成功率由原先的 95.3%+ 提升为如今的 99.5%+(这里的服务成功率是指端到端服务成功率,即客户端采集的服务成功数除以请求总量计算的,并且不区分当前网络状况),效果显著。

6. 其他网络服务机制 & Tricks

携程 App 也实现了其他一些网络服务机制方便业务开发,如网络服务优先级机制,高优先级服务优先使用长连接,低优先级服务默认使用短连接;网络服务依赖机制,根据依赖关系自动发起或取消网络服务,例如主服务失败时,子服务自动取消。

开发过程中我们也发现一些移动平台上的 TCP Socket 开发 tricks:

  1. iOS 平台上的原生 Socket 接口创建连接并不会激活移动网络,这里原生 Socket 接口是指 POSIX Socket 接口,必须使用 CFSocket 或者再上层的网络接口尝试网络连接时才会激活网络。因此携程 App 启动时会优先激活注册一些第三方 SDK 以及发送 HTTP 请求来激活移动网络。
  2. 合理设置 Socket 的几个参数:SO_KEEPALIVE 参数确保 TCP 连接保持(注:此 KeepAlive 是 TCP 中的属性,和 HTTP 的 KeepAlive 是两个场景概念),SO_NOSIGPIPE 参数关闭 SIGPIPE 事件,TCP_NODELAY 参数关闭 TCP Nagle 算法的影响。
  3. 由于 iOS 要求支持 IPv6-Only 网络,因此使用原生 Socket 必须支持 IPv6。
  4. 如果使用 select 来处理 nonblocking IO 操作,确保正确处理不同的返回值和超时参数。
  5. 保持 TCP 长连接可用性的心跳机制:对于非 IM 类应用而言,心跳机制的作用不大,因为用户会不断触发请求去使用 TCP 连接,尤其在携程业务场景下,通过数据统计发现使用心跳与否对服务耗时和成功率影响极小,因此目前已经关闭心跳机制。原先的心跳机制是 TCP 长连接池中的空闲 TCP 连接每 60 秒发送一个心跳包到 Gateway,Gateway 返回一个心跳响应包,从而让双方确认 TCP 连接有效。

Hybrid 网络服务优化

携程 App 中有相当比例的业务是使用 Hybrid 技术实现的,运行在 WebView 环境中,其中的所有网络服务(HTTP 请求)都是由系统控制的,我们无法掌控,也就无法进行优化,其端到端服务成功率也仅有 97% 左右(注:这里指页面中业务逻辑发送的网络服务请求,而非静态资源请求)。

我们采用了名为『TCP Tunnel for Hybrid』的技术方案来优化 Hybrid 网络服务,和传统 HTTP 加速产品的方法不同,我们没有采用拦截 HTTP 请求再转发的方式,而是在携程 Hybrid 框架中的网络服务层进行自动切换。

如图所示,该技术方案的流程如下:

  1. 如果 App 支持 TCP Tunnel for Hybrid,Hybrid 业务在发网络服务时,会通过 Hybrid 接口转发至 App Native 层的 TCP 网络通讯层,该模块会封装这个 HTTP 请求,作为 TCP 网络服务的 Payload 转发到 TCP Gateway;
  2. TCP Gateway 会根据服务号判断出是 Hybrid 转发服务,解包后将 Payload 直接转发至 HTTP Gateway,此 HTTP 请求对 HTTP Gateway 是透明的,HTTP Gateway 无需区分是 App 直接发来的还是 TCP Gateway 转发来的 HTTP 请求;
  3. 后端业务服务处理完成后,HTTP 响应会经 HTTP Gateway 返回给 TCP Gateway,TCP Gateway 将此 HTTP 响应作为 Payload 返回给 App 的 TCP 网络通讯层;
  4. TCP 网络通讯层会再将该 Payload 反序列化后返回给 Hybrid 框架,最终异步回调给 Hybrid 业务调用方。整个过程对于 Hybrid 业务调用方也是透明的,它并不知道 TCP Tunnel 的存在。

采用该技术方案后,携程 App 中 Hybrid 业务的网络服务成功率提升至 99% 以上,平均耗时下降了 30%。

海外网络服务优化

携程目前没有部署海外 IDC,海外用户在使用 App 时需要访问位于国内的 IDC,服务平均耗时明显高于国内用户。我们采用了名为『TCP Bypass for Oversea』的技术方案来优化海外网络服务性能,主要是使用了 Akamai 的海外专属网络通道,同时在携程国内 IDC 部署了局端设备,使用专用加速通道的方式来提升海外用户体验。

海外用户启动 App 后先通过 Akamai 定制域名获取 Server IP,所有网络服务优先走 Akamai 通道;如果 Akamai 通道的网络服务失败并且重试机制生效时,会改走传统 Internet 通道进行重试。相比只用传统 Internet 通道,在保持网络服务成功率不变的情况下,使用 Akamai 通道 Bypass 技术后平均服务耗时下降了 33%。

其他网络协议探讨

过去两年我们的网络服务优化工作都是基于 TCP 协议实现的,基本达到了优化目标。不过这两年来新的应用层网络协议 SPDY 和 HTTP/2 逐步迈入主流,基于 UDP 的 QUIC 协议看起来也非常有趣,值得跟进调研。

SPDY & HTTP/2

SPDY 是 Google 基于 TCP 开发的网络应用层协议,目前已经停止开发,转向支持基于 SPDY 成果设计的 HTTP/2 协议,HTTP/2 协议的核心改进其实就是针对 HTTP/1.x 中影响延迟性能的痛点进行优化:

  1. Header 压缩:压缩冗余的 HTTP 请求和响应 Header。
  2. 支持 Multiplexing:支持一个 TCP 连接上同时实现多个请求和响应。
  3. 保持长连接(比 HTTP/1.x 更彻底):减少网络连接时间。
  4. 支持推送:可以由服务端主动推送数据到客户端。

官方性能测试结果显示使用 SPDY 或者 HTTP/2 的页面加载时间减少 30% 左右,不过这是针对网页的测试结果,对于 App 中的网络服务,具体优化效果我们还在进行内部测试,不过其优化手段看和目前我们使用 TCP 协议的优化手段类似,因此性能优化效果可能不会很显著。

QUIC

QUIC 是 Google 基于 UDP 开发的应用层协议,UDP 协议无需连接,不存在重传机制,因此应用层需要保证服务的可靠性。目前国内腾讯有针对弱网络尝试过 QUIC 协议,我们也在进行测试,最终是否会采用还需要看测试的结果。

综述

技术只是手段,最终还是要反映在业务效果上。我们已经实现除静态资源等需要访问 CDN 的网络请求外,其他 App 网络服务使用统一的 TCP 通道,从而具备更好的性能调优和业务监控能力。携程目前基于 TCP 协议的各种 App 网络服务优化,也是各种技术方案的平衡,虽然目前 HTTP/2 等新协议逐步成熟,但是 TCP 协议自身的灵活性支持有针对性的性能优化,还是具备其特别的优势,希望我们的实践总结能对国内无线技术从业者有一些借鉴价值。


感谢徐川对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。