LVS 在大规模网络环境中的应用

  • 郭蕾

2014 年 10 月 13 日

话题:DevOps

LVS 是 Linux Virtual Server 的简称,也就是 Linux 虚拟服务器。目前 LVS 已经是 Linux 内核标准的一部分。阿里云技术团队近日分享了题为《LVS 在大规模网络环境中的应用》的演讲,InfoQ 对演讲内容进行了整理。

为什么引入 LVS?

举个例子,一个用户访问淘宝网站,淘宝网前端共有 5 台 Apache 服务器,如何决定访问哪一台 Apache?常用的方式是用 DNS 做负载均衡,将 5 台 Apache 服务器的 ip 地址添加到域名 www.taobao.com 中。

但 DNS 有一些缺点,第一个缺点:例如第二台 Apache 宕了,运维赶紧把 DNS 中该 Apache 的 ip 地址删除掉,但很多地方的 Local DNS 不一定遵守 TTL 协议,这样删除操作什么时候生效,你根本不可控的;尤其移动网络中,这个问题更突出,我记得 10 年时移动网络部分地区 Local DNS 一天才更新。

第二个缺点:服务调度算法只支持 WRR。如果你用户范围很有限,就会有负载不均衡的问题。第三个缺点:攻击防御能力很弱,每次有攻击靠一台机器抗。

针对 DNS 的不足,引入了 Virtual Server 的概念,即最前端有一个入口设备把流量均衡到后端的 Apache 上去;无论是 LVS 软负载还是 F5 硬负载均衡也都是这种概念。

LVS 是什么?

LVS 是 Linux Virtual Server 的简称,也就是 Linux 虚拟服务器。LVS 工作在网络 4 层之上仅作分发之用,所以抗负载能力比较强。LVS 有完整的双机热备方案,几乎支持对所有应用做负载均衡。LVS 在互联网应用中的位置是在 Nginx 之上,具体如下:

LVS 如何应用?

LVS 本身只是一个叫 IP_VS 的内核模块,这个模块可以做负载均衡,但是只用这个模块来做工程应用是远远不够的,比如 LVS 本身宕机后如何处理?实际生产环境中,一般配合 Keepalived 来使用 LVS,keepalived 支持 VRRP 心跳协议,可以实现 LVS 主备冗余,以解决 LVS 本身单点故障。另外,Keepalived 支持健康检测,4 层和 7 层健康检测,防止服务器宕机。对于 LVS 的服务监控问题,可以使用开源软件 SNMP Patch 解决。

LVS 问题以及解决方案

  1. LVS 的 3 种转发模式,部署成本比较高

    使用新转发模式 FULLNAT,FULLNAT 实现了 LVS-RealServer 间跨 vlan 通讯,并且 in/out 流都经过 LVS。FULLNAT 转发数据包是类似 NAT 模式,IN 和 OUT 数据包都是经过 LVS,唯一的区别后端 RealServer 或者交换机 不需要做任何配置。FULLNAT 的主要原理是引入 local address(内网 ip 地址),cip-vip 转换为 lip->rip,而 lip 和 rip 均为 IDC 内网 IP,可以跨 vlan 通讯;
  2. 和商用的负载均衡比,LVS 没有 DDOS 防御攻击功能;

    使用 SYNPROXY(synflood 攻击防御模块),Synproxy 实现的主要原理是参照 Linux TCP 协议栈中 syncookies 的思想,LVS 构造特殊 seq 的 synack 包,验证 ack 包中 ack_seq 是否合法实现了 TCP 三次握手代理。

  3. 主备部署模式,性能无法扩展;

    Cluster 部署模式。基于 FullNAT 模式做横向扩展。

LVS 的性能优化

  1. 多队列网卡,即一个队列绑定到一个 CPU 核上,让多核同时处理网络数据包。如果网卡不支持多队列,可以用 Google 提供的软多队列 -RPS,Linux 内核默认已经集成;
  2. 对 Keepalived 进行了优化,主要将网络模式从 select 改为了 epool。
  3. 建议把网卡 LRO、GRO 功能关掉,尤其是 broadcom 的网卡。

LVS 的创始人和主要开发者章文嵩博士目前就职于阿里云,任职阿里云副总裁。在 10 月 16 日举行的阿里云开发者大会上,他所带领的阿里云团队将会在现场进行互动问答,与用户共同探讨云时代的产品、运维、服务等相关问题,欢迎关注。

DevOps