基于 Keepalived 实现京东云接入服务组件高可用

阅读数:453 2019 年 11 月 10 日 18:56

基于Keepalived实现京东云接入服务组件高可用

本文转载来源:京东云开发者社区公众号

通常,公有云厂商提供的云主机服务可用性不低于 99.95%,也就是一台云主机,每月的最大不可用时间是 21.92 分钟(365.25 * 24 * 60 * (1 - 0.9995) / 12)。对一些要求更高可用性的应用组件(比如 Web 前端、数据库服务等),通常会采用主备份方式搭建,并通过自动切换主备满足更高的可用性。

京东云提供的高可用组功能,把主服务器 (Master Server) 和备用服务器 (Slave Server) 分别部署在不同可用区的不同故障域(故障域是相互隔离的物理资源池),并利用通过 Keepalived 调用京东云命令行实现公网 IP 在两台云主机之间自动漂移,缩短故障恢复时间 (MTTR, Mean time to recovery),从而提升整个接入服务组件的可用性。

本文包括如下内容:

  • 京东云命令行简介
  • 如何利用高可用组实现云主机反亲和部署
  • 利用 Keepalived 和京东云命令行实现弹性公网 IP 漂移

京东云命令行简介

京东云控制台提供浏览器操作界面,同时也提供 OpenAPI 和命令行。通过命令行,可快速批量创建京东云资源,并避免图形化界面的手工操作错误。

京东云命令行的详细介绍可参考

注意,安装京东云命令行的云主机需要能访问互联网。

下面是当前京东云命令行的版本信息和帮助信息:

复制代码
1MacBook:~ user001$ jdc --help
2usage: jdc [-h] [--debug] [--quiet] [--output {json}] [-v]
3 {mps,cps,rds,jke,vpc,xdata,mongodb,configure,streambus,ipanti,baseanti,datastar,redis,nc,monitor,iam,disk,cr,streamcomputer,sop,clouddnsservice,vm,oss}
4 ...
5
6 京东云 CLI 使用方法简介:
7
8 1) 配置默认 Profile
9 jdc configure add --access-key your-ak --secret-key your-sk
10 说明:access-key 和 secret-key 可以从京东云控制台申请开通。默认为华北区域。
11
12 2) 配置自动完成,方便输入指令。输入两次 TAB 键可联想出子命令或参数。
13 ...
14MacBook:~ user001$ jdc --version
150.7.2

在使用命令行之前,需要通过 jdc configure 配置访问信息。下面是 jdc configure add 增加配置信息的命令:

复制代码
1jdc configure add --access-key {ACCESS_KEY} --secret-key {SECRET_KEY} --region-id {REGION_ID} --endpoint {ENDPOIN} --scheme {SCHEME} --profile {PROFILE}

上述命令中每个参数的简要介绍如下:

  • ACCESS_KEY 和 SECRET_KEY:是从京东云控制台的账户管理, Access Key 管理界面获得。

  • REGION_ID:当前京东云提供华北 - 北京、华东 - 宿迁、华东 - 上海和华南 - 广州四个区域,每个区域对应的 Region ID 分布是 cn-north-1、cn-east-1、cn-east-2 和 cn-south-1。

  • ENDPOINT: 命令行操作的服务器 URL。在公网环境下使用命令行,endpoint 是 www.jdcloud-api.com,如果是在京东云服务器通过内网使用命令行时,endpoint 是 openapi.internal.{region_id}.jdcloud-api.com。其中 {region_id}替换为对应区域的 region_id 值。

  • SCHEME: 使用命令行时的传输协议,在公网环境使用命令行时 scheme 是“https",在内网环境时 shceme 是“http"。

  • PORFILE: 创建的配置名称,可为任意字符串,但配置名称不能相同。

下面是在公网环境下的命令行配置信息,通过该配置,可操作京东云华东 - 上海区域的云资源:

复制代码
1MacBook:~ user001$ jdc configure show-current
2================= cn-east-2 ================
3access_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
4secret_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
5region_id: cn-east-2
6endpoint: www.jdcloud-api.com
7scheme: https
8timeout: 20

以下是在京东云华东 - 上海区域云主机上命令行配置,可通过内网操作京东云华东 - 上海区域的云资源:

复制代码
1[root@jdcoe-srv016 ~]# jdc configure show-current
2================= cn-east-2 ================
3access_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
4secret_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
5region_id: cn-east-2
6endpoint: openapi.internal.cn-east-2.jdcloud-api.com
7scheme: http
8timeout: 20

如何利用高可用组实现云主机反亲和部署

京东云云主机通过完善的网络模型实现资源的高效管理和合理分布。下图描述了京东云云主机和网络相关对象的相互关系。
基于Keepalived实现京东云接入服务组件高可用

反亲和性是确保一组云主机运行在不同的物理机、不同的机架、不同的机房区域、不同的机房而所定义的主机创建规则。这样,当该云主机组中的一台云主机因为物理原因不可用时,该组的其他云主机还能正常提供服务。

首先京东云的子网可以跨多个可用区,这样一个应用可以根据软件架构层次分为不同的子网,而每个子网的云主机可以跨不同的可用区。此外,通过高可用组特性,可让属于该组的云主机分散到不同可用区的不同故障域(数据中心内相互隔离的物理资源池,可以理解为数据中心内机架组)下,进一步提高了云主机组的整体可用性。下图是基于高可用组 jdcoe-nginx-ha 创建的 4 台云主机。这 4 台云主机都属于子网 10.0.1.x,但运行在可用区 A 和可用区 B,而运行在同一可用区的 2 台云主机,也分别属于不同的故障域 1 和故障域 2。当前京东云每个可用区包含 5 个故障域。
基于Keepalived实现京东云接入服务组件高可用

利用 Keepalived 和京东云命令行实现弹性公网 IP 漂移

部署在公有云上的应用向外提供服务时,通常是通过公有云厂商提供的负载均衡器,并绑定一个公网 IP。负载均衡器具有配置简单,弹性伸缩和完善的监控功能,但有时流量分发规则不够灵活,需要在云主机上自建基于 Nginx 或者 HAProxy 的负载均衡服务,此时如何提高自建负载均衡服务的可用性就成为新的问题。本节将介绍如何利用 Keepalived 和京东云命令行实现弹性公网 IP 在主服务器和备服务器之间的自动漂移,提高自建负载均衡服务的可用性。

本节用到两台云主机,并安装 Nginx 作为负载均衡器,通过修改 Nginx 的 /usr/share/nginx/html/index.html 文件内容区分主服务器和备服务器。具体配置信息如下:
基于Keepalived实现京东云接入服务组件高可用

此外,申请一个公网 IP,IP 地址为 114.67.95.123,通过京东云控制台可获得该公网 IP 的内部 ID 是 fip-b6f37survq(该 ID 将在后续 master.sh 脚本中使用)。正常情况下该 IP 是绑定在主服务器云主机上,并通过公网 IP 向外提供服务。

复制代码
1MacBook:~ user001$ curl http://114.67.95.123
2<h1>Master Server</h1>

配置云主机京东云命令行

首先在云主机 10.0.1.18 和 10.0.1.19 上安装京东云命令行,并完成命令行配置。其中 ACCESS_KEY 和 SECRET_KEY 替换成相应的值。

复制代码
1jdc configure add --access-key {ACCESS_KEY} --secret-key {SECRET_KEY} --region-id cn-east-2 --endpoint openapi.internal.cn-east-2.jdcloud-api.com --scheme http --profile cn-east-2

在京东云命令行配置成功后,可在云主机上执行如下命令,能查看云主机信息。

复制代码
1[root@jdcoe-nginx-master ~]# jdc vm describe-instance --instance-id i-bszab8pxg0
2{
3 "error": null,
4 "result": {
5 ...
6 }
7 }

安装 keepalived 服务

在主、备负载均衡云主机上安装和配置 keepalived 服务,命令如下:

复制代码
1#安装 keepalived 软件包
2yum install keepalived -y
3#配置 keepalived 服务为自动启动
4chkconfig keepalived on
5#启动 keepalived 服务
6service keepalived start
7#查看服务状态
8service keepalived status
9#查看 keepalvied 版本信息
10yum info keepalived
11...
12Installed Packages
13Name : keepalived
14Arch : x86_64
15Version : 1.3.5

配置 keepalived 服务,实现公网 IP 自动漂移

配置主服务器 Keepalimatchvedmatch
Keepalived 服务的配置文件是 /etc/keepalived/keepalived.conf。主服务器 10.0.1.18 的配置文件内容如下:

复制代码
1vrrp_script chk_nginx
2{
3#检查 nginx 服务是否存在
4 script “pidof nginx”
5 interval 2
6}
7
8vrrp_instance VI_1
9{
10 debug 2
11 interface eth0 # interface to monitor
12
13 state MASTER
14 virtual_router_id 1 # Assign one ID for this route
15 priority 101 # 101 on master, 100 on backup
16 unicast_src_ip 10.0.1.18 # My IP
17 unicast_peer
18 {
19 10.0.1.19 # peer IP
20 }
21
22 track_script
23 {
24 chk_nginx
25 }
26 notify_master /etc/keepalived/master.sh
27}

同时,在主服务器下创建 /etc/keepalived/master.sh,该文件的内容为如下:

复制代码
1[root@jdcoe-nginx-master ~]# ls -al /etc/keepalived/master.sh
2-rwxr-xr-x 1 root root 305 Dec 3 23:27 /etc/keepalived/master.sh
3[root@jdcoe-nginx-master ~]# cat /etc/keepalived/master.sh
4#!/bin/bash
5
6EIP_ID=fip-b6f37survq # Elastic IP to be associated
7MASTER_INSTANCE_ID=i-bszab8pxg0
8SLAVE_INSTANCE_ID=i-pi9w6jp716
9
10jdc vm disassociate-elastic-ip --instance-id $SLAVE_INSTANCE_ID --elastic-ip-id $EIP_ID
11
12jdc vm associate-elastic-ip --instance-id $MASTER_INSTANCE_ID --elastic-ip-id $EIP_ID

运行 master.sh,能看到如下信息。因为当前公网 IP 已经和主服务器绑定,所以解绑备云主机和再绑定主云主机失败,输出结果证明该脚本没有错误。

复制代码
1[root@jdcoe-nginx-master ~]# /etc/keepalived/master.sh
2{
3 "error": {
4 "status": "FAILED_PRECONDITION",
5 "message": "Elastic ip isn't associated to this instance's primary network interface",
6 "code": 400
7 },
8 "result": null,
9 "request_id": "bg2kogiib9wh962u5d7uhp2e4w3s101g"
10}
11{
12 "error": {
13 "status": "FAILED_PRECONDITION",
14 "message": "ElasticIp 114.67.95.123 already in use",
15 "code": 400
16 },
17 "result": null,
18 "request_id": "bg2kogwrpct3kjqp7id40m4sq2a2bhn0"
19}

配置备服务器 keepalived
备服务器 10.0.1.19 的配置文件内容如下:

复制代码
1vrrp_script chk_nginx
2{
3#检查 nginx 服务是否存在
4 script “pidof nginx”
5 interval 2
6}
7
8vrrp_instance VI_1
9{
10 debug 2
11 interface eth0 # interface to monitor
12
13 state BACKUP
14 virtual_router_id 1 # Assign one ID for this route
15 priority 100 # 101 on master, 100 on backup
16 unicast_src_ip 10.0.1.19 # My IP
17 unicast_peer
18 {
19 10.0.1.18 # peer IP
20 }
21
22 track_script
23 {
24 chk_nginx
25 }
26 notify_master /etc/keepalived/master.sh
27}

同时,在备服务器下创建 /etc/keepalived/master.sh,该文件的内容为如下:

复制代码
1[root@jdcoe-nginx-slave ~]# ls -al /etc/keepalived/master.sh
2-rwxr-xr-x 1 root root 306 Dec 3 23:37 /etc/keepalived/master.sh
3[root@jdcoe-nginx-slave ~]# cat /etc/keepalived/master.sh
4#!/bin/bash
5
6EIP_ID=fip-b6f37survq # Elastic IP to be associated
7
8MASTER_INSTANCE_ID=i-bszab8pxg0
9SLAVE_INSTANCE_ID=i-pi9w6jp716
10
11jdc vm disassociate-elastic-ip --instance-id $MASTER_INSTANCE_ID --elastic-ip-id $EIP_ID
12
13jdc vm associate-elastic-ip --instance-id $SLAVE_INSTANCE_ID --elastic-ip-id $EIP_ID

运行 master.sh,能看到如下信息。表示首先成功解绑公网 IP 和主服务器,再成功绑定公网 IP 和备服务器。

复制代码
1[root@jdcoe-nginx-slave ~]# /etc/keepalived/master.sh
2{
3 "error": null,
4 "result": null,
5 "request_id": "bg2kuinedrw632wkop847ffpatk643t1"
6}
7{
8 "error": null,
9 "result": null,
10 "request_id": "bg2kuivfc95aiaitu32e6c2s8tftbawt"
11}

测试公网 IP 在主备服务器之间自动漂移
在修改完主、备服务器的 keepalived 配置后,需要重新启动 keepalived 服务。当前主负载均衡提供服务:

复制代码
1MacBook:~ user001$ curl 114.67.95.123
2<h1>Master Server</h1>

运行如下命令停止主服务器:

复制代码
1MacBook:~ user001$ jdc vm stop-instance --instance-id i-bszab8pxg0
2{
3 "error": null,
4 "result": null,
5 "request_id": "bg2m30sdcctb5pobicmegnap9ebw3nn9"
6}

重新执行如下命令,发现已切换为备服务器提供服务:

复制代码
1MacBook:~ user001$ curl 114.67.95.123
2<h1>Slave Server</h1>

重新启动主服务器,过几秒后检查,将发现主服务器重新提供服务,表示公网 IP 已重新从备服务器自动绑定到主服务器:

复制代码
1MacBook:~ user001$ jdc vm start-instance --instance-id i-bszab8pxg0
2{
3 "error": null,
4 "result": null,
5 "request_id": "bg2m3vf2qt48hunj61i3k3pkhqmi34d7"
6}
7MacBook:~ user001$ curl 114.67.95.123
8...
9MacBook:~ user001$ curl 114.67.95.123
10<h1>Slave Server</h1>
11MacBook:~ user001$ curl 114.67.95.123
12<h1>Master Server</h1>

也可以执行如下命令 " while true; do curl http ://114.67.95.123; sleep 2; done" 命令检查公网 IP 自动漂移功能。在命令执行过程中先后停止和启动主服务器,可看到公网 IP 将自动漂移,在漂移期间会报一两次网络连接错误,但也大大缩短了故障修复时间。

复制代码
1MacBook:~ user001$ while true; do curl http://114.67.95.123; sleep 2; done
2<h1>Master Server</h1>
3<h1>Master Server</h1>
4<h1>Master Server</h1>
5<h1>Master Server</h1>
6<h1>Master Server</h1>
7<h1>Master Server</h1>
8<h1>Master Server</h1>
9<h1>Master Server</h1>
10<h1>Master Server</h1>
11<h1>Master Server</h1>
12<h1>Master Server</h1>
13<h1>Master Server</h1>
14<h1>Master Server</h1>
15<h1>Master Server</h1>
16<h1>Master Server</h1>
17curl: (56) Recv failure: Connection reset by peer
18curl: (7) Failed to connect to 114.67.95.123 port 80: Connection refused
19<h1>Slave Server</h1>
20<h1>Slave Server</h1>
21<h1>Slave Server</h1>
22<h1>Slave Server</h1>
23<h1>Slave Server</h1>
24<h1>Slave Server</h1>
25<h1>Slave Server</h1>
26<h1>Slave Server</h1>
27<h1>Slave Server</h1>
28<h1>Slave Server</h1>
29<h1>Slave Server</h1>
30<h1>Slave Server</h1>
31<h1>Slave Server</h1>
32<h1>Slave Server</h1>
33<h1>Slave Server</h1>
34<h1>Slave Server</h1>
35<h1>Slave Server</h1>
36<h1>Slave Server</h1>
37curl: (55) getpeername() failed with errno 22: Invalid argument
38<h1>Master Server</h1>
39<h1>Master Server</h1>
40<h1>Master Server</h1>
41<h1>Master Server</h1>
42<h1>Master Server</h1>

评论

发布