本文转载来源:京东云开发者社区公众号
通常,公有云厂商提供的云主机服务可用性不低于 99.95%,也就是一台云主机,每月的最大不可用时间是 21.92 分钟(365.25 * 24 * 60 * (1 - 0.9995) / 12)。对一些要求更高可用性的应用组件(比如 Web 前端、数据库服务等),通常会采用主备份方式搭建,并通过自动切换主备满足更高的可用性。
京东云提供的高可用组功能,把主服务器 (Master Server) 和备用服务器 (Slave Server) 分别部署在不同可用区的不同故障域(故障域是相互隔离的物理资源池),并利用通过 Keepalived 调用京东云命令行实现公网 IP 在两台云主机之间自动漂移,缩短故障恢复时间 (MTTR, Mean time to recovery),从而提升整个接入服务组件的可用性。
本文包括如下内容:
- 京东云命令行简介
- 如何利用高可用组实现云主机反亲和部署
- 利用 Keepalived 和京东云命令行实现弹性公网 IP 漂移
京东云命令行简介
京东云控制台提供浏览器操作界面,同时也提供 OpenAPI 和命令行。通过命令行,可快速批量创建京东云资源,并避免图形化界面的手工操作错误。
京东云命令行的详细介绍可参考
注意,安装京东云命令行的云主机需要能访问互联网。
下面是当前京东云命令行的版本信息和帮助信息:
1MacBook:~ user001$ jdc --help 2usage: jdc [-h] [--debug] [--quiet] [--output {json}] [-v] 3 {mps,cps,rds,jke,vpc,xdata,mongodb,configure,streambus,ipanti,baseanti,datastar,redis,nc,monitor,iam,disk,cr,streamcomputer,sop,clouddnsservice,vm,oss} 4 ... 5 6 京东云 CLI 使用方法简介: 7 8 1) 配置默认 Profile 9 jdc configure add --access-key your-ak --secret-key your-sk 10 说明:access-key 和 secret-key 可以从京东云控制台申请开通。默认为华北区域。 11 12 2) 配置自动完成,方便输入指令。输入两次 TAB 键可联想出子命令或参数。 13 ... 14MacBook:~ user001$ jdc --version 150.7.2
在使用命令行之前,需要通过 jdc configure 配置访问信息。下面是 jdc configure add 增加配置信息的命令:
1jdc configure add --access-key {ACCESS_KEY} --secret-key {SECRET_KEY} --region-id {REGION_ID} --endpoint {ENDPOIN} --scheme {SCHEME} --profile {PROFILE}
上述命令中每个参数的简要介绍如下:
-
ACCESS_KEY 和 SECRET_KEY:是从京东云控制台的账户管理, Access Key 管理界面获得。
-
REGION_ID:当前京东云提供华北 - 北京、华东 - 宿迁、华东 - 上海和华南 - 广州四个区域,每个区域对应的 Region ID 分布是 cn-north-1、cn-east-1、cn-east-2 和 cn-south-1。
-
ENDPOINT: 命令行操作的服务器 URL。在公网环境下使用命令行,endpoint 是 www.jdcloud-api.com,如果是在京东云服务器通过内网使用命令行时,endpoint 是 openapi.internal.{region_id}.jdcloud-api.com。其中 {region_id}替换为对应区域的 region_id 值。
-
SCHEME: 使用命令行时的传输协议,在公网环境使用命令行时 scheme 是“https",在内网环境时 shceme 是“http"。
-
PORFILE: 创建的配置名称,可为任意字符串,但配置名称不能相同。
下面是在公网环境下的命令行配置信息,通过该配置,可操作京东云华东 - 上海区域的云资源:
1MacBook:~ user001$ jdc configure show-current 2================= cn-east-2 ================ 3access_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 4secret_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 5region_id: cn-east-2 6endpoint: www.jdcloud-api.com 7scheme: https 8timeout: 20
以下是在京东云华东 - 上海区域云主机上命令行配置,可通过内网操作京东云华东 - 上海区域的云资源:
1[root@jdcoe-srv016 ~]# jdc configure show-current 2================= cn-east-2 ================ 3access_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 4secret_key: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 5region_id: cn-east-2 6endpoint: openapi.internal.cn-east-2.jdcloud-api.com 7scheme: http 8timeout: 20
如何利用高可用组实现云主机反亲和部署
京东云云主机通过完善的网络模型实现资源的高效管理和合理分布。下图描述了京东云云主机和网络相关对象的相互关系。
反亲和性是确保一组云主机运行在不同的物理机、不同的机架、不同的机房区域、不同的机房而所定义的主机创建规则。这样,当该云主机组中的一台云主机因为物理原因不可用时,该组的其他云主机还能正常提供服务。
首先京东云的子网可以跨多个可用区,这样一个应用可以根据软件架构层次分为不同的子网,而每个子网的云主机可以跨不同的可用区。此外,通过高可用组特性,可让属于该组的云主机分散到不同可用区的不同故障域(数据中心内相互隔离的物理资源池,可以理解为数据中心内机架组)下,进一步提高了云主机组的整体可用性。下图是基于高可用组 jdcoe-nginx-ha 创建的 4 台云主机。这 4 台云主机都属于子网 10.0.1.x,但运行在可用区 A 和可用区 B,而运行在同一可用区的 2 台云主机,也分别属于不同的故障域 1 和故障域 2。当前京东云每个可用区包含 5 个故障域。
利用 Keepalived 和京东云命令行实现弹性公网 IP 漂移
部署在公有云上的应用向外提供服务时,通常是通过公有云厂商提供的负载均衡器,并绑定一个公网 IP。负载均衡器具有配置简单,弹性伸缩和完善的监控功能,但有时流量分发规则不够灵活,需要在云主机上自建基于 Nginx 或者 HAProxy 的负载均衡服务,此时如何提高自建负载均衡服务的可用性就成为新的问题。本节将介绍如何利用 Keepalived 和京东云命令行实现弹性公网 IP 在主服务器和备服务器之间的自动漂移,提高自建负载均衡服务的可用性。
本节用到两台云主机,并安装 Nginx 作为负载均衡器,通过修改 Nginx 的 /usr/share/nginx/html/index.html 文件内容区分主服务器和备服务器。具体配置信息如下:
此外,申请一个公网 IP,IP 地址为 114.67.95.123,通过京东云控制台可获得该公网 IP 的内部 ID 是 fip-b6f37survq(该 ID 将在后续 master.sh 脚本中使用)。正常情况下该 IP 是绑定在主服务器云主机上,并通过公网 IP 向外提供服务。
1MacBook:~ user001$ curl http://114.67.95.123 2<h1>Master Server</h1>
配置云主机京东云命令行
首先在云主机 10.0.1.18 和 10.0.1.19 上安装京东云命令行,并完成命令行配置。其中 ACCESS_KEY 和 SECRET_KEY 替换成相应的值。
1jdc configure add --access-key {ACCESS_KEY} --secret-key {SECRET_KEY} --region-id cn-east-2 --endpoint openapi.internal.cn-east-2.jdcloud-api.com --scheme http --profile cn-east-2
在京东云命令行配置成功后,可在云主机上执行如下命令,能查看云主机信息。
1[root@jdcoe-nginx-master ~]# jdc vm describe-instance --instance-id i-bszab8pxg0 2{ 3 "error": null, 4 "result": { 5 ... 6 } 7 }
安装 keepalived 服务
在主、备负载均衡云主机上安装和配置 keepalived 服务,命令如下:
1#安装 keepalived 软件包 2yum install keepalived -y 3#配置 keepalived 服务为自动启动 4chkconfig keepalived on 5#启动 keepalived 服务 6service keepalived start 7#查看服务状态 8service keepalived status 9#查看 keepalvied 版本信息 10yum info keepalived 11... 12Installed Packages 13Name : keepalived 14Arch : x86_64 15Version : 1.3.5
配置 keepalived 服务,实现公网 IP 自动漂移
配置主服务器 Keepalimatchvedmatch
Keepalived 服务的配置文件是 /etc/keepalived/keepalived.conf。主服务器 10.0.1.18 的配置文件内容如下:
1vrrp_script chk_nginx 2{ 3#检查 nginx 服务是否存在 4 script “pidof nginx” 5 interval 2 6} 7 8vrrp_instance VI_1 9{ 10 debug 2 11 interface eth0 # interface to monitor 12 13 state MASTER 14 virtual_router_id 1 # Assign one ID for this route 15 priority 101 # 101 on master, 100 on backup 16 unicast_src_ip 10.0.1.18 # My IP 17 unicast_peer 18 { 19 10.0.1.19 # peer IP 20 } 21 22 track_script 23 { 24 chk_nginx 25 } 26 notify_master /etc/keepalived/master.sh 27}
同时,在主服务器下创建 /etc/keepalived/master.sh,该文件的内容为如下:
1[root@jdcoe-nginx-master ~]# ls -al /etc/keepalived/master.sh 2-rwxr-xr-x 1 root root 305 Dec 3 23:27 /etc/keepalived/master.sh 3[root@jdcoe-nginx-master ~]# cat /etc/keepalived/master.sh 4#!/bin/bash 5 6EIP_ID=fip-b6f37survq # Elastic IP to be associated 7MASTER_INSTANCE_ID=i-bszab8pxg0 8SLAVE_INSTANCE_ID=i-pi9w6jp716 9 10jdc vm disassociate-elastic-ip --instance-id $SLAVE_INSTANCE_ID --elastic-ip-id $EIP_ID 11 12jdc vm associate-elastic-ip --instance-id $MASTER_INSTANCE_ID --elastic-ip-id $EIP_ID
运行 master.sh,能看到如下信息。因为当前公网 IP 已经和主服务器绑定,所以解绑备云主机和再绑定主云主机失败,输出结果证明该脚本没有错误。
1[root@jdcoe-nginx-master ~]# /etc/keepalived/master.sh 2{ 3 "error": { 4 "status": "FAILED_PRECONDITION", 5 "message": "Elastic ip isn't associated to this instance's primary network interface", 6 "code": 400 7 }, 8 "result": null, 9 "request_id": "bg2kogiib9wh962u5d7uhp2e4w3s101g" 10} 11{ 12 "error": { 13 "status": "FAILED_PRECONDITION", 14 "message": "ElasticIp 114.67.95.123 already in use", 15 "code": 400 16 }, 17 "result": null, 18 "request_id": "bg2kogwrpct3kjqp7id40m4sq2a2bhn0" 19}
配置备服务器 keepalived
备服务器 10.0.1.19 的配置文件内容如下:
1vrrp_script chk_nginx 2{ 3#检查 nginx 服务是否存在 4 script “pidof nginx” 5 interval 2 6} 7 8vrrp_instance VI_1 9{ 10 debug 2 11 interface eth0 # interface to monitor 12 13 state BACKUP 14 virtual_router_id 1 # Assign one ID for this route 15 priority 100 # 101 on master, 100 on backup 16 unicast_src_ip 10.0.1.19 # My IP 17 unicast_peer 18 { 19 10.0.1.18 # peer IP 20 } 21 22 track_script 23 { 24 chk_nginx 25 } 26 notify_master /etc/keepalived/master.sh 27}
同时,在备服务器下创建 /etc/keepalived/master.sh,该文件的内容为如下:
1[root@jdcoe-nginx-slave ~]# ls -al /etc/keepalived/master.sh 2-rwxr-xr-x 1 root root 306 Dec 3 23:37 /etc/keepalived/master.sh 3[root@jdcoe-nginx-slave ~]# cat /etc/keepalived/master.sh 4#!/bin/bash 5 6EIP_ID=fip-b6f37survq # Elastic IP to be associated 7 8MASTER_INSTANCE_ID=i-bszab8pxg0 9SLAVE_INSTANCE_ID=i-pi9w6jp716 10 11jdc vm disassociate-elastic-ip --instance-id $MASTER_INSTANCE_ID --elastic-ip-id $EIP_ID 12 13jdc vm associate-elastic-ip --instance-id $SLAVE_INSTANCE_ID --elastic-ip-id $EIP_ID
运行 master.sh,能看到如下信息。表示首先成功解绑公网 IP 和主服务器,再成功绑定公网 IP 和备服务器。
1[root@jdcoe-nginx-slave ~]# /etc/keepalived/master.sh 2{ 3 "error": null, 4 "result": null, 5 "request_id": "bg2kuinedrw632wkop847ffpatk643t1" 6} 7{ 8 "error": null, 9 "result": null, 10 "request_id": "bg2kuivfc95aiaitu32e6c2s8tftbawt" 11}
测试公网 IP 在主备服务器之间自动漂移
在修改完主、备服务器的 keepalived 配置后,需要重新启动 keepalived 服务。当前主负载均衡提供服务:
1MacBook:~ user001$ curl 114.67.95.123 2<h1>Master Server</h1>
运行如下命令停止主服务器:
1MacBook:~ user001$ jdc vm stop-instance --instance-id i-bszab8pxg0 2{ 3 "error": null, 4 "result": null, 5 "request_id": "bg2m30sdcctb5pobicmegnap9ebw3nn9" 6}
重新执行如下命令,发现已切换为备服务器提供服务:
1MacBook:~ user001$ curl 114.67.95.123 2<h1>Slave Server</h1>
重新启动主服务器,过几秒后检查,将发现主服务器重新提供服务,表示公网 IP 已重新从备服务器自动绑定到主服务器:
1MacBook:~ user001$ jdc vm start-instance --instance-id i-bszab8pxg0 2{ 3 "error": null, 4 "result": null, 5 "request_id": "bg2m3vf2qt48hunj61i3k3pkhqmi34d7" 6} 7MacBook:~ user001$ curl 114.67.95.123 8... 9MacBook:~ user001$ curl 114.67.95.123 10<h1>Slave Server</h1> 11MacBook:~ user001$ curl 114.67.95.123 12<h1>Master Server</h1>
也可以执行如下命令 " while true; do curl http ://114.67.95.123; sleep 2; done" 命令检查公网 IP 自动漂移功能。在命令执行过程中先后停止和启动主服务器,可看到公网 IP 将自动漂移,在漂移期间会报一两次网络连接错误,但也大大缩短了故障修复时间。
1MacBook:~ user001$ while true; do curl http://114.67.95.123; sleep 2; done 2<h1>Master Server</h1> 3<h1>Master Server</h1> 4<h1>Master Server</h1> 5<h1>Master Server</h1> 6<h1>Master Server</h1> 7<h1>Master Server</h1> 8<h1>Master Server</h1> 9<h1>Master Server</h1> 10<h1>Master Server</h1> 11<h1>Master Server</h1> 12<h1>Master Server</h1> 13<h1>Master Server</h1> 14<h1>Master Server</h1> 15<h1>Master Server</h1> 16<h1>Master Server</h1> 17curl: (56) Recv failure: Connection reset by peer 18curl: (7) Failed to connect to 114.67.95.123 port 80: Connection refused 19<h1>Slave Server</h1> 20<h1>Slave Server</h1> 21<h1>Slave Server</h1> 22<h1>Slave Server</h1> 23<h1>Slave Server</h1> 24<h1>Slave Server</h1> 25<h1>Slave Server</h1> 26<h1>Slave Server</h1> 27<h1>Slave Server</h1> 28<h1>Slave Server</h1> 29<h1>Slave Server</h1> 30<h1>Slave Server</h1> 31<h1>Slave Server</h1> 32<h1>Slave Server</h1> 33<h1>Slave Server</h1> 34<h1>Slave Server</h1> 35<h1>Slave Server</h1> 36<h1>Slave Server</h1> 37curl: (55) getpeername() failed with errno 22: Invalid argument 38<h1>Master Server</h1> 39<h1>Master Server</h1> 40<h1>Master Server</h1> 41<h1>Master Server</h1> 42<h1>Master Server</h1>
评论