AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

UCloud 首尔机房整体热迁移是这样炼成的

  • 2019-11-11
  • 本文字数:5218 字

    阅读完需:约 17 分钟

UCloud首尔机房整体热迁移是这样炼成的

2018 年下半年,UCloud 首尔数据中心因外部原因无法继续使用,需要在很短时间内将机房全部迁走。为了不影响用户现网业务,我们放弃了离线迁移方案,选择了非常有挑战的机房整体热迁移。经过 5 个月的多部门协作,终于完成了既定目标,在用户无感知下,将所有业务完整迁移到同样位于首尔的新机房内。


本文将详述这个大项目中最有难度的工作之一:公共组件与核心管理模块迁移的方案设计和实践历程。

计划

整个项目划分为四个大阶段(准备阶段、新机房建设、新旧迁移、旧机房裁撤下线)。正如一位同事的比喻,机房的热迁移,相当于把一辆高速行驶高铁上的用户迁移到另一辆高速行驶的高铁上,高铁是我们的机房,高铁上的用户是我们的业务。要让迁移可行需要两辆高铁相对静止,一个方法是把两辆高铁变成一辆,如此两者速度就一致了。UCloud 机房热迁移采用类似方案,把两个机房在逻辑上变成一个机房。为此,上层的业务逻辑要在新老机房间无缝迁移,下面的管理系统也要统一成一套。


其中,我们 SRE 和应用运维团队主要负责以下几个工作:1)机房核心 zookeeper 服务的扩缩容服务;2)核心数据库中间层 udatabase 服务的部署和扩容;3)大部分管理服务的部署和迁移;4)核心数据库的部署和迁移。以上涉及到前期规划、方案设计、项目实施、稳定性保证、变更校验等所有方面。

挑战

我们刚接到机房整体热迁移需求时,着实有些头疼,首尔机房属于较早期部署的机房之一,相关的技术架构比较老旧。而核心数据库、核心配置服务(zookeeper)、核心数据库中间层(udatabase)等几个服务都是比较重要的基础组件,老旧架构可能会因为基础层面的变动发生复杂的大范围异常,从而影响到存量用户的日常使用。


幸好 SRE 团队在过去一年里,针对各种服务的资源数据进行了全面的梳理,我们开发了一套集群资源管理系统(Mafia-RMS) ,该系统通过动态服务发现、静态注册等多种手段,对存量和增量的服务资源进行了整理,每一个机房有哪些服务、集群,某个集群有哪些服务器,每一个实例的端口、状态、配置等信息,都记录到了我们的资源管理系统中,如下图所示:



图 1: UCloud SRE 资源管理系统-集群管理功能


通过 SRE 资源管理系统,可以清楚地知道首尔机房存量内部服务的集群信息、每个实例的状态。我们基于 SRE 资源系统还构建了基于 Prometheus 的 SRE 监控体系,通过上图右侧 Monitor 按钮就可以跳转到监控页面,获取整个业务的实时运行状况。


有了这些资源数据之后,剩下的就是考虑怎么进行这些服务的扩容和迁移工作。

ZooKeeper 服务的扩缩容

首先是内部服务注册中心 zookeeper 的扩缩容。


UCloud 内部大规模使用 zookeeper 作为内部服务注册和服务发现中心,大部分服务的互访都是通过使用 zookeeper 获取服务注册地址,UCloud 内部使用较多的 wiwo 框架(C++) 和 uframework (Golang) 都是基于主动状态机定时将自己的 Endpoint 信息注册到 zookeeper 中,相同 Endpoint 前缀的服务属于同一个集群,因此对于某些服务的扩容,新节点使用相同的 Endpoint 前缀即可。wiwo 和 uframework 两个框架的客户端具备了解析 zookeeper 配置的能力,可以通过对 Endpoint 的解析获取到真实的 IP 和端口信息。然后通过客户端负载均衡的方式,将请求发送到真实的业务服务实例上去,从而完成服务间的相互调用。如下图所示:



图 2:UCloud 首尔机房部署调用及服务注册/发现路径图


首尔老机房的 zookeeper 集群是一个具有 3 个节点的普通集群(当时规模相对较小,3 个节点足够)。 然而首尔新机房的规模要大很多,因此新机房 zookeeper 的集群规模也要扩充,经过我们的评估,将新机房的 zookeeper 集群扩充到 5 个节点,基本上可以满足所需。


其实,一个理想的迁移架构应该是如图 3 所示,整个新机房使用和老机房相同的技术架构(架构和版本统一),新架构完全独立部署,与老机房并没有数据交互工作,而用户的业务服务(如 UHost/UDB/EIP/VPC 等)通过某种方式平滑的实现控制和管理面的迁移,以及物理位置的迁移工作。



图 3:理想状态下的老旧机房服务迁移示意图


但是理想状态在现实中无法达到,内部架构和代码逻辑的限制,导致业务实例无法平滑实现逻辑和控制层面的迁移,更何况物理层面的迁移。新部署的管理服务需要和老机房的管理服务进行通信,因此,我们调整了新机房服务的部署架构,并适配实际情况分别使用两种部署模式,如图 4 和图 5 所示:



图 4: 同集群扩容模式的跨机房服务部署



图 5: 新建集群灰度迁移模式的跨机房服务部署


无论是图 4 的同集群扩容模式,还是图 5 的新建集群灰度迁移模式,在 zookeeper 层面必须让新旧机房的 zookeeper 集群处于一体的状态,需要两个集群的数据一致、实时同步。因此在 zookeeper 的技术层面,必须将这两个集群变成一个集群,将原有的 3 节点的 zookeeper 集群,经过异地机房扩容的方式扩充到 8 个节点(1 个 leader,7 个 follower),只有这种模式下数据才能够保持一致性和实时性。


而对于新机房新部署的需要注册的服务来说,他们的配置文件中对于 zookeeper 地址的配置,却不是新建的 8 个 ip 的列表,而是只配置新机房 5 个 IP 的列表。这样新老机房的后端服务使用同一套 zookeeper,但是配置的却是不同的 IP,这样做的目的,是为了后续老机房下线裁撤时,所有新机房的服务不需要因为 zookeeper 集群的缩容而重启更新配置,只要将集群中老机房所在的 3 个节点下线,剩余 5 个节点的配置更新重新选主即可。


因此在 zookeeper 的机房扩容方案上,我们采用了先同集群扩容后拆分的模式。zookeeper 的扩容是整个机房扩建的第一步,后续所有的服务都会依托于该操作新建的 5 个节点的 zookeeper 配置;而 zookeeper 集群的缩容是最后的操作,待所有的服务都扩容完成,所有业务实例迁移完成之后,将 zookeeper 集群进行缩容重新选主,这样即可完成整个机房的裁撤。

数据库中间层 udatabase 的迁移

接下来是数据库中间层 udatabase 的迁移工作。


图 4 和图 5 两种模式对于 zookeeper 的处理方式是相同的,不同点在于后端对于内部管理和控制面服务的扩容迁移方式。udatabase 迁移使用图 4 模式,这种模式下相当于在原有的集群进行异地机房扩容,扩容的新实例使用和原有集群相同的 Endpoint 前缀,也就是说它们是属于同一个集群,当服务启动后,新扩容的实例的状态会与原有集群的实例相同,框架(wiwo 或 uframework)层会通过客户端方式从 zookeeper 中发现到该集群节点的变化(新增),同时使用某种负载均衡算法将请求流量路由到新的节点上。这样属于同一个集群,但却处于两个地址位置的实例都有部分流量,而进行缩容的方式就是直接将老机房同集群的服务下线即可,这样客户端就会将所有该集群的流量都转发到新机房扩容的节点上,从而完成平滑的服务扩容。udatabase 通过这样的方式完成了集群的迁移过程。

新建集群灰度迁移模式

其实图 4 模式对于大部分服务来说都是可行的,但为什么还出现了图 5 所示的新建集群灰度迁移模式呢?因为某些场景下图 4 会有一定的不可控性。假如新建的实例(如图 4 中 Service A Instance 2)存在软件稳定性和可靠性的问题,比如配置异常、软件版本异常、网络异常,可能导致路由到新节点的请求出现问题,会直接影响在线业务,影响的规模由扩容的节点占集群总节点的比例决定,像我们这种 1:1 的扩容方式,如果服务有问题可能 50%的请求就直接异常了。udatabase 使用图 4 方案,是因为其代码的稳定性比较高,功能和配置比较简单,主要依托于其高性能的转发能力。


而对于某些功能逻辑都比较复杂的业务来说(如 ULB/CNAT),就使用了更稳妥的图 5 模式,由于业务层面支持跨集群迁移,因此可以新建一个全新的无业务流量的集群,该集群在 zookeeper 中的 Endpoint 路径前缀和原有的集群不相同,使用一个全新的路径,然后在业务层面,通过迁移平台或工具,将后端服务或实例按需迁移,整个过程可控,出现问题立刻回滚,是最安全的迁移方案。我们通用的灰度迁移平台 SRE-Migrate 如图 6 所示。



图 6:UCloud 内部通用业务迁移系统 SRE-Migrate

机房部署平台 SRE-Asteroid

UCloud 产品线和产品名下服务数量繁多,无论是图 4 还是图 5 的方案,都需要大量的服务部署工作。SRE 团队在 2018 年中推进的机房部署优化项目,意在解决 UCloud 新机房建设(国内及海外数据中心、专有云、私有云等)交付时间长和人力成本巨大的问题,2018 年底该项目成功产品化落地,覆盖主机、网络等核心业务近百余服务的部署管理,解决了配置管理、部署规范、软件版本等一系列问题。首尔机房迁移也正是利用了这一成果,才能够在很短的时间内完成近百个新集群的部署或扩容工作,图 7 所示就是我们的新机房部署平台 SRE-Asteroid。



图 7:UCloud 内部机房部署平台 SRE-Asteroid

核心数据库的部署和迁移

最后,是核心数据库层面的部署和迁移工作如何进行。UCloud 内部服务所使用的数据库服务为 MySQL, 内部 MySQL 集群采用物理机/虚拟机在管理网络内自行建设,以一个主库、一个高可用从库、两个只读从库和一个备份库的方式部署,使用 MHA+VIP 的方式解决主库的高可用问题,使用 BGP/ECMP+VIP 的方式解决从库的负载均衡和高可用问题,大体的架构如图 8 所示:



图 8:UCloud 内部 MySQL 服务架构图


首尔新老机房使用的内部 MySQL 数据库集群的架构跟上图类似,为了进行新老机房的集群切换,我们设计了如下的方案,如图 9 所示:



图 9:首尔集群内部数据库集群迁移示意图


整体来说,为了保证核心数据库集群能够稳定完成迁移工作,我们抛弃了双主库、双写的切换方案,防止因为网络或其他因素导致新老集群的数据不一致、同步异常等问题。我们采用了最简单的解决方案,在业务低峰期停止 console 服务,直接修改数据库中间层配置切换的方案。


在部署阶段,我们在首尔新机房部署了相同高可用架构的 MySQL 集群,老机房的数据库逻辑备份导入,将新老机房的集群做成级联模式(图 9 中绿色虚线),新机房的主库作为老机房的从库,通过 MySQL 异步同步的方式(binlog)进行数据同步。我们使用 pt-table-checksum 工具,定期对两个集群的数据一致性进行校验,以保证新老机房的数据完全一致。与此同时使用内部开发的拓扑分析工具,将所有调用老集群数据库主从库的业务情况确认清楚(主要是哪些 udatabase 集群)。


部署完成后,数据一致性和实时性通过级联得到保障,udatabase 仍然访问老机房的 MySQL 主库的 VIP(图 9 蓝色虚线),此时并没有业务通过直连的方式写入新机房的主库(为保证数据的一致性,新机房的主库暂时设置成只读模式)。


在确定迁移时间和迁移方案之后,在某个业务低峰期的时间点,公告用户后,首尔机房整个 console 的操作停止一段时间(期间首尔机房的 API 请求可能会失败),在确定流量很低的前提下,通过修改数据库中间层(udatabase cluster)中数据库主从库 VIP 的配置,将业务从老机房 MySQL 集群切换到新机房 MySQL 集群,此时该业务所有的请求都会流入到新集群(图 9 红色虚线)。为了防止老集群仍然有业务写入或读取,我们将老集群主库设置为只读,然后继续通过 tcpdump 抓包分析老集群上可能存在的请求并手动处理,最终保证所有业务都使用新的 MySQL 集群。


由于需要对主机、网络、存储和监控等几个业务都进行集群切换,为保证不互相影响,使用逐个集群处理的方式,整体切换加检测的时间耗时近 1 个小时。


在整个机房切换的过程中,只有数据库集群是有状态的业务,因此重要性和危险性也比较高,该服务切换完成后,最重要的一个环节也宣告完成,剩下的业务层面(UHost/UDB/EIP 等)的迁移工作由各个业务团队自行完成即可。

收尾

最终所有业务实例完成迁移后,理论上就可以完成本次机房迁移工作了,不过还是要对老机房仍然运行的实例进行流量监测,确认没有流量后进行下线,停止服务。最后对老机房的 zookeeper 集群(老机房的 3 个 zookeeper 节点)进行请求监测和连接监测,确认没有本机房以及新机房发来的请求(排除 zookeeper 集群自主同步的情况),在完成确认后,进行最后的 zookeeper 集群变更,将整个集群(8 个节点)拆分成老机房(3 个节点)和新机房(5 个节点),老机房的集群直接停止服务,而新机房的新的 zookeeper 集群完成新的选主操作,确认同步正常和服务正常。

写在最后

经历了上文所述的一切操作后,整个首尔机房的迁移工作就完成了,整个项目历经 5 个月,其中大部分时间用于业务实例的迁移过程,主要是针对不同的用户要确定不同的迁移策略和迁移时间;内部管理服务的迁移和部署所花费的时间还是比较少的。UCloud 内部针对本次迁移的每一个步骤都制定了详细的方案规划,包括服务依赖分析、操作步骤、验证方式、切换风险、回滚方案等,为了完成如此巨大的新机房热迁移工作,团队投入了充足的人力和时间。首尔新机房具有更好的建设规划、硬件配置和软件架构,能够为用户提供更好的服务,我们相信这一切都是很有价值的。


本文转载自公众号 UCloud 技术(ID:ucloud_tech)。


原文链接:


https://mp.weixin.qq.com/s/XVi8F8pfZfxZpgwUr7RjjQ


2019-11-11 15:53750

评论

发布
暂无评论
发现更多内容

好用的研发管理看板工具有哪些?10款主流看板管理软件盘点

爱吃小舅的鱼

项目管理 产品经理 管理软件

实现订单到期未支付自动关闭不会写?这6种方案任你挑选

程序员拾山

Java 技术方案 关闭订单

ToB软件遇上ChatGPT,没有天翻地覆

ToB行业头条

led显示屏升级这些技术才能更节能

Dylan

广告 LED LED显示屏

Apifox 自动化测试新增流程控制条件,复杂测试场景不再是问题!

Apifox

测试 测试工具 程序员‘ 测试管理工具

StarRocks技术内幕 | 资源隔离原理解析

StarRocks

数据库 开源 资源隔离

flutter系列之:使用SliverList和SliverGird

程序那些事

flutter 架构 大前端 程序那些事

前端培训机构怎么选择

小谷哥

全栈角度看分页处理

京东科技开发者

数据库 前端 Web 开发 框架

业务流程将因生成式AI变革,ChatGPT引领的AIGC正在改变组织运营

王吉伟频道

人工智能 业务流程优化 AIGC ChatGPT 生成式AI

MASA Stack 1.0 发布会讲稿——生态篇

MASA技术团队

.net 开源 MASA MASA Stack

在中国程序员工作是青春饭吗?

小小怪下士

Java 程序员 面试

DAPP智能合约开发链上技术

薇電13242772558

智能合约

一图读懂 | 2023年中国产业数字化十大趋势

易观分析

数字经济 产业数字化

前端工程师leetcode算法面试必备-二分搜索算法(下)

js2030code

JavaScript LeetCode

聚焦能碳数智化 百度智能云度能亮相2022世界物联网大会

Geek_2d6073

直播预告 | 对谈谷歌云 DORA 布道师:聊聊最关键的四个 DevOps 表现指标

思码逸研发效能

DevOps

​网易游戏实时 HTAP 计费风控平台建设

PingCAP

TiDB

提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇(二))

京东科技开发者

人工智能 运维 AIOPS 时间序列 企业号 2 月 PK 榜

2023年中国数字化活动行业专题报告

易观分析

数字经济 产业数字化

低代码开发平台 让数据应用不再复杂

力软低代码开发平台

提速还能不掉点!深度解析 MegEngine 4 bits 量化开源实现

MegEngineBot

深度学习 开源 MegEngine CUDA int4

【从零开始学爬虫】采集全球海关进出口新闻数据

前嗅大数据

大数据 爬虫 海关

你知道2023年堡垒机报价是多少吗?谁能回答!

行云管家

网络安全 等保 堡垒机 等级保护

促进关键软件高层次人才培养:平凯星辰与华东师范大学签订联合博士培养合作协议

PingCAP

教育

线下java培训机构哪个比较好

小谷哥

无锡正规等级测评公司有几家?分别叫什么?

行云管家

等保 堡垒机 网路安全 等级保护 无锡

盘点导致sql执行速度慢的几种情况,都是生产环境踩过的坑

程序员拾山

MySQL

GaussDB(DWS)迁移:一种执行高效的TereData的marco迁移方案

华为云开发者联盟

数据库 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

新思科技点拨DevSecOps安全“左移”的9大要点

InfoQ_434670063458

DevSecOps 软件安全 安全左移

MQTT X 1.9.1发布:资源消耗降低80%,稳定性大幅提升

EMQ映云科技

物联网 IoT mqtt 版本发布 企业号 2 月 PK 榜

UCloud首尔机房整体热迁移是这样炼成的_服务革新_赵新宇_InfoQ精选文章