写点什么

我们为什么要在上云前先做主备机房切换这件事?

  • 2020-04-15
  • 本文字数:1922 字

    阅读完需:约 6 分钟

我们为什么要在上云前先做主备机房切换这件事?

开书之前,需要先把「为什么要在上云前先做主备机房切换这件事?」的始末原由说明白。


简单来说,主备机房切换只是我们 “上云五步骤” 中的初始化环节,最终实现将我们的应用逐步逐步的搬上云:



看到这样的步骤,许多老师会萌生吐槽的极大冲动,您先别急,容我来对 “上云五步骤” 做些解释:


1、出于成本的考虑,除 UCloud 之外(包括阿里与腾讯),没有一家供应商允许将 ‘IOE’ 搬入他们的机房,所以最终选择在 ‘UCloud 万国模块’ 内搭建我们的新机房,然后通过内网与 UCloud 进行互联。

2、出于成本的考虑,专线扩容的申请被 CEO 驳回,最终无法实现伪双活的方案(要求拿出应用视角的流量数据提供参考,由于缺乏完美的监控体系,无法做到)。

3、出于成本的考虑,也同时考虑到将来迁移至云机房后的折旧因素,新机房的硬件投入只有老机房的 50%。


除了以上三点之外,还有一些细节,因为不是重点就不一一举例了,说多了都是泪。

那些客观条件下的迁移方案

方案一:整体冷切

策略:利用周末交易停止,访问量下降的环境优势,进行整体环境切换。


方式:核心业务数据库 1:0.5 建立环境,核心业务应用 1:0.3 建立环境、非核心业务数据库直接搬迁,非核心业务应用直接搬迁


优势:


  • 只须考虑搬迁设备的安全及留足设备上下架时间

  • 只须考虑域名及 CDN 切换时间


缺点:


  • 整机搬迁存在设备搬迁后故障,无法启动的问题,设备搬迁的数量较多,此情况易出现,搬迁前须做好数据库导出独立存储的准备;

  • 设备一次性迁移数量较多,搬迁过程中上下架时间较长,加上外高桥机房对设备有严格的出入管理,报关、检查时间较长;

  • 当发现备节点无法承接业务时,回退时间较长;

  • 停机时间较长;

方案二:降级冷切

  • 策略:利用周末交易停止,访问量下降的环境优势,进行主机房降级,备机房升级的切换。

  • 方式:将主节点所有业务应用+数据库数量由 1:0.5,将下架设备集中运往备份节点,进行环境调试,完成备份机房由 0.5 升级为 1 的过程。


优势:


  • 停机时间短,预计总停机时间在数小时内(第二次切换须进行大面积程序验证,预计耗时 N 小时以上)

  • 数据风险较小,核心及非核心业务数据部分在切换前都采用热备方式进行双向同步

  • 提供回退保障,在备份节点业务出现无法启动情况下,可以快速将服务切换回原主节点

  • 在切换前可以通过提前验证的方式提高切换质量

  • 部分关键设备(如数据库),由单机转换成大容量虚拟机,可有效保障切换顺利

  • 切换时间可控性强,包括联合测试、运营进行线上检测也可灵活安排

  • 缺点:

  • 整须提前搭建环境,须前期占用一部分人力资源搭建第二套全环境

方案三:伪双活逐步切换

  • 策略:两端通过负载均衡设备进行访问均衡,逐步将业务从主节点切换至备份节点。

  • 方式:利用机房内负载均衡设备将部分主机房流量引入备份机房,然后备份机房配置数据库实现写回源、读本地,逐步将访问全部切换至备份机房,然后直接将访问切换至备份机房。

  • 优势:

  • 访问停机少,前期分流存在多次闪断,后期有一次 N 分钟的 DNS 切换

  • 缺点:

  • 业务访问环境构建复杂,除两节点搭建前端应用外,还须快速配置后端访问节点,易出现人为操作故障(在数据库配置错误的情况下也易出现脏数据,届时对清算、交易可能产生较大的数据恢复难度)

  • 前端应用在未实现统一配置管理的情况下,靠人工配置危险系数极高

  • 双向伪双活对主备间带宽要求较高,目前 X 兆带宽只能保证业务数据库的同步

  • 产生的成本最高,线路费用、人工费用、多次搬迁存在的风险



其实,最终我们执行的是方案一和方案二的结合:


切换当天:整体冷切,将老机房的所有硬件数量由 1 容量,迁移至新机房的 0.5 容量,并通过降级、限流等手段,顺利的挺过了首个交易日。


切换后的三天内:将老机房的硬件逐步下架运往新机房,并完成备份机房由 0.5 升级为 1 的过程。

最后说两句

对于一家金融企业来说,IT 投入后的当即收益才是最重要的。


近几年以来,为了满足公司在效率、质量上不断攀升的需求,我们陆续推出了持续集成/中间件/自动化运维等多项自主研发平台,不仅利用 ‘适配器思维’ 帮助应用系统降低接入成本,而且确实帮助某些系统在松耦合、自动化上带来了颠覆性的变化。然而对于机房切换这种既无法量化收益,又开销不小的项目,期望在项目初期就获得较多投入是不太可能的,所以在方案制定的初期就要在成本上多加考虑。


去年在圈内流行过这么一句话,CTO 就是为了 CEO 曾经吹过的牛 B,含着泪也要去实现的人,至少不害死 CEO。


其实在我看来,对于大部分企业(尤其是金融企业)的 CTO,由于技术团队性质属于成本中心,所以与 CEO 之间多半都是成本与价格间的博弈。


在给你有限的资源与成本中,拿出可靠、可行的方案,并在不妨碍业务原则的前提下达到预期,才是我们该去做的。


本文转载自头哥侃码公众号。


原文链接:https://mp.weixin.qq.com/s/ZwP3R7u8yJ5QdGoRMfDPSw


2020-04-15 16:441281

评论

发布
暂无评论
发现更多内容

VMware Workstation 17安装教程之创建普通用户

小齐写代码

ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制

汀丶人工智能

中文分词 elasticsearch 检索引擎 打分机制 向量索引

Elasticsearch实战:常见错误及详细解决方案

汀丶人工智能

Elastic Search

SaaS 出海,如何搭建国际化服务体系?(三)

LigaAI

SaaS 远程会议 高效协作 出海企业 SaaS 增长

【行云流水线实践】基于“OneBuild”方法对镜像进行快速装箱 | 京东云技术团队

京东科技开发者

云原生 CI/CD Docker 镜像 企业号11月PK榜

【PyTorch 卷积】实战自定义的图片归类

北桥苏

卷积神经网络 CNN PyTorch

能使用公司产品进行软件开发吗?

矩视智能

深度学习 工控机

「智造」第4期:用友精智工业互联网助力区域经济转型升级

用友BIP

智能制造

Parallels Desktop 19虚拟机怎么安装Win系统?Arm Windows 11下载方法

Rose

windows 11 pd虚拟机 Mac虚拟机 Parallels Desktop 19

为什么那么多简历,AI偏偏推荐了TA?

用友BIP

智能招聘

得物自研客服IM中收发聊天消息背后的技术逻辑和思考实现

JackJiang

网络编程 即时通讯 IM

飞桨国际化应用案例:挪威广告企业Adevinta应用PaddleOCR提质增效

飞桨PaddlePaddle

广告 OCR 飞桨 飞桨PaddlePaddle

无需数据搬迁,10倍性能提升!携程的统一分析之旅

StarRocks

数据库 StarRocks

照片编辑软件ON1 Photo RAW 2024「Mac」

展初云

Mac Mac软件 照片编辑

想升级企业绩效管理吗?送你一个数智化神器!

用友BIP

绩效管理

Tower for Mac(Git客户端)

展初云

git 版本控制 Mac软件

Generative AI 新世界 | 文生图(Text-to-Image)领域论文解读

亚马逊云科技 (Amazon Web Services)

机器学习 生成式人工智能 大语言模型

设计模式-单例模式概述 | 京东云技术团队

京东科技开发者

设计模式 单例模式 结构型模式 创建型模型 企业号11月PK榜

Mac电脑文件对比合并工具 Araxis Merge pro 激活最新版

胖墩儿不胖y

文件对比 Mac软件 文件对比工具 对比工具

CorelDRAW 2023 for Mac(矢量图形设计工具)

展初云

Mac CorelDraw 矢量设计

同城售后系统退款业务重构心得 | 京东云技术团队

京东科技开发者

架构 架构设计 企业号11月PK榜 系统重构

Topaz Video AI 使用教程:去隔行和升级嘈杂的镜头

Rose

mac软件下载 Topaz Video AI破解版 视频增强软件 Topaz Video AI 教程

Vert.x 教程 (二):如何打包一个 Vert.x 应用

Kevin_913

教程 Vert.x Java’

软件测试/测试开发丨ChatGPT能否成为PPT最佳伴侣

测试人

软件测试

等你加入!文心开发者说分享者招募全面开启

飞桨PaddlePaddle

开发者 文心 文心开发者说

我们为什么要在上云前先做主备机房切换这件事?_语言 & 开发_头哥侃码_InfoQ精选文章