阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

我们为什么要在上云前先做主备机房切换这件事?

  • 2020-04-15
  • 本文字数:1922 字

    阅读完需:约 6 分钟

我们为什么要在上云前先做主备机房切换这件事?

开书之前,需要先把「为什么要在上云前先做主备机房切换这件事?」的始末原由说明白。


简单来说,主备机房切换只是我们 “上云五步骤” 中的初始化环节,最终实现将我们的应用逐步逐步的搬上云:



看到这样的步骤,许多老师会萌生吐槽的极大冲动,您先别急,容我来对 “上云五步骤” 做些解释:


1、出于成本的考虑,除 UCloud 之外(包括阿里与腾讯),没有一家供应商允许将 ‘IOE’ 搬入他们的机房,所以最终选择在 ‘UCloud 万国模块’ 内搭建我们的新机房,然后通过内网与 UCloud 进行互联。

2、出于成本的考虑,专线扩容的申请被 CEO 驳回,最终无法实现伪双活的方案(要求拿出应用视角的流量数据提供参考,由于缺乏完美的监控体系,无法做到)。

3、出于成本的考虑,也同时考虑到将来迁移至云机房后的折旧因素,新机房的硬件投入只有老机房的 50%。


除了以上三点之外,还有一些细节,因为不是重点就不一一举例了,说多了都是泪。

那些客观条件下的迁移方案

方案一:整体冷切

策略:利用周末交易停止,访问量下降的环境优势,进行整体环境切换。


方式:核心业务数据库 1:0.5 建立环境,核心业务应用 1:0.3 建立环境、非核心业务数据库直接搬迁,非核心业务应用直接搬迁


优势:


  • 只须考虑搬迁设备的安全及留足设备上下架时间

  • 只须考虑域名及 CDN 切换时间


缺点:


  • 整机搬迁存在设备搬迁后故障,无法启动的问题,设备搬迁的数量较多,此情况易出现,搬迁前须做好数据库导出独立存储的准备;

  • 设备一次性迁移数量较多,搬迁过程中上下架时间较长,加上外高桥机房对设备有严格的出入管理,报关、检查时间较长;

  • 当发现备节点无法承接业务时,回退时间较长;

  • 停机时间较长;

方案二:降级冷切

  • 策略:利用周末交易停止,访问量下降的环境优势,进行主机房降级,备机房升级的切换。

  • 方式:将主节点所有业务应用+数据库数量由 1:0.5,将下架设备集中运往备份节点,进行环境调试,完成备份机房由 0.5 升级为 1 的过程。


优势:


  • 停机时间短,预计总停机时间在数小时内(第二次切换须进行大面积程序验证,预计耗时 N 小时以上)

  • 数据风险较小,核心及非核心业务数据部分在切换前都采用热备方式进行双向同步

  • 提供回退保障,在备份节点业务出现无法启动情况下,可以快速将服务切换回原主节点

  • 在切换前可以通过提前验证的方式提高切换质量

  • 部分关键设备(如数据库),由单机转换成大容量虚拟机,可有效保障切换顺利

  • 切换时间可控性强,包括联合测试、运营进行线上检测也可灵活安排

  • 缺点:

  • 整须提前搭建环境,须前期占用一部分人力资源搭建第二套全环境

方案三:伪双活逐步切换

  • 策略:两端通过负载均衡设备进行访问均衡,逐步将业务从主节点切换至备份节点。

  • 方式:利用机房内负载均衡设备将部分主机房流量引入备份机房,然后备份机房配置数据库实现写回源、读本地,逐步将访问全部切换至备份机房,然后直接将访问切换至备份机房。

  • 优势:

  • 访问停机少,前期分流存在多次闪断,后期有一次 N 分钟的 DNS 切换

  • 缺点:

  • 业务访问环境构建复杂,除两节点搭建前端应用外,还须快速配置后端访问节点,易出现人为操作故障(在数据库配置错误的情况下也易出现脏数据,届时对清算、交易可能产生较大的数据恢复难度)

  • 前端应用在未实现统一配置管理的情况下,靠人工配置危险系数极高

  • 双向伪双活对主备间带宽要求较高,目前 X 兆带宽只能保证业务数据库的同步

  • 产生的成本最高,线路费用、人工费用、多次搬迁存在的风险



其实,最终我们执行的是方案一和方案二的结合:


切换当天:整体冷切,将老机房的所有硬件数量由 1 容量,迁移至新机房的 0.5 容量,并通过降级、限流等手段,顺利的挺过了首个交易日。


切换后的三天内:将老机房的硬件逐步下架运往新机房,并完成备份机房由 0.5 升级为 1 的过程。

最后说两句

对于一家金融企业来说,IT 投入后的当即收益才是最重要的。


近几年以来,为了满足公司在效率、质量上不断攀升的需求,我们陆续推出了持续集成/中间件/自动化运维等多项自主研发平台,不仅利用 ‘适配器思维’ 帮助应用系统降低接入成本,而且确实帮助某些系统在松耦合、自动化上带来了颠覆性的变化。然而对于机房切换这种既无法量化收益,又开销不小的项目,期望在项目初期就获得较多投入是不太可能的,所以在方案制定的初期就要在成本上多加考虑。


去年在圈内流行过这么一句话,CTO 就是为了 CEO 曾经吹过的牛 B,含着泪也要去实现的人,至少不害死 CEO。


其实在我看来,对于大部分企业(尤其是金融企业)的 CTO,由于技术团队性质属于成本中心,所以与 CEO 之间多半都是成本与价格间的博弈。


在给你有限的资源与成本中,拿出可靠、可行的方案,并在不妨碍业务原则的前提下达到预期,才是我们该去做的。


本文转载自头哥侃码公众号。


原文链接:https://mp.weixin.qq.com/s/ZwP3R7u8yJ5QdGoRMfDPSw


2020-04-15 16:44703

评论

发布
暂无评论
发现更多内容

选择MobPush的三大理由

MobTech袤博科技

智能推送

语音识别技术的进步与挑战

来自四九城儿

虹口有数丨上海市虹口区“一网统管”新解法

浪潮云

云计算

有一个新工具,能让程序员变成高手,优雅撸它!

树上有只程序猿

低代码 应用开发 JNPF

文心一言 VS 讯飞星火 VS chatgpt (98)-- 算法导论9.3 4题

福大大架构师每日一题

福大大架构师每日一题

语音识别技术:现状、前景与挑战

来自四九城儿

私有云架构设计原理

青椒云云电脑

云厂商

中国私有云未来演进方向

青椒云云电脑

私有云

元服务助力肉牛产业供应链创新发展,解决“最后一公里”难题

最新动态

10分钟设置免费海外远程桌面

亚马逊云科技 (Amazon Web Services)

Waves 14 Complete for Mac(后期混音效果全套插件)v2023.08.09激活版

mac

苹果mac Windows软件 Waves 14 Complete 后期混音效果全套插件

私有云有哪些特点,与公有云有什么关系

青椒云云电脑

私有云

2023年前端流行什么技术和框架了?

互联网工科生

vue.js 前端框架 vue3.0

Serverless 数仓技术与挑战(内含 PPT 下载)

Databend

鸿蒙生态助力,嵩山少林首个数字剧本游元服务打造沉浸式体验

最新动态

基于云服务器 EC2 的云上堡垒机的设计和自动化实现

亚马逊云科技 (Amazon Web Services)

自动化 Amazon EC2

传统私有云系统存在哪些问题

青椒云云电脑

私有云 云厂商

iOS应用程序数据保护:如何保护iOS应用程序中的图片、资源和敏感数据

英特尔为先进科技注入AI动力,帮助客户赢在AI时代

E科讯

卡奥斯第二届1024程序员节正式启动!

Openlab_cosmoplat

1024 1024程序员节 程序员节

数据库OpenTenBase和操作系统OpenCloudOS获信通院Oscar开源尖峰奖

Geek_2d6073

推送翻车名场面——Mobpush的推送修改/撤回帮你避免翻车

MobTech袤博科技

语音识别技术:进展、挑战和未来

来自四九城儿

再也不担心没有测试币了,PandaBridge跨链桥随时兑换无压力

加密先生

跨链桥

学生PC怎么选?云电脑 不买高价硬件也能畅享高配

青椒云云电脑

云电脑

APP开发者的得力助手:Mobpush六大功能助力实现精准推动服务

MobTech袤博科技

智能推送

低代码助力企业数字化转型

高端章鱼哥

低代码 数字化转型

开源协同创新,加速云计算应用

华为云开源

开源 云原生 前端 华为云 低代码前端

DaaS到底是什么 为什么越来越多人在用云桌面办公

青椒云云电脑

云桌面

智能时代的“发动机升级”:数据中心十年之变

脑极体

数据中心

技术分享| anyRTC音视频混流技术解析

anyRTC开发者

音视频 视频会议 音视频混流 图像合成 音频合成

我们为什么要在上云前先做主备机房切换这件事?_语言 & 开发_头哥侃码_InfoQ精选文章