阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

做容灾,冷备是不是个好方案?

  • 2020-03-17
  • 本文字数:1489 字

    阅读完需:约 5 分钟

做容灾,冷备是不是个好方案?

主备、冷备、热备、双活、多活、同城、异地、多云,等等等等,这些保证业务高可用和容灾名词,我们经常会听到,不绝于耳。


但是,真的当我们自己要去建设,选择方案时,就发现不知道该怎么选择和搭配了。


结合近期我们的一些讨论,准备用几篇文章简单分享下我们的理解,今天先聊冷备。

冷备是不是个好方案?

这里的冷备我们可以理解为,是主站系统核心链路的镜像站点,应用、各类分布式服务以及底层基础设施都是独立,且启动的。


它跟主站唯一的差别就是,正常情况下,不承载任何线上流量。


理论上,只要有状态的数据(也就是各类分布式服务,如数据库、缓存、消息等组件)同步好,接入层流量能够灵活调度,当出现问题的时候,切入口流量,就可以顺畅的切过去。


看上去很美好,但是实际操作起来,基本不可行。


这里有一个关键点,就是业务应用,应用的代码和配置是随时在变化的。


原则上,我们可以通过持续交付和运维自动化等等手段,确保每次变更都能够同步到备站点,并通过流程约束不允许有外部操作。


所以,手段上,我们可以做到非常完备,流程上,我们可以设计的非常严密。


但是,我们始终绕不开的一个命题,只要不承载真实的线上业务流量,我们就无法证明这个系统是可用的。


何况,有可能是好几个月我们都不会发生真实的切换动作,所以,一个几个月没有经过线上流量检验的系统,在真正需要切换时,不会有任何人敢决策直接切换的。


当然,以上是我们的直接推断,确实行不通。但是我们仍然要经过一些详细的论证,从其它角度看是否有解。

从另外一个角度的论证过程

当时我们讨论在冷备的前提下,应该怎么保证系统的可用性,没想到,论证的过程,反而进一步证实了冷备只是一个美好的愿望。

1、通过模拟压测的方式。

但是我们知道,压测的模型是根据线上业务模型来定制的,但是业务场景和逻辑每天都在发生变化,压测模型的同步有时是跟不上业务模型变化的。


况且这个日常工作量要靠人,无法做到自动生成,所以基本不可持续。


再就是,压测的结果检验是通过技术指标衡量,而非业务指标,也就是是否 200ok,或者出现 5xx 之类的错误。


业务逻辑上是否正确,并没有办法确保。这种情况就极易造成数据污染。数据故障的影响范围远远超过服务不可用的影响。


所以,压测可以最大程度评估系统容量,但是无法保证系统业务正确性。

2、切换后,接入线上流量前,QA 介入验证。

理由同上,工作量大,也无法覆盖到所有场景,时间不可控,完全起不到冷备节点的快速承载业务效果。

3、定期模拟演练,确保系统周期范围内可用

但是这里就有一个前提,冷备站点的建设目标,并不是全量建设,而是在极端状况下,确保核心业务临时可用,当主站点恢复后,仍然要切回去。


这里暗含的一个意思就是,一旦需要做这个动作,业务必然有损,而且涉及范围非常大,这就意味着,每一次演练都要付出极大的业务代价。


从这个角度,产品运营及决策者们是不会允许你经常干这种事情的。


到这里,你会发现,连日常演练的条件都不具备了。

4、一个绕不开的限制条件

数据同步必然是单向的,为了保证数据一致,通常要确保备用站点是禁写的,以防止各类误操作引起的数据污染。


所以,即使上面几个方案可行,基础条件上又不满足,因为根本无法写入数据,关键的业务逻辑根本不具备验证条件。

结论

冷备只能是冷备,关键时刻并不能起到快速承载业务的效果,在业务容灾建设时,这个思路其实是不可行的。


但是对于部分组件,比如数据库、大数据、文件,这些存储类的部件,做冷备是有重大意义的。


也就是,后面我们在提到冷备时,应该叫做数据冷备、文件冷备、源代码冷备才有意义,或许会更准确些。


本文转载自成哥的世界公众号。


原文链接:https://mp.weixin.qq.com/s/aORRbfURAE4LUP97CY4bjA


2020-03-17 22:071027

评论

发布
暂无评论
发现更多内容

新规施行推动数据资产化迈出关键一步

用友BIP

数据资产

基于大模型训练的编程助手

百度开发者中心

人工智能 大模型 智能代码助手

Feeder 4 for Mac(RSS编辑阅读软件)v4.5.5免激活版

影影绰绰一往直前

视频直播技术干货(十一):超低延时视频直播技术的演进之路

JackJiang

网络编程 即时通讯 IM

音视频小程序在教育行业,短期爆发or未来趋势?

FinFish

在线教育 小程序容器 小程序技术 音视频小程序

用友签约新奥集团,共建智慧资产管理平台

用友BIP

资产管理

大模型训练中断,断点续传助力快速恢复

百度开发者中心

人工智能 深度学习 大模型

SD-WAN搭建企业多云专用网络

Ogcloud

网络 SD-WAN 组网 组网网络

Color Folder for Mac(文件夹设计工具)v3.8激活版

影影绰绰一往直前

一文读懂$mash 通证的 “Fair Launch” 规则,将公平发挥极致

西柚子

如何对APP进行安全加固

Hitek Software JaSFTP For Mac(FTP客户端软件)v13.08激活版

影影绰绰一往直前

RightFont for Mac(字体管理软件)v8.5.0免激活版

影影绰绰一往直前

mac电池最大充电限制软件:AlDente Pro 激活中文版

mac大玩家j

Mac软件 电池管理工具 充电管理

专业Visio绘图文件阅读器:VSD Viewer 激活最新版

胖墩儿不胖y

Mac软件 文件查看器

叮咚!融云 2023 年度「消息」已送达

融云 RongCloud

技术 即时通讯 IM 融云 通讯

解读 $mash 通证 “Fair Launch” 规则,将公平发挥极致

大瞿科技

简单聊聊大力发展国产堡垒机的几个原因

行云管家

网络安全 信创 堡垒机 国产化

Spring 七种事务传播性介绍

vivo互联网技术

spring 事务的传播性 事务的提交和回滚

数据高速公路:详解数仓集群通信技术

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

制造业工厂仓库管理为什么要扫码出入库?

万界星空科技

wms WMS仓库管理 万界星空科技 仓库管理系统 扫码出入库管理

跨国公司为什么要部署SD-WAN

Ogcloud

网络 SD-WAN 组网 组网网络

自动 FTP 客户端 Hitek Software AbleFTP激活最新版

mac大玩家j

文件传输软件 ftp工具

百度搜索&金融:构建高时效、高可用的分布式数据传输系统

百度Geek说

分布式 计算机网络 金融 数据传输 企业号 1 月 PK 榜

一文读懂$mash 通证的 “Fair Launch” 规则,将公平发挥极致

小哈区块

ICT行业“样品”相关业务挑战及解决方案介绍

用友BIP

ICT行业供应链

如何下载和安装 Eclipse?

小魏写代码

教育场景数字化中音视频小程序的发展

Onegun

在线教育 教育 教育科技

shopee虾皮商品列表数据接口(Shopee.item_search)丨shopee虾皮API接口

tbapi

Shopee shopee API shopee商品列表数据接口 虾皮商品列表数据接口 虾皮API接口

tiktok云手机有用吗?用哪个好?

Ogcloud

云服务 TikTok 手机云服务 云服务商

重磅国赛开赛!中国大学生服务外包创新创业大赛飞桨双赛道开放报名

飞桨PaddlePaddle

飞桨 高校 国赛 文心一言 文心大模型

做容灾,冷备是不是个好方案?_语言 & 开发_成哥的世界_InfoQ精选文章