AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

做容灾,冷备是不是个好方案?

  • 2020-03-17
  • 本文字数:1489 字

    阅读完需:约 5 分钟

做容灾,冷备是不是个好方案?

主备、冷备、热备、双活、多活、同城、异地、多云,等等等等,这些保证业务高可用和容灾名词,我们经常会听到,不绝于耳。


但是,真的当我们自己要去建设,选择方案时,就发现不知道该怎么选择和搭配了。


结合近期我们的一些讨论,准备用几篇文章简单分享下我们的理解,今天先聊冷备。

冷备是不是个好方案?

这里的冷备我们可以理解为,是主站系统核心链路的镜像站点,应用、各类分布式服务以及底层基础设施都是独立,且启动的。


它跟主站唯一的差别就是,正常情况下,不承载任何线上流量。


理论上,只要有状态的数据(也就是各类分布式服务,如数据库、缓存、消息等组件)同步好,接入层流量能够灵活调度,当出现问题的时候,切入口流量,就可以顺畅的切过去。


看上去很美好,但是实际操作起来,基本不可行。


这里有一个关键点,就是业务应用,应用的代码和配置是随时在变化的。


原则上,我们可以通过持续交付和运维自动化等等手段,确保每次变更都能够同步到备站点,并通过流程约束不允许有外部操作。


所以,手段上,我们可以做到非常完备,流程上,我们可以设计的非常严密。


但是,我们始终绕不开的一个命题,只要不承载真实的线上业务流量,我们就无法证明这个系统是可用的。


何况,有可能是好几个月我们都不会发生真实的切换动作,所以,一个几个月没有经过线上流量检验的系统,在真正需要切换时,不会有任何人敢决策直接切换的。


当然,以上是我们的直接推断,确实行不通。但是我们仍然要经过一些详细的论证,从其它角度看是否有解。

从另外一个角度的论证过程

当时我们讨论在冷备的前提下,应该怎么保证系统的可用性,没想到,论证的过程,反而进一步证实了冷备只是一个美好的愿望。

1、通过模拟压测的方式。

但是我们知道,压测的模型是根据线上业务模型来定制的,但是业务场景和逻辑每天都在发生变化,压测模型的同步有时是跟不上业务模型变化的。


况且这个日常工作量要靠人,无法做到自动生成,所以基本不可持续。


再就是,压测的结果检验是通过技术指标衡量,而非业务指标,也就是是否 200ok,或者出现 5xx 之类的错误。


业务逻辑上是否正确,并没有办法确保。这种情况就极易造成数据污染。数据故障的影响范围远远超过服务不可用的影响。


所以,压测可以最大程度评估系统容量,但是无法保证系统业务正确性。

2、切换后,接入线上流量前,QA 介入验证。

理由同上,工作量大,也无法覆盖到所有场景,时间不可控,完全起不到冷备节点的快速承载业务效果。

3、定期模拟演练,确保系统周期范围内可用

但是这里就有一个前提,冷备站点的建设目标,并不是全量建设,而是在极端状况下,确保核心业务临时可用,当主站点恢复后,仍然要切回去。


这里暗含的一个意思就是,一旦需要做这个动作,业务必然有损,而且涉及范围非常大,这就意味着,每一次演练都要付出极大的业务代价。


从这个角度,产品运营及决策者们是不会允许你经常干这种事情的。


到这里,你会发现,连日常演练的条件都不具备了。

4、一个绕不开的限制条件

数据同步必然是单向的,为了保证数据一致,通常要确保备用站点是禁写的,以防止各类误操作引起的数据污染。


所以,即使上面几个方案可行,基础条件上又不满足,因为根本无法写入数据,关键的业务逻辑根本不具备验证条件。

结论

冷备只能是冷备,关键时刻并不能起到快速承载业务的效果,在业务容灾建设时,这个思路其实是不可行的。


但是对于部分组件,比如数据库、大数据、文件,这些存储类的部件,做冷备是有重大意义的。


也就是,后面我们在提到冷备时,应该叫做数据冷备、文件冷备、源代码冷备才有意义,或许会更准确些。


本文转载自成哥的世界公众号。


原文链接:https://mp.weixin.qq.com/s/aORRbfURAE4LUP97CY4bjA


2020-03-17 22:071263

评论

发布
暂无评论
发现更多内容

Java 开发瓶颈破局:飞算 JavaAI 如何一站式生成标准化项目结构?

飞算JavaAI开发助手

加速鸿蒙生态建设,APP混合开发或许是企业抢占增量流量的机会

Speedoooo

ai框架 小程序容器 小程序技术 纯血鸿蒙 鸿蒙生态

C.AI 推出 AvatarFX 模型:让图片角色开口说话;Grok 升级视觉理解,支持多语种语音和语音实时搜索丨日报

声网

飞算JavaAI深度评测:从代码生成到工程化落地的完整能力

飞算JavaAI开发助手

金仓KingbaseES两地三中心方案简介

金仓技术

KingBase 金仓数据库

VMware Cloud Director Availability 4.7.2 - 灾难恢复和迁移 (DRaaS 解决方案)

sysin

vmware

迈向深度智能:CoT数据集如何让大模型学会「一步一步思考」?

数据堂

AI 数据集 大模型 思维链 CoT数据集

从重复编码到设计:飞算 JavaAI 助力程序员跳出「低阶陷阱」

飞算JavaAI开发助手

探索Playwright:前端自动化测试的新纪元

京东科技开发者

G1原理—G1垃圾回收过程之Mixed GC

不在线第一只蜗牛

Java 算法 JVM

YashanDB知识库|账号被锁了怎么办?一文教你快速定位和解锁!

数据库砖家

数据库·

绝味20岁生日会,鸭厂鹅厂联手发布中国零售连锁AI垂直场景大模型

脑极体

AI

AI时代下,应用动态化开发有新的思路?

Speedoooo

灰度发布 热更新 小程序容器 小程序技术 动态化技术

接单流程设计探索

京东科技开发者

越读,越AI读:华为阅读用科技重新定义“阅读自由”

最新动态

YashanDB知识库|imp 跨服务器导入太慢?其实是网络延迟+SQL交互在“搞事”

数据库砖家

数据库·

通义灵码入选 “2025 年值得关注的 AIGC 产品”,是唯一入选的 AI 编程产品

阿里云云效

阿里云 云原生 通义灵码

高并发下单库存扣减异常?飞算 JavaAI 自动化生成分布式事务解决方案

飞算JavaAI开发助手

简洁至上——探索产品与技术的优雅原则

京东科技开发者

VMware Cloud Director Availability 4.7.3 - 灾难恢复和迁移 (DRaaS 解决方案)

sysin

vmware

掌握设计模式--代理模式

量贩潮汐·WholesaleTide

设计模式

金仓数据库KingbaseES客户端编程接口侧负载均衡技术解析

金仓技术

KingBase 金仓数据库

IoTDB MCP 获官方收录!从冷门协议到行业焦点:MCP 如何改变 AI 与数据的交互方式?

Apache IoTDB

飞算 JavaAI 的 “高并发处理” 方案:如何应对流量高峰

飞算JavaAI开发助手

飞算 JavaAI “智能引导” 功能:小白一天也能成为 Java 高手

飞算JavaAI开发助手

2025 Java 框架痛点全解析:如何避免性能瓶颈与依赖混乱

飞算JavaAI开发助手

从编码执行者到系统指挥官:AI时代程序员的价值跃迁之路

飞算JavaAI开发助手

金仓数据库KingbaseES系统故障的排查方法

金仓技术

KingBase 金仓数据库

澳鹏(中国)9大垂类数据服务能力全景解读

澳鹏Appen

数据标注 大模型 垂类大模型

邀请函丨解锁颗粒仿真新视界:2025 Altair EDEM离散元技术研讨会报名启动!

Altair RapidMiner

制造业 数字孪生 CAE 离散元 EDEM

YashanDB 知识库|自动选举参数配错引发的“连锁反应”,你中招了吗?

数据库砖家

数据库·

做容灾,冷备是不是个好方案?_语言 & 开发_成哥的世界_InfoQ精选文章