写点什么

OpenStack 云平台中如何进行灾难恢复

  • 2016-05-18
  • 本文字数:1773 字

    阅读完需:约 6 分钟

IT 基础设施的故障会出现在很多层面上,例如某台服务器或磁盘,甚至整个数据中心在面对灾难事故(例如地震、洪水、断电等)后均可能出现故障。如果由于一些大范围灾难导致整个数据中心故障,我们会使用“灾难恢复”所定义的措施,确保应用可以在备份数据中心内继续运行,同时将可能的中断降至最低。

为保护数据中心内存储的数据,必须在数据中心遇到故障前制定妥善的灾难恢复规划。

环境

假设你有一个主数据中心和一个备份数据中心。每个数据中心都包含使用 OpenStack 云管理的物理和虚拟资源,并通过虚拟机、网络连接(包括私有子网)、区块设备 (Block device) 等资源以集合的方式定义了工作负载,所有这一切都使用标准的 OpenStack 组件(Nova、Neutron、Cinder 等)进行管理。

通常来说,一个工作负载及其所有依存组件都可以使用 Heat Orchestration Template (HOT) 来定义。这样做目的在于对主数据中心内运行的工作负载创建副本,以便在主数据中心遭遇故障后在备份数据中心运行这个工作负载。

解决方案概况

这种方案的主要意图在于,在备份数据中心内为工作负载的 Heat 模板以及所需的全部资源创建副本。Heat 模板包含相关作业的虚拟机,将虚拟机连接在一起的网络拓扑,以及虚拟机所使用的区块设备。在主数据中心遭遇故障之前,恢复所需的全部必要信息在备份数据中心必须处于可用状态。

例如,为了能在备份数据中心运行虚拟机,我们需要准备该虚拟机运行所需的映像。因此除了工作负载的 Heat 模板,还需要存储该作业中虚拟机的映像,并使其在备份数据中心内可用。如果作业同时还包含数据卷,那么我们或者需要偶尔对该数据卷创建快照并将其发送至备份数据中心,或者需要对该卷进行某种形式的远程复制,这样才能在恢复后通过备份数据中心访问该卷中的数据。

这些工作可以通过 Dragon 实现

我们实施了一种名为 Dragon 的框架,管理员可以借助该框架定义能够为工作负载提供保护的工作负载策略。对于每个工作负载策略,管理员可以对各种资源(例如虚拟机、卷)进行分组,并提供统一的保护。每个工作负载策略可独立触发,以执行该工作负载策略所涉及资源的保护操作。

每次触发一条策略后,会生成一个 Heat 模板以记录被保护资源之间的关系,并会针对这些资源执行相关操作(例如创建快照)。所有这些相关内容(Heat 模板、快照等)会存储在一个可被备份数据中心访问的 Swift 对象存储容器中。容器会添加工作负载策略名称和时间戳组成的标签。

一旦主数据中心故障,即可在备份数据中心启动恢复操作。随后将从该工作负载策略的 Swift 容器中提取 Heat 模板和相关数据,并对 Heat 模板进行一些调整,使其可以在备份数据中心内运行,接下来便可在备份数据中心内启动该工作负载。

针对具体的受保护资源,可能需要执行不同的操作。例如,对于虚拟机来说,可能只需要保存克隆后虚拟机的原始映像就够了。在某些情况下,随着时间的流逝,虚拟机映像可能会逐渐进行大量的定制,因此可能就要在执行过定制操作后重新为映像创建快照。对于数据卷,可能需要对卷执行一次创建快照的操作。但对于持续复制的卷,就无需创建快照。

Dragon 可供您为多种类型的资源定义多个操作。管理员可以在受保护的工作负载策略中选择针对每种资源所需执行的操作。例如对于虚拟机,我们提供了一个对克隆后的虚拟机保存原始映像的操作,并提供了一个在策略被触发时为虚拟机的映像创建独立快照的操作。Dragon 框架是可扩展的,因此您可以针对不同资源定义并实施各种新操作。

可以保护哪些类型的工作负载?

在上述解决方案中,我们并不试图保存工作负载的内存状态,而是会假设工作负载可以在无需恢复内存状态的情况下在备份数据中心内重启动并继续运行。对于绝大部分云服务来说,这种假设都是合理的。如果涉及数据卷,并且使用了快照保护操作,随后恢复后的工作负载便可通过数据快照继续运行,但在最新快照创建完成后,针对主数据中心内数据所进行的任何更新均会丢失。如果数据卷可以持续复制到备份站点,即可进一步降低丢失的数据总量。

致谢

该方案的部分工作成果得到了 ORBIT 项目EU Grant ICT FP7-609828 的资助。

阅读英文原文: How disaster recovery works in an OpenStack cloud


感谢陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-18 17:592461
用户头像

发布了 283 篇内容, 共 113.2 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

另一种总结的方式

Nydia

学习

集群镜像:实现高效的分布式应用交付

阿里巴巴云原生

数据库 容器 开发者 云原生 存储

并发王者课-青铜5:一探究竟-如何从synchronized理解Java对象头中的锁

MetaThoughts

Java 多线程 并发 并发王者课

从源码中来,到业务中去,React性能优化终极指南

有道技术团队

大前端 React 有道精品课

BI系统里的数据赋能与业务决策

薄荷点点

数据产品经理 决策 BI 数据驱动 风险识别

最佳入门系列 | 何为服务网关?

架构精进之路

微服务 5月日更

这可能是中文互联网第一本系统性讲解Terraform的入门教程

大可不加冰

云计算 IaC Terraform HashiCorp 不可变基础设施

出于信仰,我去考了一个证

大可不加冰

云计算 IaC Terraform HashiCorp

如何通过别名扩展Git

kenny

bash git git扩展

Terraform中使用prevent_destroy搭配override文件防止误删资源

大可不加冰

云计算 基础设施即代码 IaC Terraform HashiCorp

网格策略交易软件,量化马丁倍投交易机器人

Dubbo 序列化

青年IT男

dubbo

☕️【Java 技术之旅】从底层分析LockSupport原理机制

码界西柚

Java JVM lock锁 5月日更 LockSupport

MySQL 数据库救火:磁盘爆满了,怎么办?

华为云开发者联盟

数据库 磁盘 MySQL 数据库 日志文件 磁盘爆满

合作伙伴眼中的HarmonyOS 专访方太智能厨电专家俞贵涛

科技汇

安全专栏加餐

escray

学习 极客时间 安全 5月日更 安全攻防技能30讲

并发王者课-青铜6:借花献佛-如何格式化Java内存工具JOL输出

MetaThoughts

Java 多线程 并发 并发王者课

Qemu KVM Guest增强简述

焱融科技

云计算 虚拟机 高性能 存储 qemu

聊聊微服务治理的落地问题 | Geek大咖说第二期

百度Geek说

微服务 自动化

【Flutter 专题】124 日常问题小结 (三) 自定义 Dialog 二三事

阿策小和尚

5月日更 Flutter 小菜 0 基础学习 Flutter Android 小菜鸟

2021百度之星报名开启 特设“小星星”奖项鼓励少年AI人才

百度大脑

AI 百度之星 少年

教你用User Story设计BI驾驶舱

薄荷点点

数据产品经理 用户故事地图 产品需求

索信达控股:金融机构如何打造最适合自己的个性化推荐系统?

索信达控股

大数据 金融科技 金融 个性化推荐 营销数字化

阿里云联合中国信通院发布《云计算开放应用架构》标准,加速云原生应用规模化落地进程

阿里巴巴云原生

容器 开发者 运维 云原生 k8s

吾日三省 - DAY 16

Qien Z.

5月日更 半年总结

用Terraform申请Letsencrypt证书

大可不加冰

云计算 证书 IaC Terraform HashiCorp

要想成为牛人,推荐学习哪种编程语言?

实力程序员

OCR性能优化:从神经网络到橡皮泥

华为云开发者联盟

神经网络 机器学习 OCR 橡皮泥 CNN网络

Django 之视图篇

若尘

django 视图 Python编程 5月日更

谋而后动:解读数仓计划生成中行数估算和路径生成的奥秘

华为云开发者联盟

计划 数仓 GaussDB(DWS) 查询语句 估算

2021年爆火的低代码开发技术,对企业而言有什么好处?

优秀

低代码

OpenStack云平台中如何进行灾难恢复_语言 & 开发_OSHRIT FEDER_InfoQ精选文章