高可用云计算服务——Engine Yard 如何应对 AWS 停用

  • 李湃

2012 年 4 月 1 日

话题:AWS云计算DevOps语言 & 开发架构

PaaS 云服务提供商Engine Yard,在 2012 年 3 月 23 日经历了 AWS(Amazon Web Service)网络服务中断后,将对外服务不可用的比率控制在 0.13%(2300 个客户,有 3 个客户受到网络中断的影响)。

Engine Yard 的运营 VP,Bill Plat,以及市场营销高级 VP,Mark Gaydos,透露了他们三条最佳实践:

  • 及时沟通,不论是对外部客户还是合作伙伴——在事故发生时,Engine Yard 会及时与 AWS 团队沟通以达成应对策略;同时对外部客户发布公告,告诉客户发生了什么,为什么会这样,现在进展到了哪个阶段。
  • 避免“热点数据”——Engine Yard 通过将客户以及基础设备散落在不同的区域,来减小事故发生所产生的影响。而且,Engine Yard 会提供冗余数据快速恢复服务,但这项服务会额外收费。
  • 清除隐患——Engine Yard 在每次事故之后,找到导致其发生的根本原因,并采取措施保证类似事故不会发生第二次。

早在一年前,在经历了类似事故后,Engine Yard 就着手研发了新的服务功能,支持客户在备选区域内恢复业务数据。同时,对于 AWS 来说,网络服务中断这个话题也常常被用户提及(取自 AWS 论坛):

论坛用户endertech:一周之内发生两次网络服务中断,这是为什么?

亚马逊 AWS 成员preethi@AWS回复说:我们知道网络中断会造成部分用户的不便,除了查看 AWS 健康状态仪表盘上的数据,我无法提供更多的信息。但我们团队在不断的努力,尽全力避免类似事故的发生,面对现在这样的状况,可以先参照下“如何构建数据容错的 AWS 应用”指南。

不论是外部客户还是云计算服务合作伙伴,都希望得到 Up-To-The-Minute 信息,能够提供高可用、高容错的云计算服务是未来供应商的核心竞争力。

AWS云计算DevOps语言 & 开发架构