写点什么

Amazon EC2 美国东部数据中心发生故障——多个网站受到影响

  • 2011-04-24
  • 本文字数:1425 字

    阅读完需:约 5 分钟

美国东部地区的 Amazon Elastic Compute Cloud 目前正经受严重故障的考验。众多知名网站不可用或至少受到一定影响――其中包括 Reddit、Foursquare、Quora 、Hootsuite、 Heroku Assembla 和 Codespaces。故障的原因是位于维吉尼亚的美国东部数据中心中多个可用性区域(Availablity Zone)的EBS( Elastic Block Storage ,它还支撑着 Relational Database Services)容量不足。这很有可能是网络问题导致 EBS 控制器超载后弹性恢复 Schema 生效导致的。

8:54 AM PDT:早上早些时候的一次网络事件触发了 US-EAST-1 中的大量 EBS 卷重新镜像,造成 US-EAST-1 其中一个可用性区域的容量不足,这影响了新 EBS 卷的创建,以及重新镜像并恢复受影响 EBS 卷的速度。此外,我们内部的一个 EBS 控制层面(control planes)满了,这样一来创建新 EBS 卷和基于 EBS 的实例就很困难了。 ――摘自 Amazon AWS Dashboard

诸如 eWeek InformationWeek CNN 之类的新闻网站很快便报道了这一事件。 GigaOm 针对那些同样脆弱的依赖于 EC2 的 PaaS 提供商(Heroku、EngineYard 和 DotCloud)进行了一番讨论。

今天,4 月 21 日 1:41 AM PDT,Amazons 的 AWS 状态页上报告:“我们正在调查 EBS 卷的延迟和错误率,还有 US-EAST-1 区 EC2 实例的连通性问题。”直到现在为止(1:48 PM PDT),我们还没有彻底解决这个问题。

除了终结者电影中宣布的天网攻击时间恰好是 2011 年 4 月 21 日以及 Twitter 上给 Amazon 工程师的有用提示之外,关于本次意外故障还有一些精湛的回复。

@scottmcnealy :我说过网络就是电脑,但我并没说它能 100% 正常运行。
@torrenegra :今天是《终结者》中的审判日(2011 年 4 月 21 日),天网本该把我们全灭了,幸好它是跑在 Amazon EC2 上的。
@Nicolethebear :亲爱的 Amazon EC2――有没有试试开了再关?

通常一个 EC2 区域中的不同可用性区域是互不干涉的,因为它们是物理上隔离开的数据中心,通过优化过的连接来保证低延时。 如此说来,跨过多个 AZ 来架构系统应该能提供足够的风险管理来补偿一个或多个AZ 的故障。因此,它们的可用性保证受到了多方质疑。 PCWorld 与 Gartner 分析师 Drue Reeves 和 Reuven Cohen(Enomaly 的创始人和 CTO)一起讨论了这个话题。竞争对手云提供商 DotCloud (同样依赖于 Amazon EC2)报道了他们在本次故障中的经历,指出了一些灾难恢复上的技术问题。

Hacker News 的报道中引用了 Netflix 工程师的话,跨多个可用性区域的系统在本次故障中几乎没什么问题(“Netflix 部署在三个可用性区域里,少了一个仍可继续运行。这比彻底不可用的代价要小多了。”)

来自 backdrift.org 的 Keith 就如何处理此类停机时间给出了一些简单有效的建议。举例来说,使用配置管理系统来做镜像设置与更新(例如 puppet ),同步那些基于云的数据并保护你的 DNS 配置。 Clay Loveless 的一篇文章就此做了详细说明。

想要提前获得 AWS 问题的状态更新, Eric Hammond (Alestic)建议关注 @ylastic ,Eric Hammond 描述了如何让受影响的服务器重新上线。

今天这个事件的后果就是会有很多人对基于云的应用程序的可靠性提出质疑,需要给出必需的架构方面的预防措施以及风险管理。不仅是Amazon,其他的云提供商也必须如此,比如 VMware 的 CloudFoundry Google App Engine 。另一个话题将是云提供商给出的 SLA——Amazon EC2 针对多 AZ 部署的外部连通性 SLA 是 99.95%。EBS 和 RDS 都还没有 SLA。

查看英文原文 Major Outage on Amazons EC2 US-East Datacenter - Many sites affected

2011-04-24 07:593677
用户头像

发布了 135 篇内容, 共 63.7 次阅读, 收获喜欢 43 次。

关注

评论

发布
暂无评论
发现更多内容

Java实现List去重的5种方式

共饮一杯无

Java List 11月月更

深入分析Java的序列化与反序列化

石臻臻的杂货铺

Java 11月月更

Redhat持久化日志与实战练习

阿柠xn

Linux 运维 11月月更

What's new in dubbo-go v3.0.3

apache/dubbo-go

沿着公路,驶入隧道,寻访OpenHarmony的桃花源记

脑极体

架构误区系列4:volatile task

agnostic

延迟任务 领域建模

数据治理的核心:大数据开发平台

小鲸数据

大数据 数据开发 数据平台 数据开发平台 调度平台

The Availability and Performance analytics of Sina Weibo comment

David

架构实战营

Java Web(八)JSP

浅辄

javaWeb jsp 11月月更

Set集合和其之类HashSet、LinkedHashSet

共饮一杯无

Java set 11月月更

Zebec 创始人Sam Thapaliya11月12日Twitter Space 发言内容回顾

股市老人

CSS学习笔记(七)

lxmoe

CSS 前端 学习笔记 11月月更

刨根问底 Redis, 面试过程真好使

蔡农曰

Java 编程 面试 后端

企业级业务架构设计:方法论与实践学习笔记二

程序员架构进阶

架构 业务架构 11月日更 11月月更

第三章TCP/IPip地址概念与应用

初学者

TCP/IP IP地址 11月月更

案例体验HTTP2.0多路复用

小鑫同学

前端 HTTP2.0 11月月更

【愚公系列】2022年11月 微信小程序-app.json配置属性之subpackages和preloadRule

愚公搬代码

11月月更

如何在 Kubernetes 中创建命名空间?

wljslmz

Kubernetes 命名空间 11月月更

Spring 5(一)概述

浅辄

Java Spring5 11月月更

Spring 5(二)IOC容器

浅辄

Java Spring5 11月月更

读《计算机是怎样跑起来的》体会

听风go

tips-mac安装jdk及设置环境变量

无崖子Z

List集合按照某个字段或者属性分组的两种方式

共饮一杯无

Java List 11月月更

第一章TCP/IP协议

初学者

TCP/IP 11月月更

极客时间运维进阶训练营第三周作业

LiaoWD

探知数字化研发3 - 思维篇

薛飞

Verilog代码的风格规范

芯动大师

Module Verilog 11月月更

计算机网络:局域网的基本概念和体系结构

timerring

计算机网络 局域网 11月月更

9位资深技术专家!来自香山团队、平头哥等大咖云集的龙蜥RV专场回顾来了

OpenAnolis小助手

芯片 risc-v 龙蜥社区 2022云栖大会 技术专场

【简历优化】如何在简历中最大化体现出自己的学习能力?

王中阳Go

高效工作 面试 高效学习 简历 11月月更

Amazon EC2美国东部数据中心发生故障——多个网站受到影响_架构_Michael Hunger_InfoQ精选文章