AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

Amazon EC2 美国东部数据中心发生故障——多个网站受到影响

  • 2011-04-24
  • 本文字数:1425 字

    阅读完需:约 5 分钟

美国东部地区的 Amazon Elastic Compute Cloud 目前正经受严重故障的考验。众多知名网站不可用或至少受到一定影响――其中包括 Reddit、Foursquare、Quora 、Hootsuite、 Heroku Assembla 和 Codespaces。故障的原因是位于维吉尼亚的美国东部数据中心中多个可用性区域(Availablity Zone)的EBS( Elastic Block Storage ,它还支撑着 Relational Database Services)容量不足。这很有可能是网络问题导致 EBS 控制器超载后弹性恢复 Schema 生效导致的。

8:54 AM PDT:早上早些时候的一次网络事件触发了 US-EAST-1 中的大量 EBS 卷重新镜像,造成 US-EAST-1 其中一个可用性区域的容量不足,这影响了新 EBS 卷的创建,以及重新镜像并恢复受影响 EBS 卷的速度。此外,我们内部的一个 EBS 控制层面(control planes)满了,这样一来创建新 EBS 卷和基于 EBS 的实例就很困难了。 ――摘自 Amazon AWS Dashboard

诸如 eWeek InformationWeek CNN 之类的新闻网站很快便报道了这一事件。 GigaOm 针对那些同样脆弱的依赖于 EC2 的 PaaS 提供商(Heroku、EngineYard 和 DotCloud)进行了一番讨论。

今天,4 月 21 日 1:41 AM PDT,Amazons 的 AWS 状态页上报告:“我们正在调查 EBS 卷的延迟和错误率,还有 US-EAST-1 区 EC2 实例的连通性问题。”直到现在为止(1:48 PM PDT),我们还没有彻底解决这个问题。

除了终结者电影中宣布的天网攻击时间恰好是 2011 年 4 月 21 日以及 Twitter 上给 Amazon 工程师的有用提示之外,关于本次意外故障还有一些精湛的回复。

@scottmcnealy :我说过网络就是电脑,但我并没说它能 100% 正常运行。
@torrenegra :今天是《终结者》中的审判日(2011 年 4 月 21 日),天网本该把我们全灭了,幸好它是跑在 Amazon EC2 上的。
@Nicolethebear :亲爱的 Amazon EC2――有没有试试开了再关?

通常一个 EC2 区域中的不同可用性区域是互不干涉的,因为它们是物理上隔离开的数据中心,通过优化过的连接来保证低延时。 如此说来,跨过多个 AZ 来架构系统应该能提供足够的风险管理来补偿一个或多个AZ 的故障。因此,它们的可用性保证受到了多方质疑。 PCWorld 与 Gartner 分析师 Drue Reeves 和 Reuven Cohen(Enomaly 的创始人和 CTO)一起讨论了这个话题。竞争对手云提供商 DotCloud (同样依赖于 Amazon EC2)报道了他们在本次故障中的经历,指出了一些灾难恢复上的技术问题。

Hacker News 的报道中引用了 Netflix 工程师的话,跨多个可用性区域的系统在本次故障中几乎没什么问题(“Netflix 部署在三个可用性区域里,少了一个仍可继续运行。这比彻底不可用的代价要小多了。”)

来自 backdrift.org 的 Keith 就如何处理此类停机时间给出了一些简单有效的建议。举例来说,使用配置管理系统来做镜像设置与更新(例如 puppet ),同步那些基于云的数据并保护你的 DNS 配置。 Clay Loveless 的一篇文章就此做了详细说明。

想要提前获得 AWS 问题的状态更新, Eric Hammond (Alestic)建议关注 @ylastic ,Eric Hammond 描述了如何让受影响的服务器重新上线。

今天这个事件的后果就是会有很多人对基于云的应用程序的可靠性提出质疑,需要给出必需的架构方面的预防措施以及风险管理。不仅是Amazon,其他的云提供商也必须如此,比如 VMware 的 CloudFoundry Google App Engine 。另一个话题将是云提供商给出的 SLA——Amazon EC2 针对多 AZ 部署的外部连通性 SLA 是 99.95%。EBS 和 RDS 都还没有 SLA。

查看英文原文 Major Outage on Amazons EC2 US-East Datacenter - Many sites affected

2011-04-24 07:593607
用户头像

发布了 135 篇内容, 共 62.8 次阅读, 收获喜欢 43 次。

关注

评论

发布
暂无评论
发现更多内容

【LeetCode】检测大写字母Java题解

Albert

算法 LeetCode 11月日更

【Flutter 专题】09 图解页面小跳转 (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

基于业务和平台理解数字营销概念

架构 CDP DSP DMP 数据服务

架构实战营-模块四

瓜子葫芦侠

「架构实战营」

性能测试之问题与思考

刘冉

软件测试 性能测试 软件自动化测试

软件测试新趋势-2018

刘冉

软件测试 软件自动化测试

Apache Pulsar与Apache Kafka在性能、应用、生态等全方位对比

五分钟学大数据

11月日更

设计消息队列存储消息数据的MySQL表格

白开水又一杯

#架构实战营

Prometheus HTTP API 查询(七)管理员接口

耳东@Erdong

Prometheus PromQL HTTP API 11月日更

架构实现训练营|第 8 课|作业

Frode

如何用20分钟就能获得同款企业级全链路灰度能力?

阿里巴巴云原生

阿里云 微服务 云原生 MSE

Vue进阶(幺柒捌):延伸阅读Sass、Scss、Less与Stylus编程特性

No Silver Bullet

CSS Vue 11月日更

Android C++系列:JNI调用时的异常处理

轻口味

c++ android jni 11月日更

quarkus接触研究个人总结

weir威尔

架构 微服务架构 istio Service Mesh 服务网格 Quarkus

【Promise 源码学习】第六篇 - 实现 Promise 的链式调用

Brave

源码 Promise 11月日更

聊聊开源精神

baiyutang

11月日更

自动化测试之框架分类与思考

刘冉

软件测试 自动化测试

今年双 11,阿里业务 100% 上云,云原生有哪些技术亮点?

阿里巴巴云原生

阿里云 技术 云原生 双11

Flink SQL 扩展维表 Keyby 的三种实现方式

大数据技术指南

11月日更

Ubuntu安装教程【超多图】

坚果

Ubuntu20.04 11月日更

#低码系列#低代码来了,程序员会失业吗?

布鲁

低代码开发 低代码平台

【高并发】深度解析线程池中那些重要的顶层接口和抽象类

冰河

Java 并发编程 多线程 高并发 异步编程

今天参加了“2021全球架构师峰会”...

后台技术汇

11月日更 全球架构师峰会

测试策略实践之移动应用的测试策略与测试架构

刘冉

软件测试 软件自动化测试 移动测试

ALB Ingress 发布!轻松应对云原生应用流量管理

阿里巴巴云原生

阿里云 容器 云原生 ALB

设计千万级学生管理系统的考试试卷存储方案

deng

架构实战营

数据服务系统0到1落地实现方案

架构 数据 系统架构 数据平台 数据服务

了解一下OpenVINO的API

IT蜗壳-Tango

11月日更

外包学生管理系统设计文档

波波

「架构实战营」

一个基于web服务器的PoW案例(二)

Regan Yue

区块链 11月日更 趣讲区块链

CRM User Status profile中Business Transaction字段的用途

汪子熙

CRM SAP 订单 11月日更

Amazon EC2美国东部数据中心发生故障——多个网站受到影响_架构_Michael Hunger_InfoQ精选文章