写点什么

Amazon EC2 美国东部数据中心发生故障——多个网站受到影响

  • 2011-04-24
  • 本文字数:1425 字

    阅读完需:约 5 分钟

美国东部地区的 Amazon Elastic Compute Cloud 目前正经受严重故障的考验。众多知名网站不可用或至少受到一定影响――其中包括 Reddit、Foursquare、Quora 、Hootsuite、 Heroku Assembla 和 Codespaces。故障的原因是位于维吉尼亚的美国东部数据中心中多个可用性区域(Availablity Zone)的EBS( Elastic Block Storage ,它还支撑着 Relational Database Services)容量不足。这很有可能是网络问题导致 EBS 控制器超载后弹性恢复 Schema 生效导致的。

8:54 AM PDT:早上早些时候的一次网络事件触发了 US-EAST-1 中的大量 EBS 卷重新镜像,造成 US-EAST-1 其中一个可用性区域的容量不足,这影响了新 EBS 卷的创建,以及重新镜像并恢复受影响 EBS 卷的速度。此外,我们内部的一个 EBS 控制层面(control planes)满了,这样一来创建新 EBS 卷和基于 EBS 的实例就很困难了。 ――摘自 Amazon AWS Dashboard

诸如 eWeek InformationWeek CNN 之类的新闻网站很快便报道了这一事件。 GigaOm 针对那些同样脆弱的依赖于 EC2 的 PaaS 提供商(Heroku、EngineYard 和 DotCloud)进行了一番讨论。

今天,4 月 21 日 1:41 AM PDT,Amazons 的 AWS 状态页上报告:“我们正在调查 EBS 卷的延迟和错误率,还有 US-EAST-1 区 EC2 实例的连通性问题。”直到现在为止(1:48 PM PDT),我们还没有彻底解决这个问题。

除了终结者电影中宣布的天网攻击时间恰好是 2011 年 4 月 21 日以及 Twitter 上给 Amazon 工程师的有用提示之外,关于本次意外故障还有一些精湛的回复。

@scottmcnealy :我说过网络就是电脑,但我并没说它能 100% 正常运行。
@torrenegra :今天是《终结者》中的审判日(2011 年 4 月 21 日),天网本该把我们全灭了,幸好它是跑在 Amazon EC2 上的。
@Nicolethebear :亲爱的 Amazon EC2――有没有试试开了再关?

通常一个 EC2 区域中的不同可用性区域是互不干涉的,因为它们是物理上隔离开的数据中心,通过优化过的连接来保证低延时。 如此说来,跨过多个 AZ 来架构系统应该能提供足够的风险管理来补偿一个或多个AZ 的故障。因此,它们的可用性保证受到了多方质疑。 PCWorld 与 Gartner 分析师 Drue Reeves 和 Reuven Cohen(Enomaly 的创始人和 CTO)一起讨论了这个话题。竞争对手云提供商 DotCloud (同样依赖于 Amazon EC2)报道了他们在本次故障中的经历,指出了一些灾难恢复上的技术问题。

Hacker News 的报道中引用了 Netflix 工程师的话,跨多个可用性区域的系统在本次故障中几乎没什么问题(“Netflix 部署在三个可用性区域里,少了一个仍可继续运行。这比彻底不可用的代价要小多了。”)

来自 backdrift.org 的 Keith 就如何处理此类停机时间给出了一些简单有效的建议。举例来说,使用配置管理系统来做镜像设置与更新(例如 puppet ),同步那些基于云的数据并保护你的 DNS 配置。 Clay Loveless 的一篇文章就此做了详细说明。

想要提前获得 AWS 问题的状态更新, Eric Hammond (Alestic)建议关注 @ylastic ,Eric Hammond 描述了如何让受影响的服务器重新上线。

今天这个事件的后果就是会有很多人对基于云的应用程序的可靠性提出质疑,需要给出必需的架构方面的预防措施以及风险管理。不仅是Amazon,其他的云提供商也必须如此,比如 VMware 的 CloudFoundry Google App Engine 。另一个话题将是云提供商给出的 SLA——Amazon EC2 针对多 AZ 部署的外部连通性 SLA 是 99.95%。EBS 和 RDS 都还没有 SLA。

查看英文原文 Major Outage on Amazons EC2 US-East Datacenter - Many sites affected

2011-04-24 07:593319
用户头像

发布了 135 篇内容, 共 58.7 次阅读, 收获喜欢 43 次。

关注

评论

发布
暂无评论
发现更多内容

区块链BaaS服务平台开发,助推中小企业快速落地

13828808769

区块链+ #区块链#

2021 技术展望 | 弱网下的极限实时视频通信

声网

RTC 2021年展望 RTE 2021技术

2021 技术展望 | 实时互动场景下,音频的技术变迁与机遇

声网

音视频 RTC 2021年展望 RTE 2021技术

爱好历史的程序员,不容错过!

不脱发的程序猿

程序员 程序人生 4月日更 全历史

从金融到物联网 区块链的落地应用将如何改变世界?

CECBC

区块链

关于Go语言,你不得不知的并发模式!

博文视点Broadview

“区块链新基建”可否发展可信平台?

电微13828808271

区块链+ 区块链新基建

“区块链+”司法合约,电子认证不造假

电微13828808271

区块链+

科技“智”造:智慧工厂这样规划,既高效又节能

一只数据鲸鱼

数据可视化 工业物联网 智慧园区 智慧工厂

事务隔离级别实战学习

U2647

事务隔离级别 事务 4月日更

2021 技术展望 | 2021,5G 将会倒逼传输协议、算法做出更多改进

声网

5G RTC 2021年展望 RTE 2021技术

构建从目标到研发过程的全生命周期管理体验

PingCode

敏捷开发 研发管理 Jira Atlassian 敏捷开发管理 研发工具

如何实现屏幕共享时的多人实时标注?

拍乐云Pano

windows Electron RTC

国人开源的运维监控系统——WGCLOUD

王逅逅

开源 运维 Grafana Prometheus zabbix

文字识别:关键信息提取的3种探索方法

华为云开发者联盟

深度学习 文字识别 图结构 关键信息提取 栅格

如何只用一个小时定制一个行业AI 模型?

华为云开发者联盟

自然语言处理 AI 华为云 hdc ModelArts Pro

2021 技术展望 | AV1 在 RTC 应用实践中的现状与展望

声网

RTC 2021年展望 RTE 2021技术

Javascript执行机制-事件循环

Sakura

4月日更

c 语言思维地基搭建(总概论)

-jf.

4月日更

「开源免费」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之序列号自定义组件(四)

crudapi

Vue crud crudapi 序列号 quasar

SumSwap与金色财经共为 首席创新合作大会在上海拉开帷幕

币圈资讯

Linux scp 命令

一个大红包

4月日更

想快速重构智慧园区5A系统,这份方案推荐给你

华为云开发者联盟

系统 智慧园区 HDC.Cloud 2021 端边云协同架构 南向系统

Python OpenCV 图片模糊操作 blur 与 medianBlur

梦想橡皮擦

Python OpenCV 4月日更

集客业务支撑领域标准化产品套件“火麒麟”的配置化能力提升之路

鲸品堂

产品 解决方案 运营商

2021 技术展望 | 走向未来的实时生成技术

声网

RTC 2021年展望 RTE 2021技术

EGG NETWORK公链阿凡提以“完全开放式自治”的唯一标准搭建New-DeFi链上生态EFTalk

币圈那点事

在多人音视频聊天中插入现场直播

anyRTC开发者

android 大前端 音视频 WebRTC RTC

2021技术展望|开源十年,WebRTC 的现状与未来

声网

开源 WebRTC 2021年展望 RTE 2021技术

释放千行百业数据价值,华为云DAYU有一套

华为云开发者联盟

大数据 数据湖 华为云 数据价值 dayu

云智一体 AI开发模式打造电力行业的智慧化范本

百度大脑

云计算 智能云

Amazon EC2美国东部数据中心发生故障——多个网站受到影响_架构_Michael Hunger_InfoQ精选文章