2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Amazon S3 故障:服务水平协议能带来信任吗?

  • 2008-03-07
  • 本文字数:2285 字

    阅读完需:约 7 分钟

Amazon Web Services(AWS)中的简单存储服务(Simple Storage Service, S3 )是一个被很多热门网站使用的云存储平台,其中包括 Twitter G.ho.st 和 37signals 的 Basecamp 。最近 S3 经历了一次严重的故障。故障发生在 S3 分处不同地理位置的三个据点中的一个,持续时间超过两小时。

AWS 开发者讨论版上,有些人开始因这次故障而提出 AWS 是否可靠的问题:

S3 服务很出色,但这次事件证明了我们不能依赖它。这次是个大问题,尤其是因为服务停顿了这么长时间。

很快就有人指出 S3 的可靠性一直以来都保持着良好的记录:

在我加入服务的将近一年时间里,这是我经历的第一次故障。

InfoQ 采访了很多 S3 的长期用户,发现他们对于 S3 的可靠性的印象是一致的。在过去的一年里,只出过一两次小毛病,持续时间不过2 分钟。

Amazon 提供了一种 S3 的服务水平协议(Service Level Agreement,SLA),保证“每月 99.9% 的正常运行时间”。Amazon 从去年 10 月开始提供 SLA,而 S3 是 AWS 总共 11 项服务中目前唯一提供 SLA 的。Amazon 的 SLA 对于云存储方案有什么样的意义?

可能意义并不大。S3 SLA 保证一个月里所有以 5 分钟为单位的时间片中,平均有 99.9% 是可用的。SLA 容许的最遭情况等于每月有 40 分钟不可用。这种可靠程度比起金融应用或者医疗设备的要求还差了好几个数量级。不过在半个小时里收不到 Twits 对于大多数人来说只是不足挂齿的小麻烦。

如果达不到 SLA 的承诺,Amazon 会提供服务补偿,但对于收益和声誉全都系于互联网的用户来说,Amazon 的补偿只是聊胜于无。如果达不到 99.9% 的服务水平,那么 Amazon 将减免下个月 10% 的费用。如果可用性下降到 99.0% 以下,换算后相当于一个月内至少有将近 7 个小时无法服务,那么 Amazon 将减免 25% 的费用。为了看得更清楚一点,我们来举个例子。假设一个用户存放了 500G 的数据。把 500G 数据放进 S3 并且在一个月内全部数据都使用 10 次的话,总共的费用大约是 $1000。如果发生 5 小时的故障,那么该用户将得到 $100 的退款。如果故障时间从 7 个小时到一整个月的话,该用户将得到 $250 的补偿。

对于大多数需要利用云计算资源的应用来说,SLA 提供的保障没多大意义。对于决心舍弃其他服务采用 S3 的人来说,Amazon 的声誉和它一直以来的可靠记录比 SLA 更重要。

SLA 的鸡肋性质可能正好说明了为什么 SaaS 计算的金牌代表 Salesforce.com 不提供 SLA。Salesforce 在“ trust.salesforce.com ”网站上提供关于服务健康状况的有意义的实时信息,通过这样来建立起对他们的服务的信任。Salesforce.com 的健康监控网站也是在一次类似的故障之后才建立的。服务提供商如何处理事故也会对满意度产生重大影响,因为人们都知道即使是最完美的系统也避免不了故障。比如Technorati 处理博客数据混乱事件时的做法就受到了表扬

Amazon 从这次事件吸取了教训。这次故障表现出了 Amazon 的技术服务团队的高效率,大多数客户都认为他们是合格的,但同时也揭露出了他们在系统健康状况信息的沟通上存在严重缺陷。

InfoQ 就这次故障采访了 Amazon 的发言人。Amazon 看起来已经对问题所在有了头绪,而且已经尽早采取了改正措施。

在其中一个据点,我们开始观察到来自多个用户的身份验证请求在上升。虽然我们小心地监控了总请求量,观察到总请求量仍然处在正常范围内,但我们没有注意到身份验证请求所占的比例。这点很重要,因为这些加密请求比其他类型的请求消耗更多的资源。在很短的时间内,我们开始发现其他用户的身份验证请求数量也在显著增长。最后我们还没来得及增加新的服务能力,身份验证服务就被推到了极限。除了处理身份验证请求,Amazon S3 处理的每一个请求都要经过身份验证服务进行帐号验证。因此导致了那个据点的 Amazon S3 没法处理任何请求。

另一方面,有些用户对故障期间缺乏沟通感到很失望。 Viewbook.com 的拥有者 Rien Swagerman 告诉 InfoQ:

我觉得很惊讶……在发生这种事情的时候 Amazon 只给出了很少一点信息。你不得不在论坛里费力发掘才能了解一点状况,而论坛在故障期间又挂掉了没法发贴。

Amazon 的发言人告诉我们 Amazon.com 以及他们的开发者讨论版也一样受到了故障的影响。Amazon 身体力行使用自己的产品,一般来说是件好事,不过云计算可能会颠覆这种思维。

为了平息顾客在沟通水平方面的抱怨,Amazon 希望“很快”推出一个服务水平报告工具。云计算和 SaaS 技术仍然在发展之中,S3 故障显然只是成长中的阵痛。 FocusFriends.net 的 Ivo Beckers 说:

还没有别的厂商能以这样的价格提供这种质量的服务。实际上,我很高兴发生了这件事……它会刺激 Amazon 提供更好的服务。

Amazon 在萌芽中的云计算市场上确实正受到挑战。年初的时候 EMC 启动了 EMC Fortress 服务,这是他们利用对 Mozy 的收购而发展出的一个针对备份的 SaaS 存储平台。最近 EMC 又宣布雇佣微软的前任高管Paul Maritz 来领导一个新的云设施和存储部门。EMC 很可能把目标指向比Amazon 更高端的市场,在价格/ 可靠性上提供更灵活的选择。

架构师怎样才能在保持低成本的同时提高可用性呢?在Amazon 开发者讨论版上,很多人都在为自己的网站的可靠性完全依赖于S3 而感到悲哀。另外一些用户受到的影响较小,因为他们虽然用S3 来存储记录,但在本地保留了一个缓存副本。InfoQ 也用S3 来存储视频,不过在一个EC2 实例上保留了本地缓存,因此InfoQ.com 没有受到这次故障的影响。除了能提高可用性,本地缓存还降低了费用,因为直接从S3 传输的数据量减少了。

你在用S3 吗?你用什么办法来保证可用性呢?

查看英文原文: Amazon S3 Outage : Do SLAs Lead to Trust?

2008-03-07 22:003077
用户头像

发布了 225 篇内容, 共 75.0 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

概述大数据技术在智能运维中四大挑战

穿过生命散发芬芳

智能运维 9月月更

如何让百度搜索结果显示网站 logo

源字节1号

网站建设 网站开发

如何快速的部署一个静态页面到 Web3.0 上?5 分钟解密

掘金安东尼

前端 Web3.0 9月月更

设计模式的艺术 第四章简单工厂设计模式练习(使用简单工厂模式设计一个可以创建不同几何形状(如圆形、方形和三角形等)的绘图工具,每个图形都具有绘制draw()和擦除erase()两个方法,要求在绘制不支持的几何图形时,提示UnSupportedShape)

代廉洁

设计模式的艺术

NFT开发公司带你了解目前NFT开发属于什么状态

开源直播系统源码

区块链 NFT 数字藏品

2022-09-07:给你一个由正整数组成的数组 nums 。 数字序列的 最大公约数 定义为序列中所有整数的共有约数中的最大整数。 例如,序列 [4,6,16] 的最大公约数是 2 。 数组的一个

福大大架构师每日一题

算法 rust 福大大

微信小程序挖坑汇总

Shine

微信小程序

MySQL不同隔离级别,都使用了什么锁?

Java全栈架构师

Java MySQL 数据库 程序员 程序人生

数据湖统一元数据与权限

阿里云大数据AI技术

大数据 企业号九月金秋榜

Unity 关于低版本是否可以引用高版本构建内容的可行性验证

CoderZ

C# dll Unity3D 9月月更

C++学习------clocale头文件的源码学习

桑榆

c++ 源码阅读 9月月更

Go vs Python,我该选哪一门语言?

宇宙之一粟

Python 编程语言 Go 语言 9月月更

纠删码在实时视频流中的应用丨Dev for Dev 专栏

RTE开发者社区

音视频 人工智能’

Angular tsconfig.json 文件里的 paths 用途

汪子熙

typescript 前端开发 angular SAP UI5 9月月更

openGauss内核分析:SQL by pass & 经典执行器

华为云开发者联盟

数据库 后端 企业号九月金秋榜

【从零开始学docker】一、Docker的安装,启动以及工作原理

泡泡

云计算 容器 云原生 9月月更

SD-WAN网络编排原理

阿泽🧸

9月月更 网络编排

NEO FANTASY:回合制策略游戏在ACGN文化与GameFi中的新探索 09-07

鳄鱼视界

数据治理(十):Atlas案例演示

Lansonli

数据治理 9月月更

Python图像处理丨认识图像锐化和边缘提取的4个算子

华为云开发者联盟

Python 人工智能 图像处理 企业号九月金秋榜

MobTech秒验 Android端如何在授权界面添加短信登录按钮

MobTech袤博科技

android sdk

【文本检测与识别-白皮书】第一章:技术背景

合合技术团队

文字识别 文本 人工智能’

阿里云如何基于边缘云设计终端云化场景的架构?

阿里云CloudImagine

边缘技术 边缘云

Java进阶(九)正则表达式

No Silver Bullet

Java 正则表达式 9月月更

SQL 嵌套 N 层太长太难写怎么办?

jiangxl

一文带你认知定时消息发布RocketMQ

华为云开发者联盟

云计算 后端 华为云 企业号九月金秋榜

2022年中国新能源汽车用户体验指数(UEI)

易观分析

新能源汽车 UEI

当代用电行为大赏:有人心疼电费,有人靠屋顶光伏“理财”

白洞计划

VUE 如何格式化数字

HoneyMoose

[Go WebSocket] 单房间的聊天室

HullQin

Go golang 后端 websocket 9月月更

Chrome操作指南——入门篇(一)

Augus

Chrome开发者工具 9月月更

Amazon S3故障:服务水平协议能带来信任吗?_架构_Michael Bushe_InfoQ精选文章