PCon全球产品创新大会最新日程上线,这里直达 了解详情
写点什么

亚马逊、GitHub、Reddit 等全球性网站无法登陆,带火了一家云计算公司

  • 2021 年 6 月 15 日
  • 本文字数:1801 字

    阅读完需:约 6 分钟

亚马逊、GitHub、Reddit 等全球性网站无法登陆,带火了一家云计算公司

此次事件是由于美国云计算服务商 Fastly 当天发生了技术故障,从而导致大规模网站无法解析。


北京时间 6 月 8 日晚,据外媒报道,包括亚马逊、Reddit、Twitch、GitHub、eBay、Etsy、Pinterest 和 Stack Overflow 在内的多家全球性网站出现故障。其中影响最严重的是美国和欧洲的新闻媒体网站,例如《纽约时报》《卫报》《金融时报》《美国有线电视新闻网》《世界报》《纽约杂志》《纽约客》等。 


图片来源:rt.com


社交媒体方面,除了 Twitter 的表情包无法使用外,社交媒体网站相关功能并未受到影响。但由于受影响的网站平日承载的流量巨大,全球各地的人们开始在社交媒体上热议此事,都想知道究竟发生了什么。


事发原因找到了,系云服务商 Fastly 出故障


从社交媒体的反应来看,包括美国、英国、澳大利亚等来自世界各地的人们都报告了网站服务中断的消息,表明这是一个全球性的事件。


据彭博社消息,此次事件是由于美国云计算服务商 Fastly 当天发生了技术故障,从而引发的大规模网站无法解析问题。


Fastly 是美国一家基础设施软件和服务提供商,其主要业务是为企业提供内容分发服务,帮助终端用户并更加快速地获取、访问内容。


当天 9 时 58 分开始,Fastly 网站即进入问题诊断状态,其后多次更新时间状态。到 12 时 41 分,最新消息显示其已解决此问题,随着全球服务的回归,客户会遇到一段时间的负载增加,也就意味着网页(初次)加载缓慢。可以看到,从网站进入问题诊断状态到最终宣布问题解决,Fastly 花了接近 3 小时。 


图片来源:nbd.com


当前,受影响的英美媒体网站以及 Amazon、Reddit 等网站已经陆续恢复正常服务,Twitter 表情包也已经能够正常使用。而对于此事件,暂未有媒体报道黑客攻击的相关消息。


云厂商宕机常有,4 个 9 的安全性是否靠谱?


云厂商宕机故障,这些年一直不是什么新闻。


2019 年,3 月 2 日,阿里云疑似出现大规模故障情况,华北众多互联网公司发现服务器异常。当天晚些时候,阿里云回应称:华北 2 地域可用区 C 部分 ECS 实例状态异常,导致该区域众多网站和 APP 都无法正常使用。


2018 年 6 月 27 日,阿里云也曾出现重大技术故障,当天 16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。


2017 年 2 月 28 日,云计算巨头 AWS S3 故障,事件的起因是 AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的 S3 计费流程服务器移除,可是最终意外移除了大量服务器。被错误移除的服务其中运行着两套 S3 的子系统,从而导致 S3 不能正常工作,S3 API 处于不可用状态。


2017 年 3 月 22 日,微软云服务又一次出现宕机。Outlook、 Hotmail、 OneDrive、 Skype 和 Xbox Live 都出现了网络故障,全球用户都无法登录。


根据笔者统计,仅去年一年,全球主流云计算厂商就曾发生数十起宕机事故,众多安全事故频发,云厂商承诺的 99.99% 的安全可靠性是如何定义的?


熟悉云计算的读者都知道,业界常用 3 个 9、4 个 9,来计算每年的服务故障时间。头部互联网公司对他们的关键服务,通常提出的承诺是 4 个 9,也就是每年最多故障 53 分钟。


不久前,笔者曾就云服务的可靠性一事询问相关技术专家的看法,他表示,云计算厂商得出 99.99% 可靠性这一数字是经过验证的,通过客户部署反馈,确实故障率在 0.01% 以下。并且,一旦出现故障,云厂商也都有非常完善的容灾方案,目前主流云厂商已经在提供一定程度上的异构灾备能力,用户也可以自己搭建跨 DC 方案,技术上能够满足异构容灾需求。


如果客户追求极致容灾能力,有可能建设混合云或者采购多家云厂商,这就会带来很大的成本压力,但这种选择应该比较少,就好比对安全可靠性要求极高的金融数据库领域,也很少有客户同时选择两种数据库方案。


由此可以看出,对于安全性的衡量,不论是 3 个 9 还是 4 个 9 的安全性承诺,其实都需要云服务商的客户有一定的宕机容忍度。而且在具体出问题时,修复时间的长短还得就事论事。也就是说,云服务商承诺的安全性只是一个经过测试认证的达标值,并不是每次服务的水平下限。


但其实,相比上云,如今众多企业自己拥有服务器的成本会更高,并且安全性不如云服务商提供的服务来的优质。因此,对很多企业来说,上云与否已经不再是问题,而是如何选择更适合自身的云上服务 / 解决方案。

2021 年 6 月 15 日 16:143930
用户头像

发布了 73 篇内容, 共 17.7 次阅读, 收获喜欢 79 次。

关注

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布
暂无评论
发现更多内容

因为 Django ORM update,我今天差点「从删库到跑路」

AlwaysBeta

数据库 django 编程 程序员

设计模式总篇:从为什么需要原则到实际落地(附知识图谱)

Kerwin

Java 设计模式

week6 总结

不在调上

Docker网络学习第二篇-认识iptables

Lazy

Docker Linux 网络

秒懂云通信:通信圈黑话大盘点

阿里云Edge Plus

云通信 通信云

ARTS - Week 5

Khirye

ARTS 打卡计划

【计算机网络】你需要知道的链路层知识

烫烫烫个喵啊

计算机网络 链路层 交换机

Mybatis执行流程浅析(附深度文章推荐&面试题集锦)

Kerwin

Java mybatis

程序员的时间管理

Kerwin

程序员

redis系列之——一致性hash算法

诸葛小猿

redis 一致性hash redis集群

SpringBoot代码生成器

Kerwin

Java 开源

没内鬼,来点干货!volatile和synchronized

Kerwin

Java volatile synchronized

Web经典B/S快速开发框架,强大后台+简洁UI一体化开发工具

力软.net/java开发平台

C# .net 软件开发 web开发

简述 CAP 原理

不在调上

关于如何判断一个list是否为空的思考

Leetao

Python Python基础知识 列表

有朋自远方来 不亦说乎,请多关照哈

InfoQ_353bc6b96230

当我们在谈架构时,我们谈的是什么?

Winfield

架构 企业架构 系统架构

一张PDF了解JDK10 GC调优秘籍-附PDF下载

程序那些事

Java jdk JVM GC JDK10

Docker网络学习第一篇:Linux虚拟网络

Lazy

Docker Linux 网络

架构师训练营 - 第六周 - 作业

韩挺

Elasticsearch从入门到放弃:再聊搜索

Jackey

elasticsearch

疫情年逆风翻盘

Kerwin

程序员

6 个珍藏已久 IDEA 小技巧,这一波全部分享给你!

楼下小黑哥

Java IDEA

日记一则

progyoung

Java8——方法引用

Java旅途

java8 方法引用

nginx在重定向时端口出错的问题

烫烫烫个喵啊

nginx

没内鬼,来点干货!SQL优化和诊断

Kerwin

MySQL

Hello!GitHub 好用好玩值得收藏的开源项目集合~

Kerwin

开源

数据加工

阡陌r

纯CSS实现自定义单选框和复选框

爱嘤嘤嘤斯坦

CSS Java 编程语言 标签

开发框架文档体系化的思考

vivo互联网技术

框架开发

ShadowRealm 与微前端沙箱

ShadowRealm 与微前端沙箱

亚马逊、GitHub、Reddit 等全球性网站无法登陆,带火了一家云计算公司-InfoQ