GMTC 全球大前端技术大会 8 折涨价倒计时 2 天,现在购票立减 ¥960 ! 了解详情
写点什么

Azure 步上了阿里云、腾讯云的“后尘”:这波流量太猛,扛不住了

2020 年 3 月 30 日

Azure步上了阿里云、腾讯云的“后尘”:这波流量太猛,扛不住了

随着疫情的不断蔓延,每个 IT 大厂都躲不过“流量突增”这一道题。


3 月 28 日,微软在官方博客发文,透露了随着全球疫情的不断蔓延,当前 Microsoft Azure 的使用情况。


  • 在执行隔离措施的地区,Azure 云服务的需求增加了 775%;

  • Teams(微软提供的协作软件)的使用率显著增加,每天有超过 4400 万用户使用,在过去的一周内,用户平均每天产生的会议和通话超过 9 亿次;

  • Windows 虚拟桌面使用率增长了 3 倍以上;

  • 政府使用 Power BI 共享数据的 COVID-19 仪表板,在过去一周增加了 42%;


多名用户吐槽 Azure 无法正常使用,Azure 疑似容量不足

3 月 24 日,宕机追踪网站 Down Detector 报告了 Azure 英国地区的多个问题,不过,在官方的 Azure 页面显示是全部正常的。当然,无法提供资源不能算是中断,但也会给用户造成困扰,毕竟在备用 Azure 区域中,创建服务不一定是可行的,某些资源必须是在同一区域内创建,才能正常工作。



Azure 中断似乎主要与容量有关


除了 Down Detector 报告,我们也看到了多位用户吐槽自己的 Azure 服务不能正常使用了。


一位用户在 Twitter 上发文称,“Azure 似乎已经满了!”根据推文的配图来看,他正在尝试为 WVD 分配 VM,从命名 WVD-TEST-0 来看,这似乎是个测试部署,结果出现了错误,错误提示分配失败,该地区没有足够的容量来容纳请求的 VM 大小。该地区位于英国南部。



另外一位用户也发文称:“我昨天使用的虚拟机,今天已经无法启动了,Azure Functions 也无法正常触发了。”


有用户解释称:“Azure Functions 虽然是 Serverless,但是从用户角度来看,仍然需要启动一个 VM 来运行该功能,因此无法摆脱容量问题。与无法提供新资源相比,现有资源的不可靠性可能是一个更为严重的问题。”


微软回复容量不足:会限制,但并未中断服务

针对激增的流量,微软也做出了部分回应,并称流量的增长不会对 Azure 产生负面影响。


为了应对容量不足的问题,微软采取了一些临时限制措施,限制了免费提供,优先考虑现有客户,对于新订阅的某些资源也做了限制。用户可以提出支持请求来增加容量,在不能满足请求的情况下,微软建议用户使用需求量较少的替代区域,同时微软也会在某些地区增加新的产能。


至于是否中断服务,微软回应称:“尽管需求显著增加,但我们并未出现任何重大服务中断。由于上周使用量激增,我们在某些地区(欧洲北部,欧洲西部,英国南部,法国中部,亚洲东部,印度南部,巴西南部)遇到了巨大需求,目前我们也在观察在这些地区计算资源类型部署成功率低于 99.99% 的情况。”


“目前大部分部署仍然是可以成功的,如果用户多次收到了分配失败的提醒,我们也有相应的解决策略。我们把这些短期分配不足视为服务事件,会通过 Azure Service Health 向受影响的客户发送有针对性的更新和缓解指导。”


疫情冲击,Facebook、Netflix、YouTube 纷纷降低画质

受疫情影响,流量突增的不只是微软 Azure,视频网站也有同样的经历。为了应对这一情况,多家拥有视频业务的企业都选择了降低视频画质。


3 月 19 日,Netflix 发表声明称:在确保为会员提供优质服务的前提,将欧洲地区的视频内容码率降低 1/4。视频内容码率的降低意味着视频的清晰度会随之降低。


3 月 20 日,YouTube 发布声明称:虽然到目前为止,YouTube 上用量高峰的出现次数并不是很多,但为了减少系统压力,YouTube 还是决定采取措施,暂时将欧盟地区 (以及英国) 的所有默认清晰度设置为标准清晰度,实施期限为 30 天,之后会依据情况随时调整。


3 月 22 日,迪士尼宣布:将于 3 月 24 日开始,降低整个欧洲地区的视频码率,以帮助在疫情期间控制互联网流量。


3 月 24 日,根据外媒报道,为了缓解网络拥堵,Facebook 将在拉丁美洲范围内,降低其社交媒体平台上(包括 Facebook 和 Instagram)的视频清晰度,此前 Facebook 已经宣布在欧洲采取了这个做法。


流量突增这道题,国内是怎么答的?

因疫情原因导致流量突增,这道题国内企业也写了,他们的答案是什么呢?扩容!


我们以钉钉和腾讯会议为例,讲讲他们的解题过程。


据了解,春节之后,超过 1000 万组织和 2 亿的上班族、5000 万学生通过钉钉在线开工和学习。2 月 3 号在线开工, 2 月 10 号全国中小学在线开学, 2 月 17 号全面复工复学,钉钉每周的流量都是前一周的 N 倍。


据了解,钉钉超预期的流量增加不是 3 倍、或 10 倍,而是 20 倍、上百倍,部分应用系统甚至达到了百倍以上。为了保障登录、消息收发等核心系统的通畅,钉钉对部分上下游系统实施流控的手段。并同时进行了全力扩容,据了解目前钉钉已连续在阿里云扩容 10 万多台云服务器。


同样的流量增长也发生在了腾讯会议。当企业还没复工的时候,腾讯以为流量增长可能只是十倍或者百倍,复工一两天之后,他们发现每天都是十倍十倍的增长,即使后来流量已经很高了,可仍旧在“翻倍”。


为了支持这么大的流量,从 1 月 29 日开始到 2 月 6 日,腾讯会议每天都在进行资源扩容,日均扩容云主机接近 1.5 万台,8 天总共扩容超过 10 万台云主机,共涉及超百万核的计算资源投入。


2020 年 3 月 30 日 15:383709
用户头像
田晓旭 InfoQ 编辑

发布了 477 篇内容, 共 218.9 次阅读, 收获喜欢 1500 次。

关注

评论 1 条评论

发布
用户头像
哈哈,我这边策划的下一期主题就是「高可用架构之流量洪峰」
2020 年 03 月 31 日 15:36
回复
没有更多了
发现更多内容

消息疯狂堆积!RocketMQ出Bug了?

Edison

RocketMQ 中间件

2.1.2 类加载器的工作原理与自定义加载器 -《SSM深入解析与项目实战》

谙忆

learn go with tests 学习笔记(七)反射

半亩房顶

golang 反射 golang新手

政策加持迎来区块链技术应用“红利期”

CECBC区块链专委会

疫情之年 下半年区块链应用落地会加速么?

CECBC区块链专委会

区块链 场景应用落地

我是如何参与硅谷顶级开源项目并赚得2500美金

阿水

硅谷 Minio

你为什么还在用存储过程?

架构师修行之路

数据库设计 架构设计

真正的勇士,会跨过六道裂谷,奔向云与AI的彼端

脑极体

List 和 Map 的排序

方明

Java

learn go with tests 学习笔记(五)并发

半亩房顶

golang golang新手

零代码/无代码 vs 低代码 如何分类?如何区别?到底有什么不同?分析超过20款零代码低代码产品

代码制造者

编程 低代码 行业资讯 零代码

ARTS Week8

丽子

Executor看不懂?教你如何盘它

Edison

线程池 后端开发

数据采集能力受限?企业数字化运营如何迈出第1步

易观大数据

关于微服务架构思考

Arthur

话题讨论 | 特朗普正式封禁微信,iPhone 和微信二选一?

InfoQ写作平台官方

写作平台 话题讨论

以区块链为基础 通证经济是下一代互联网的数字经济

CECBC区块链专委会

区块链 落地应用

《effective-go》 学习笔记

半亩房顶

golang

nested exception is java.lang.IllegalStateException: refreshAfterWrite requires a LoadingCache异常解决

谙忆

原来你是这样的B+树

Java技术宝典

B+树

DevOps 技术栈

柴锋

Linux DevOps 运维 敏捷 Shell

MySQL事物-学习笔记

Edison

MySQL 数据库 数据库事务

LeetCode题解:24. 两两交换链表中的节点,递归,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

500行代码写一个俄罗斯方块游戏

程序员生活志

踩坑记 | Flutter升级影响了NestedScrollView?

哈利迪

android

从数据中台到AI中台,企业到底要建什么中台?

脑极体

Python爬取微信公众号文章保存到数据库

wjchenge

用户体验(UX)设计≠用户界面(UI)设计

刘华Kenneth

敏捷 设计 UX 用户体验

RocketMQ源码解析-开篇

Edison

RocketMQ 中间件

learn go with tests 学习笔记(六)进程同步

半亩房顶

golang golang新手

“啰嗦”是成事唯一正确的方法

霍太稳@极客邦科技

团队管理 个人成长 团队协作 沟通

Azure步上了阿里云、腾讯云的“后尘”:这波流量太猛,扛不住了-InfoQ