写点什么

春运期间,基础平台如何应对高并发需求?

  • 2020-01-13
  • 本文字数:2178 字

    阅读完需:约 7 分钟

春运期间,基础平台如何应对高并发需求?

在阿里内部,春运被形容为“第二个双 11 活动”,也是头等重要的日子。


对于一年一度的周期性全国人口大迁徙,阿里云智能作为基础架构支撑平台,为 12306 网站,航空公司等客户提供稳定的技术保障,一起在架构上持续优化,应对高并发的购票需求。


2020 年春运比往年来得要早一些,1 月 10 日起动,将持续到 2 月 18 日,共计 40 天,随着智慧交通时代已来,春运是交通行业的高流量、高峰值场景。为了了解阿里云智能在交通领域的整体技术和实践与成果,我们采访了阿里云智能中国区大交通资深 SRE 架构师章君,就稳定性保障话题展开介绍。


章君介绍,阿里云智能的 SRE 和国外的 SRE 不一样,Google SRE 是指 Site Reliability Engineer (网站可靠性工程师),而在云计算环境下,可以解释为 Services Reliability Engineer(服务稳定性/可靠性工程师)。Engine 作为名词,表示“引擎”,引擎是飞机或者汽车上发动机的核心部分。Engineer 是引擎的工程师。阿里云智能的 SRE 团队作为服务团队有双重使命。对内,是驱动阿里云智能各个部门不断优化和前进的角色;对外,SRE 的使命是帮助客户用好云,围绕客户上云之后整个业务架构的稳定性去做基础建设,以业务为导向。


章君说,从网购车票开始之前,一些传统的客户在一年当中的流量有一定的高峰,但是网上购票之后,高并发体现的尤为突出,如何承载这样的需求比较关键。


解决这样的问题主要依靠三大核心能力:


洪峰承载能力:系统架构能力是否可以随时随地承接来自峰值的流量,除了能平稳承接,还要具备识别出不正常的流量,以至于不影响终端应用体验。


高可用能力:具有承载能力并不是万全之策,还需要具备解决异常情况的能力。比如在预测范围之内发生了不当的网络流量,如何对这些流量进行导流和切换,如何更快的收敛和风险控制。


数据安全保障能力:这也很重要,在业务安全方面,保证客户业务能够按照预期展开,比如说异常流量、恶意请求等预防。其次是平台安全,保证数据安全和客户信息安全,防止泄密、篡改等。


要做到这样的保障,需要什么样的能力?怎么去做?章君老师解释说,阿里云智能除了为客户提供计算能力,存储能力,网络能力和技术能力之外,还有一个是技术服务能力的输出,会根据客户的业务需求,全套或者按模块输出标准的高可用保障体系,叫做云上护航。


具体而言,就是阿里云智能在面向出行高峰,大促,晚会等大流量,高峰值情况下,为客户提供的合理规划弹性扩展、优化性能、安全可靠、抵御流量攻击、处理恶意请求、节点调度优化等技术能力,确保网络顺畅。


具体而言,提前和客户规划好当前业务目标是什么,大概需要资源范围,随后进行标准压测,在业务目标和当前的资源评估基础上做一些应急预案,举例:如果有超预期流量出现,阿里云智能底层的产品能力是秒级响应的,可以快速上线和快速进行计算能力和容量吸收,这是弹性伸缩能力。


在安全方面,通过高防能力抵御不正常请求,确保将不正常请求拒之门外。


网络场景上,现在 4G、5G 广泛应用,各个网络的集中点不一样,如果边缘节点出现了问题,系统如何通过智能调度选择一个更快的路径,快速的打开 APP、快速打开业务,这是核心能力的保障。



以业务流量图为例,第一层是边缘节点,可以快速打开图片和静态数据,同时可以做一些预热环境。第二层是接入层,会涉及到抵御,进行数据清洗,区分流量是否正常,对攻击行为进行拦截。正常流量会进入到网关层,这里面做了几件涉及到流量调度和容灾能力的事情,A 机房的流量出现问题会调到 B 机房,进行正常流量接收。


在服务层(应用层),有符合任何业务场景的弹性计算规格,例如对网络优化的,图形处理,内存比较高的等。


再往上是缓存层和数据层。缓存层要查询票务信息之类的,缓存对网络延迟要求比较高,保证稳定性。数据库的高可用上做到了自动化,可以根据数据的安全进行切换,按照数据进行调配。智能化运维也一样,跟前面类似,当缓存库出现问题的时候,会进行切换。


从整个业务场景来看,流量一层一层进来后是慢慢变小的,这是漏斗形过滤网,和客户一起从前期所有的业务做全链路评估、压测分析、输出方案、故障演练,在护航保障期间做专项监控和应急保障。为了让客户轻量化执行运维,阿里云智能将 SRE 服务标准化,客户会更聚焦于业务的战略和业务架构实现,不需要关心底层技术。比如资源编排,限流降级等客户在资源部署上可以实现了快速批量部署,快速配置,自动化限流等。


从稳定性本身来讲,春运保障方面是有一套标准流程 SOP,要识别客户的业务需求是什么,然后根据业务诉求制定目标,理清楚他的业务逻辑。举个例子,以秒杀为例,一定要清楚哪些是关键路径,哪些地方需要非常严格和标准的评估,梳理出整体的业务逻辑,还需要一套标准压测、流量评估、降级限流预案等方案体系。


需求和技术迭代之间既有矛盾,又是互相推动的,平衡点在于取舍之间。章老师说他们目前也处在探索过程,客户的需求流程不断变化,技术也在迭代,还有非常长的路要走。

嘉宾介绍:

章君(花名:辛达):阿里云智能中国区大交通资深 SRE 架构师。2012 年加入阿里云智能全球技术服务部-SRE-中国区大交通行业 TAM 团队负责人,主要对该行业客户的云上业务架构进行稳定性方案输出与建设。

活动推荐:

ArchSummit全球架构师峰会(深圳站)2020已经启动,精选 100+国内外专家技术实践落地案例,AIOps、微服务架构、数据中台、大前端趋势等等热门技术,欢迎自荐或推荐。


2020-01-13 14:543206
用户头像

发布了 183 篇内容, 共 109.4 次阅读, 收获喜欢 210 次。

关注

评论

发布
暂无评论
发现更多内容

【避坑指南】快准狠!一键采购电子元器件

华秋PCB

工具 元器件 PCB PCB设计

报告下载 | DQMIS高端闭门论坛成果报告——《2022第六届数据质量管理国际峰会关于数据要素发展几点看法和建议》

数据质量管理智库

数据 数据治理 数据安全 隐私计算 数据要素

不会数学的程序员,只能走到初级开发工程师!

小傅哥

Java 数据结构 算法 数学 小傅哥

易观千帆 | 11月用户体验GX评测:银行APP用户体验稳定提升,从流量竞争逐渐转向用户体验竞争

易观分析

用户体验 手机银行

TracedModule: 更友好的模型表示方案,模型训练到部署的桥梁

MegEngineBot

深度学习 开源 MegEngine 模型训练到部署

诠释现代美学设计,TECNO首款笔记本电脑MEGABOOK T1重磅来袭!

极客天地

软件测试/测试开发 | 使用 cURL 发送请求

测试人

软件测试 自动化测试 curl 测试开发

【iOS逆向与安全】系统推送服务(APNS)拦截

小陈

安卓 ios开发 逆向 iOS逆向 ios安全

用 Pipy 做个 HTTP 隧道

Flomesh

HTTP Pipy 流量管理

震网(Stuxnet)病毒深度解析:首个攻击真实世界基础设施的病毒

华为云开发者联盟

安全 后端 华为云 企业号 1 月 PK 榜 震网

从指标到洞察力的普罗米修斯

宋小生

Prometheus 普罗米修斯 普罗米修斯监控

软件测试/测试开发 | 接口测试之HTTP、HTTPS 抓包分析

测试人

https 软件测试 HTTP 自动化测试 测试开发

电商秒杀系统架构设计

小虎

架构训练营

数据库故障致美国超一万航班取消或延迟

NineData

数据库 运维 数据库开发 数据备份 数据系统

百度安全入选权威报告《联邦学习与可信AI市场机会分析》典型厂商

百度安全

ChatGPT中文版重装上阵

felix

openai ChatGPT AIMODELMARKET

认识区块链,认知区块链——Web3

MavenTalker

区块链 web3

EMQ受邀出席华为云Top SaaS领航者私享会,共话SaaS企业发展未来

EMQ映云科技

物联网 IoT 华为云 emq 企业号 1 月 PK 榜

软件测试/测试开发 | 接口测试常用代理工具

测试人

软件测试 自动化测试 接口测试 charles 测试开发

重磅发布 | 博睿数据发布金融行业精选客户案例集

博睿数据

可观测性 智能运维 博睿数据 精选案例

Databend 内幕大揭秘第一弹 - minibend 简介

Databend

rust

软件测试/测试开发 | 使用postman发送请求

测试人

软件测试 Postman 自动化测试 接口测试 测试开发

跳跃表数据结构与算法分析

京东科技开发者

redis 算法 跳跃表; 数据结构算法 企业号 1 月 PK 榜

稳定支撑千万级月活,华为日历背后的英雄

华为云开发者联盟

数据库 后端 华为云 企业号 1 月 PK 榜

秒杀系统架构设计

Johnny

「架构实战营」

log4j 默认配置文件

JefferLiu

直播|镜舟 x Smartbi《后疫情下如何利用数据驱动企业逆势破局》

镜舟科技

数据库 镜舟数据库

书单 | 春节假期,我想把这几本书带回家!

博文视点Broadview

YonBuilder 应用构建教程之移动端扩展

YonBuilder低代码开发平台

【深入浅出Spring原理及实战】「源码调试分析」结合DataSourceRegister深入分析ImportBeanDefinitionRegistrar的源码运作流程

码界西柚

spring Spring Framework

春运期间,基础平台如何应对高并发需求?_技术管理_Xue Liang_InfoQ精选文章