NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

春运期间,基础平台如何应对高并发需求?

  • 2020-01-13
  • 本文字数:2178 字

    阅读完需:约 7 分钟

春运期间,基础平台如何应对高并发需求?

在阿里内部,春运被形容为“第二个双 11 活动”,也是头等重要的日子。


对于一年一度的周期性全国人口大迁徙,阿里云智能作为基础架构支撑平台,为 12306 网站,航空公司等客户提供稳定的技术保障,一起在架构上持续优化,应对高并发的购票需求。


2020 年春运比往年来得要早一些,1 月 10 日起动,将持续到 2 月 18 日,共计 40 天,随着智慧交通时代已来,春运是交通行业的高流量、高峰值场景。为了了解阿里云智能在交通领域的整体技术和实践与成果,我们采访了阿里云智能中国区大交通资深 SRE 架构师章君,就稳定性保障话题展开介绍。


章君介绍,阿里云智能的 SRE 和国外的 SRE 不一样,Google SRE 是指 Site Reliability Engineer (网站可靠性工程师),而在云计算环境下,可以解释为 Services Reliability Engineer(服务稳定性/可靠性工程师)。Engine 作为名词,表示“引擎”,引擎是飞机或者汽车上发动机的核心部分。Engineer 是引擎的工程师。阿里云智能的 SRE 团队作为服务团队有双重使命。对内,是驱动阿里云智能各个部门不断优化和前进的角色;对外,SRE 的使命是帮助客户用好云,围绕客户上云之后整个业务架构的稳定性去做基础建设,以业务为导向。


章君说,从网购车票开始之前,一些传统的客户在一年当中的流量有一定的高峰,但是网上购票之后,高并发体现的尤为突出,如何承载这样的需求比较关键。


解决这样的问题主要依靠三大核心能力:


洪峰承载能力:系统架构能力是否可以随时随地承接来自峰值的流量,除了能平稳承接,还要具备识别出不正常的流量,以至于不影响终端应用体验。


高可用能力:具有承载能力并不是万全之策,还需要具备解决异常情况的能力。比如在预测范围之内发生了不当的网络流量,如何对这些流量进行导流和切换,如何更快的收敛和风险控制。


数据安全保障能力:这也很重要,在业务安全方面,保证客户业务能够按照预期展开,比如说异常流量、恶意请求等预防。其次是平台安全,保证数据安全和客户信息安全,防止泄密、篡改等。


要做到这样的保障,需要什么样的能力?怎么去做?章君老师解释说,阿里云智能除了为客户提供计算能力,存储能力,网络能力和技术能力之外,还有一个是技术服务能力的输出,会根据客户的业务需求,全套或者按模块输出标准的高可用保障体系,叫做云上护航。


具体而言,就是阿里云智能在面向出行高峰,大促,晚会等大流量,高峰值情况下,为客户提供的合理规划弹性扩展、优化性能、安全可靠、抵御流量攻击、处理恶意请求、节点调度优化等技术能力,确保网络顺畅。


具体而言,提前和客户规划好当前业务目标是什么,大概需要资源范围,随后进行标准压测,在业务目标和当前的资源评估基础上做一些应急预案,举例:如果有超预期流量出现,阿里云智能底层的产品能力是秒级响应的,可以快速上线和快速进行计算能力和容量吸收,这是弹性伸缩能力。


在安全方面,通过高防能力抵御不正常请求,确保将不正常请求拒之门外。


网络场景上,现在 4G、5G 广泛应用,各个网络的集中点不一样,如果边缘节点出现了问题,系统如何通过智能调度选择一个更快的路径,快速的打开 APP、快速打开业务,这是核心能力的保障。



以业务流量图为例,第一层是边缘节点,可以快速打开图片和静态数据,同时可以做一些预热环境。第二层是接入层,会涉及到抵御,进行数据清洗,区分流量是否正常,对攻击行为进行拦截。正常流量会进入到网关层,这里面做了几件涉及到流量调度和容灾能力的事情,A 机房的流量出现问题会调到 B 机房,进行正常流量接收。


在服务层(应用层),有符合任何业务场景的弹性计算规格,例如对网络优化的,图形处理,内存比较高的等。


再往上是缓存层和数据层。缓存层要查询票务信息之类的,缓存对网络延迟要求比较高,保证稳定性。数据库的高可用上做到了自动化,可以根据数据的安全进行切换,按照数据进行调配。智能化运维也一样,跟前面类似,当缓存库出现问题的时候,会进行切换。


从整个业务场景来看,流量一层一层进来后是慢慢变小的,这是漏斗形过滤网,和客户一起从前期所有的业务做全链路评估、压测分析、输出方案、故障演练,在护航保障期间做专项监控和应急保障。为了让客户轻量化执行运维,阿里云智能将 SRE 服务标准化,客户会更聚焦于业务的战略和业务架构实现,不需要关心底层技术。比如资源编排,限流降级等客户在资源部署上可以实现了快速批量部署,快速配置,自动化限流等。


从稳定性本身来讲,春运保障方面是有一套标准流程 SOP,要识别客户的业务需求是什么,然后根据业务诉求制定目标,理清楚他的业务逻辑。举个例子,以秒杀为例,一定要清楚哪些是关键路径,哪些地方需要非常严格和标准的评估,梳理出整体的业务逻辑,还需要一套标准压测、流量评估、降级限流预案等方案体系。


需求和技术迭代之间既有矛盾,又是互相推动的,平衡点在于取舍之间。章老师说他们目前也处在探索过程,客户的需求流程不断变化,技术也在迭代,还有非常长的路要走。

嘉宾介绍:

章君(花名:辛达):阿里云智能中国区大交通资深 SRE 架构师。2012 年加入阿里云智能全球技术服务部-SRE-中国区大交通行业 TAM 团队负责人,主要对该行业客户的云上业务架构进行稳定性方案输出与建设。

活动推荐:

ArchSummit全球架构师峰会(深圳站)2020已经启动,精选 100+国内外专家技术实践落地案例,AIOps、微服务架构、数据中台、大前端趋势等等热门技术,欢迎自荐或推荐。


2020-01-13 14:542912
用户头像

发布了 161 篇内容, 共 71.2 次阅读, 收获喜欢 196 次。

关注

评论

发布
暂无评论
发现更多内容

奈学教育《百万架构师》课程大纲

奈学教育

极客大学架构师训练营

8行代码的21问题: 如何有效Code Review?

zzj8704

Code Review 代码规范 可测性 CR常见规则 结构化CR

当教育遇上区块链,会擦出什么样的火花?

CECBC

区块链技术 去中心化 防篡改 教育资源共享

瓷都景德镇牵手蚂蚁区块链,重塑非遗陶瓷产业

CECBC

区块链技术 溯源 防篡改 景德镇 非遗

【架构师训练营 - 周总结 -3】设计模式、重构

小动物

总结 极客大学架构师训练营 第三周

架构师训练营第 3 周 _ 学习总结

方舟勇士

课程总结

架构师训练营Week03

Frank Zeng

架构师训练营第 3 周——学习总结

在野

极客大学架构师训练营

第三周作业

戴维斯

极客大学架构师训练营

中心化是人性,去中心化是技术

CECBC

区块链技术 去中心化 超级节点

【架构师训练营 - 作业 -3】组合模式

小动物

极客大学架构师训练营 作业 第三周

第三周作业

芒夏

极客大学架构师训练营

奈学教育《百万架构师》课程大纲

古月木易

极客大学架构师训练营

【week03】作业1

chengjing

第三周总结

andy

从单机事务到分布式事务

ElvinYang

奈学教育《大数据开发工程师》课程大纲

古月木易

大数据

第三周作业

andy

架构师训练营第三周课后作业

竹森先生

极客大学架构师训练营

大白话Java多线程,小白都能看的懂的哦

java金融

Java 多线程 线程安全 创建线程方式 什么是多线程

用于可视化软件体系结构的C4模型(转载)

清风徐徐

元年云“宽能力”拓宽成长型企业数字化升级之路

人称T客

week3 学习总结

不在调上

极客大学架构师训练营

到底是什么让IT人如此苦逼???

纯洁的微笑

程序员 程序人生

有益思考一则:概率与格局

石君

思考 思维方式 格局

【week03】总结

chengjing

week3 作业& 手撕单例模式

不在调上

万恶的NPE差点让我半个月工资没了

java金融

Java 程序员 互联网 NPE 空指针

单例和组合模式

陈皮

Tweak原理与越狱防护

冯选刚

代码重构练习三

极客李

春运期间,基础平台如何应对高并发需求?_技术管理_Lucien_InfoQ精选文章