写点什么

春运期间,基础平台如何应对高并发需求?

  • 2020-01-13
  • 本文字数:2178 字

    阅读完需:约 7 分钟

春运期间,基础平台如何应对高并发需求?

在阿里内部,春运被形容为“第二个双 11 活动”,也是头等重要的日子。


对于一年一度的周期性全国人口大迁徙,阿里云智能作为基础架构支撑平台,为 12306 网站,航空公司等客户提供稳定的技术保障,一起在架构上持续优化,应对高并发的购票需求。


2020 年春运比往年来得要早一些,1 月 10 日起动,将持续到 2 月 18 日,共计 40 天,随着智慧交通时代已来,春运是交通行业的高流量、高峰值场景。为了了解阿里云智能在交通领域的整体技术和实践与成果,我们采访了阿里云智能中国区大交通资深 SRE 架构师章君,就稳定性保障话题展开介绍。


章君介绍,阿里云智能的 SRE 和国外的 SRE 不一样,Google SRE 是指 Site Reliability Engineer (网站可靠性工程师),而在云计算环境下,可以解释为 Services Reliability Engineer(服务稳定性/可靠性工程师)。Engine 作为名词,表示“引擎”,引擎是飞机或者汽车上发动机的核心部分。Engineer 是引擎的工程师。阿里云智能的 SRE 团队作为服务团队有双重使命。对内,是驱动阿里云智能各个部门不断优化和前进的角色;对外,SRE 的使命是帮助客户用好云,围绕客户上云之后整个业务架构的稳定性去做基础建设,以业务为导向。


章君说,从网购车票开始之前,一些传统的客户在一年当中的流量有一定的高峰,但是网上购票之后,高并发体现的尤为突出,如何承载这样的需求比较关键。


解决这样的问题主要依靠三大核心能力:


洪峰承载能力:系统架构能力是否可以随时随地承接来自峰值的流量,除了能平稳承接,还要具备识别出不正常的流量,以至于不影响终端应用体验。


高可用能力:具有承载能力并不是万全之策,还需要具备解决异常情况的能力。比如在预测范围之内发生了不当的网络流量,如何对这些流量进行导流和切换,如何更快的收敛和风险控制。


数据安全保障能力:这也很重要,在业务安全方面,保证客户业务能够按照预期展开,比如说异常流量、恶意请求等预防。其次是平台安全,保证数据安全和客户信息安全,防止泄密、篡改等。


要做到这样的保障,需要什么样的能力?怎么去做?章君老师解释说,阿里云智能除了为客户提供计算能力,存储能力,网络能力和技术能力之外,还有一个是技术服务能力的输出,会根据客户的业务需求,全套或者按模块输出标准的高可用保障体系,叫做云上护航。


具体而言,就是阿里云智能在面向出行高峰,大促,晚会等大流量,高峰值情况下,为客户提供的合理规划弹性扩展、优化性能、安全可靠、抵御流量攻击、处理恶意请求、节点调度优化等技术能力,确保网络顺畅。


具体而言,提前和客户规划好当前业务目标是什么,大概需要资源范围,随后进行标准压测,在业务目标和当前的资源评估基础上做一些应急预案,举例:如果有超预期流量出现,阿里云智能底层的产品能力是秒级响应的,可以快速上线和快速进行计算能力和容量吸收,这是弹性伸缩能力。


在安全方面,通过高防能力抵御不正常请求,确保将不正常请求拒之门外。


网络场景上,现在 4G、5G 广泛应用,各个网络的集中点不一样,如果边缘节点出现了问题,系统如何通过智能调度选择一个更快的路径,快速的打开 APP、快速打开业务,这是核心能力的保障。



以业务流量图为例,第一层是边缘节点,可以快速打开图片和静态数据,同时可以做一些预热环境。第二层是接入层,会涉及到抵御,进行数据清洗,区分流量是否正常,对攻击行为进行拦截。正常流量会进入到网关层,这里面做了几件涉及到流量调度和容灾能力的事情,A 机房的流量出现问题会调到 B 机房,进行正常流量接收。


在服务层(应用层),有符合任何业务场景的弹性计算规格,例如对网络优化的,图形处理,内存比较高的等。


再往上是缓存层和数据层。缓存层要查询票务信息之类的,缓存对网络延迟要求比较高,保证稳定性。数据库的高可用上做到了自动化,可以根据数据的安全进行切换,按照数据进行调配。智能化运维也一样,跟前面类似,当缓存库出现问题的时候,会进行切换。


从整个业务场景来看,流量一层一层进来后是慢慢变小的,这是漏斗形过滤网,和客户一起从前期所有的业务做全链路评估、压测分析、输出方案、故障演练,在护航保障期间做专项监控和应急保障。为了让客户轻量化执行运维,阿里云智能将 SRE 服务标准化,客户会更聚焦于业务的战略和业务架构实现,不需要关心底层技术。比如资源编排,限流降级等客户在资源部署上可以实现了快速批量部署,快速配置,自动化限流等。


从稳定性本身来讲,春运保障方面是有一套标准流程 SOP,要识别客户的业务需求是什么,然后根据业务诉求制定目标,理清楚他的业务逻辑。举个例子,以秒杀为例,一定要清楚哪些是关键路径,哪些地方需要非常严格和标准的评估,梳理出整体的业务逻辑,还需要一套标准压测、流量评估、降级限流预案等方案体系。


需求和技术迭代之间既有矛盾,又是互相推动的,平衡点在于取舍之间。章老师说他们目前也处在探索过程,客户的需求流程不断变化,技术也在迭代,还有非常长的路要走。

嘉宾介绍:

章君(花名:辛达):阿里云智能中国区大交通资深 SRE 架构师。2012 年加入阿里云智能全球技术服务部-SRE-中国区大交通行业 TAM 团队负责人,主要对该行业客户的云上业务架构进行稳定性方案输出与建设。

活动推荐:

ArchSummit全球架构师峰会(深圳站)2020已经启动,精选 100+国内外专家技术实践落地案例,AIOps、微服务架构、数据中台、大前端趋势等等热门技术,欢迎自荐或推荐。


2020-01-13 14:543167
用户头像

发布了 182 篇内容, 共 107.3 次阅读, 收获喜欢 210 次。

关注

评论

发布
暂无评论
发现更多内容

C++类设计和实现的十大最佳实践

俞凡

c++ 最佳实践

2020最新版Java学习路线图--妈妈再也不用担心我误删数据库被开除了

爱好编程进阶

Java 程序员 后端开发

[Day31-03]-[二叉树] BST树中的众数

方勇(gopher)

LeetCode 数据结构和算法

[Day31-04]-[二叉树]二叉树的堂兄弟节点

方勇(gopher)

LeetCode 数据结构和算法

linux之秘钥登录

入门小站

Linux

在 ABAP 技术栈里实施 Continuous Integration 的一些挑战

汪子熙

DevOps 持续集成 abap 5月月更 持续优化

pinpoint插件开发之二:从零开始新建一个插件

程序员欣宸

Java 分布式 4月月更

nginx配置系列(三)日志配置

乌龟哥哥

4月月更

决战摸鱼之巅:将vscode撸成可局域网联机对战的moba平台

gamedilong

前端 vscode nodejs Node 摸鱼

2020面试官会经常问到的三个并发工具类,你都知道吗?

爱好编程进阶

程序员 后端开发

2021最新一次Java面试,快手三面一轮游,如今已拿意向书

爱好编程进阶

Java 程序员 后端开发

2021最新分享字节四面成功拿Offer!

爱好编程进阶

Java 程序员 后端开发

阿里架构师耗时 176 天整理出来的 Java 独家面试题(10 万字面试总结)

Java架构追梦

程序员 java面试 后端开发

关于人才的招聘的一些看法(31/100)

hackstoic

团队管理 招聘

网站开发进阶(一)Tomcat域名或IP地址访问配置详解

No Silver Bullet

tomcat 网站建设 5月月更

2021年九月最新Java面试必背八股文,338道最新大厂架构面试题

爱好编程进阶

Java 程序员 后端开发

架构实战营作业四

库尔斯

#架构实战营

GitOps指南

俞凡

DevOps gitops

vivo X80系列高端爆款之路:火把照耀在无人区

脑极体

手撕阿里 Spring 框架:AOP、IOC、注解、事务,带你统统拿下

Java架构追梦

Java spring 程序员

Gitea 的简单介绍

HoneyMoose

11-SpringSecurity:Session共享

爱好编程进阶

Java 程序员 后端开发

2021最强面试笔记非它莫属:3000字Java面试核心手册(大厂必备

爱好编程进阶

Java 程序员 后端开发

高精度在线计时器(秒表)

入门小站

工具

架构训练 模块4作业

小马

「架构实战营」

2020年底跳槽面试5家大厂,最后收获拼多多Java岗offer,分享三面总结!

爱好编程进阶

Java 程序员 后端开发

[Day32]-[二叉树]二叉树中的最大路径和

方勇(gopher)

LeetCode 二叉树 数据结构和算法

移动办公安全告急?融云 x 海泰方圆,给即时通讯加把「安全锁」

融云 RongCloud

Sentinel集群限流探索

艾小仙

sentinel 分布式限流 集群

在线Excel转JSON工具

入门小站

工具

Java 从一个 List 中删除 null 元素

HoneyMoose

春运期间,基础平台如何应对高并发需求?_技术管理_Xue Liang_InfoQ精选文章