AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

国内酒店稳定性治理实践之缓存治理

  • 2021-01-19
  • 本文字数:1957 字

    阅读完需:约 6 分钟

国内酒店稳定性治理实践之缓存治理

背景


我们连续遇到几次与缓存相关的故障:


1、DBA 运维失误,导致我们存储在 redis 里的核心基础数据被清空。由于无法正常提供报价,出现 ATP(订单量骤降)故障,之后通过定时任务花费半个小时将数据写回 redis,故障恢复。

2、PC 端爬虫流量进入后端,应用的 redis 连接池被打满,大量同步的 redis 请求都等待 500ms 获取连接,导致应用的 tomcat 线程池被打满,服务被拖死,无法正常提供 PC 端业务,而 redis server 端当时还完全没压力。


类似与缓存相关的故障还有不少,这里就不一一列举了。在对故障进行 review 时,我们意识到有不少核心场景都使用了 redis 缓存作为核心依赖和存储,同时这些场景我们并没有对 redis 可能出现的问题进行预防和处理。


由于我们的核心业务重度依赖 redis,为了不让类似的故障重复上演,也希望在故障前做好准备和预防,我们对缓存进行了专项的治理。


治理方案


1、高可用治理:这项是最重要的,但是和 redis 本身的高可用部署是无关的,核心出发点是业务的高可用指标不应该完全依赖于使用的组件,组件出故障不代表业务也跟着故障。


首先,建议快速恢复。通常这种方案更适用于有基础数据集的,通过定时任务或者手动触发接口,在短时间内完成对数据的清洗,清洗时考虑优先恢复热点数据。这里的短时间,我们期望是能影响 ATP 的场景在 2min 内完成,对用户体验有影响的允许在 10min 内完成。


其次,考虑对核心数据做多副本。核心的业务场景可以考虑将数据缓存到 redis 不同 namespace 集群中或多个缓存组件中(redis+tair、redis+memory),这样挂掉一个时可以通过切换到备用的缓存来快速恢复。



之后,考虑手动降级。不走缓存,或替换为其他通道。这里优先考虑无损降级的方式,必要的时候可以考虑有损降级。



最后,我们还发现系统里存在”A 应用写,B、C 应用读“的情况,这种需要上下游一起沟通最终的方案,并且推荐使用快速恢复,使用方可根据需要做些额外的准备。


2、参数调优:这里主要指对 redis 使用配置的时间及线程数的优化。


根据监控我们发现:绝大部分场景下,通过 redis 读取和更新缓存的时间都是几毫秒左右(含连接时间)。实际中很多场景 redis 的使用都忽略了这些参数的合理配置,并且发现很多都是复制的某年的某个例子的几百毫秒。


针对这种情况,我们要求对应用里每个 redis 的配置都做好检查及合理化配置。


3、补充一些治理的细节


1)memcache 替换为 redis:redis 组件相比 memcache 好处就不多说了,主要是将缓存的运维统一都交给公司 DBA。

2)统一配置文件格式:目前很多系统线上有很多配置文件,找起来很麻烦,故障时要能快速找到对应的配置。

3)完善监控:保证每个业务场景对 redis 的调用量级和时间(含异常的量级和时间)都能在监控系统找到。


治理过程


1、梳理核心场景使用的缓存。主要整理涉及缓存的核心场景、故障时影响、数据量级等。

2、确定整体治理方案。先有了大致方案后,然后组内各个系统负责人一起 review 方案细节,将忽略的细节补充到整体方案中。这个和梳理可以并行,在梳理完成后确定最终的治理方案。

3、review 各个场景治理细节。开发、应用负责人、qa 负责人一起 review 每个场景的治理细节,并且明确标准。

4、按照每个场景讨论确定的治理方案进行开发、自测。过程中如果发现方案有问题,可讨论修改,按新方案执行。

5、开发过程中整理故障场景方案及应用维度的应急手册。

6、提测及测试。开发要再次跟 qa 说明治理的场景及方案,qa 根据整理的手册进行验证,同时在 beta 环境演练。

7、上线及制作监控面板。代码上线后,将相关监控按照应用维度制作监控面板,方便日常演练和故障时快速查看。

8、线上演练。在业务低峰时间段,对应急手册里的调整在线上进行验证,对有问题的点进行改进,并找时间继续演练,直至达到预期。


成果与总结


目前,组里大部分的 P1 系统都完成了缓存治理及演练,共花费 60 多个人日,过程中参与的开发人员对 redis 的很多细节做了深入学习,加深了对 redis 的理解。


缓存治理开始时的梳理加深了组内人员对系统的理解,产出的 wiki 对其他同学及新同学很有帮助。


缓存治理产出的监控面板,对日常巡检和故障时快速定位很有帮助。


缓存治理产出的应急手册,在面对实际故障时,能极大的减少故障持续的时间。


值得特别说明的是,近期基础数据组 DB 里酒店图片数据意外被脏写,间接导致我们 redis 里的数据被脏写(这部分数据是用户触发的)。在 DB 里数据恢复正常后,我们借助预留的降级手段,直接调整开关为调用 dubbo 接口获取基础服务 DB 里的图片数据,故障在操作后 1min 内恢复。


头图:Unsplash

作者:郑吉敏

原文:https://mp.weixin.qq.com/s/eMHsutVlfX7CVGx4hjdCQg

原文:国内酒店稳定性治理实践之缓存治理

来源:Qunar 技术沙龙 - 微信公众号 [ID:QunarTL]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

2021-01-19 23:321609

评论

发布
暂无评论
发现更多内容

用友协办国有资本投资运营公司第八次圆桌会议, 展示数智国资发展新路径

用友BIP

国资国企数智化转型

浅析财务共享各阶段面临的挑战

用友BIP

财务共享

专业解读财务共享实现财务数智化转型的有效路径

用友BIP

财务共享

国内半导体分立器件逐步向高端应用市场推进,未来可期

华秋电子

太香了!Alibaba内部架构师进阶指南,理论+实践双飞

做梦都在改BUG

Java 架构

软件测试 | 软件需求的层次

测吧(北京)科技有限公司

测试

SpringBoot 实现启动项目后立即执行方法的几种方式

Java你猿哥

源码 jdk Spring Boot ssm

开发敏捷高效 | 云原生应用开发与运维新范式

CODING DevOps

DevOps 云原生 CODING DevOps 开发运维 敏捷高效

如何通过财务共享推进财务精细化管理

用友BIP

财务共享

秒杀系统常见问题—如何避免库存超卖?

做梦都在改BUG

秒杀系统 电商超卖

Github上星标55.9k的微服务神仙笔记真的太香了

做梦都在改BUG

Java 架构 微服务 Spring Cloud 设计模式

JVM—解析运行期优化与JIT编译器

做梦都在改BUG

Java JVM JIT

厦门狄耐克:助推智慧医疗,需要夯实自身的技术底座

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

软件测试的误解有哪些?

测吧(北京)科技有限公司

测试

500行代码代码手写docker-将rootfs设置为只读镜像

蓝胖子的编程梦

Docker 云原生 k8s #k8s Docker 镜像

如何将千亿文件放进一个文件系统,EuroSys'23 CFS 论文背后的故事

Baidu AICLOUD

文件存储 元数据

深入浅出微服务:40个微服务架构实战案例(Dubbo+Springcloud)

做梦都在改BUG

Java 微服务 Spring Cloud

四川师范大学何云:事项法会计从五大方面助力企业创造价值

用友BIP

智能会计 价值财务 事项法会计

阿里全新推出:微服务突击手册,把所有操作都写出来了|超清PDF

Java你猿哥

Java spring Spring Cloud ssm Ribbon

跪了!Alibaba内部优质Springboot笔记:两大项目实战+源码解析

做梦都在改BUG

Java spring 微服务 Spring Boot 框架

用友与临港集团签署战略合作协议

用友BIP

国资国企数智化转型

惊喜!华秋DFM软件升级,新功能让你爱不释手

华秋电子

更快速、更高效的键盘操作方式尽在Superkey Mac版~

真大的脸盆

Mac Mac 软件 键盘增强软件

低代码平台简介(10家国产化低代码平台详细介绍)

优秀

低代码开发平台 低代码平台

属实不赖!Alibaba开源GitHub星标114K微服务架构全彩进阶手册

Java你猿哥

Java 架构 微服务 微服务架构 ssm

华为云CodeArts Snap 智能编程助手PyCharm插件安装与使用指南

华为云PaaS服务小智

编码 插件 智能编程

太牛了!腾讯T9耗时69天整理出最全架构师进阶核心知识点笔记

做梦都在改BUG

Java

5000 字手把手实战|Kubernetes+极狐GitLab CI,获得极致 CI/CD 体验

极狐GitLab

Kubernetes DevOps 微服务 k8s CI/CD

软件测试的分类

测吧(北京)科技有限公司

测试

池州控股集团财务共享项目启动啦!

用友BIP

财务共享

国内酒店稳定性治理实践之缓存治理_语言 & 开发_Qunar技术沙龙_InfoQ精选文章