一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

2019 年 12 月 19 日

一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理


服务端问题排查对开发而言是家常便饭,问题并不可怕但要花大量时间去处理;另一方面故障的快速解决至关重要。


目前问题排查最大的障碍是什么呢?我们认为有以下几个原因:


  • 大量的告警信息。

  • 链路的复杂性。

  • 排查过程繁复。

  • 依赖经验。


实际工作中的排查思路并非无迹可寻,排查思路和手段可以沉淀出一套经验模型。


沉淀路径


下面是我的订单列表的简单抽象,其执行过程是先拿到我买到的订单列表。订单列表中又用到了卖家,商品以及店铺信息服务,每个服务又关联着单次请求中提供服务对应的主机信息。



以线上常见的服务超时为例,上图中因为 127.123.12.12 这台机器出现异常导致商品服务超时,进而导致我的订单列表服务超时。根据日常中排查思路可以总结出以下分析范式:



上面这种分析范式看起来很简单清晰,但是它首先面临着以下问题


如何准确界定超时/异常。


上下游调用链路如何生成。


自己和下游,如何确定谁的问题(超时 &异常)。


下游异常时,如何区分超时/线程池满/未知异常。


以上问题本质上是底层数据埋点问题,幸运的是阿里集团完备的数据建设使得这些问题基本都能找到很好的解决方案。有了底层数据支撑再配合上层抽象出来的这样一套分析模型,设计并实现一套完全自动化问题定位系统是完全有可能的。


本文转载自淘系技术公众号。


原文链接:https://mp.weixin.qq.com/s/gDlCjHv4AovLvP-4veYojw


2019 年 12 月 19 日 18:20142

评论

发布
暂无评论
发现更多内容

redis系列之——数据类型bitmaps:今天你签到了吗?

诸葛小猿

redis bitmaps bloomfilter

从面试到入职到离职,我在B站工作的30天时光!!!

诸葛小猿

面试 B站 哔哩哔哩 收钱吧

面向对象编程学习

一叶知秋

第六周作业

秦宝齐

学习 极客大学架构师训练营

React与前端开发发展史

pingan8787

Week 6 作业

Shawn

区块链扩张路径变局:从技术比拼转向生态落地

CECBC区块链专委会

分布式系统架构学习总结(分布式数据库和NoSQL)

qihuajun

架构师训练营第六周学习总结

fenix

极客大学架构师训练营

架构感悟 6- 平衡之美

旭东(Frank)

1. react起始 | 2020年前端再入门系列连载

chaozh

前端开发 React

LeetCode题解:15. 三数之和,JavaScript双循环+HashMap,详细注释

Lee Chen

LeetCode 前端进阶训练营

极客时间架构师训练营 - week6 - 作业 2

jjn0703

极客大学架构师训练营

架构师训练营 Week 06 作业

Wancho

架构师第六周作业及总结

傻傻的帅

第六周总结

秦宝齐

作业

用“实例化需求”,让需求澄清更高效

小隐乐乐

架构师训练营 Week 06 总结

Wancho

week6.课后作业

个人练习生niki

极客大学架构师训练营

用Roslyn做个JIT的AOP

八苦-瞿昙

技术 随笔杂谈 aop 代理 框架

400GE燎原前夜,智能IP网络的核心路由器巅峰际会

脑极体

架构师训练营第 06 周—— 练习

李伟

极客大学架构师训练营

架构师训练营第六章作业

叮叮董董

架构师训练营第 6 周作业二

不谈

架构师训练营第六周作业

0x12FD16B

极客大学架构师训练营

2020-07-11-第六周作业

路易斯李李李

对CAP的理解

朱月俊

记一次Apache的代码导致生产问题

java金融

Java Apache spring BeanUtils

架构设计篇之中台战略思想与落地

小诚信驿站

架构设计 刘晓成 中台战略 服务化改造

架构师训练营第 06 周——总结

李伟

极客大学架构师训练营

架构师训练营第六章总结

叮叮董董

一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理-InfoQ