10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131461

评论

发布
暂无评论
发现更多内容

第 09 周作业

Jam

week09 小结

Geek_196d0f

第9周作业

小胖子

架构师训练营-week09 作业

GunShotPanda

week9 学习总结

任小龙

如何保存我们的资产

不在调上

学习总结(训练营第九课)

看山是山

获得高手的精英思维,从写作开始。

叶小鍵

高手 万维钢 得到精英日课

Week 09 学习总结

Jeremy

Week9-课后总结 & 课后作业 JVM垃圾回收机制

Geek_165f3d

第九周命题作业

菲尼克斯

9-2 秒杀系统的挑战和问题

burner

产品经理【三句半】,说清你的【酸甜苦辣】

Java_若依框架教程

产品经理 产品设计

架构师训练营 第九周 总结

CR

8.5小结

朱月俊

Week 09 命题作业

Jeremy

「查缺补漏」巩固你的Redis知识体系

Kerwin

Java redis

《RabbitMQ》如何保证消息不被重复消费

Java旅途

RabbitMQ 消息队列

第九周学习总结

菲尼克斯

架构师训练营 -week09 学习总结

GunShotPanda

未来云原生世界的“领头羊”:容器批量计算项目Volcano 1.0版本发布

华为云开发者联盟

Kubernetes 容器 华为云 Volcano 元原生

浙江上线市场监管区块链电子取证平台,武汉出台“区块链八条”,

CECBC

区块链 行业资讯 产业落地

充分释放数据价值:安全、可信6到飞起

华为云开发者联盟

区块链 数据共享 华为云 可信安全计算 数据价值

JVM 垃圾回收原理及秒杀系统设计思路

Acker飏

架构师培训 -08 总结 JVM、秒杀

刘敏

第九周总结

Jam

JVM系列之:从汇编角度分析NullCheck

程序那些事

Java JVM JIT

换一种方式构建镜像

北漂码农有话说

一文教会你嵌入式网络模块的联网操作

良知犹存

物联网 网络 嵌入式

《深度工作》学习笔记(5)

石云升

读书笔记 专注 深度工作

9-1垃圾回收原理和秒杀系统

burner

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章