2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131539

评论

发布
暂无评论
发现更多内容

Mac打开wps后风扇转的快机身发热

现实中游走

Mac cpu 100% wps 机身发热

Webpack | 如何提升构建速度,进行体积优化?

梁龙先森

大前端 webpack 28天写作 2月春节不断更

驱动力读书笔记之三

张老蔫

28天写作

人员培养,不是捷径的捷径(下)

一笑

管理 人才培养 28天写作

你会在车里唱K吗? (28天写作 Day27/28)

mtfelix

28天写作 智能汽车 MaaS 出行方案

【JS】异常处理

德育处主任

JavaScript 大前端 js 28天写作 2月春节不断更

原子性操作类的使用

武哥聊编程

Java 多线程 原子性 28天写作

每个人都应该理解这三个基本的 MLOps 概念

李忠良

28天写作

Kubernetes安装篇(下):基于Kubeadm方式的集群部署

xcbeyond

Kubernetes kubeadm 部署 28天写作 Kubernetes从入门到精通

28天瞎写的第二百三十七天:抢了HR 饭碗了吗?

树上

HR 28天写作

硬核!阿里自爆虐心万字面试手册,Github上获赞89.7K

996小迁

spring 架构 面试 程序人生 JVM

【Linux系统】常驻进程应用实践

程序员架构进阶

Linux 守护进程 七日更 28天写作 2月春节不断更

回顾与总结 | 视频号28天(28)

赵新龙

28天写作

如果生命的长度可以被改写「幻想短篇 27/28」

道伟

28天写作

Redis缓存热点引发的思考

Java架构师迁哥

Mybatis【18】-- Mybatis自关联多对一查询方式

秦怀杂货店

mybatis

分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势

五分钟学大数据

大数据 2月春节不断更

常用网址

现实中游走

SpringIOC的注解开发

小马哥

Java spring 七日更

图解 | 原来这就是线程池

架构 线程池

通过扫码提交信息

IT蜗壳-Tango

七日更 2月春节不断更

为什么要持续学习

不在调上

机器学习笔记之:Addition and Scalar Multiplication

Nydia

十倍效率背后的管理逻辑

Ian哥

28天写作

让我们与内心聊聊,寻找一段思考发展之路。

叶小鍵

第四周-第一课

Geek_娴子

黑客练手入门| pwnable.kr—幼儿瓶—01:fd

BigYoung

黑客 安全 安全漏洞 28天写作 2月春节不断更

管理笔记[6]:任人唯贤、赏罚分明、任人所长

L3C老司机

信息茧房

lidaobing

28天写作 信息茧房

信任从对自己诚实开始

Justin

心理学 信任 28天写作

思维导图整理Java并发基础

Java 架构 并发

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章