2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131367

评论

发布
暂无评论
发现更多内容

【愚公系列】2022年05月 二十三种设计模式(十二)-代理模式(Proxy Pattern)

愚公搬代码

5月月更

Long与Arrays的使用注意

zarmnosaj

5月月更

618大促100用户级秒杀系统架构设计

IT屠狗辈

架构实战营

增强现实(AR)技术在企业管理软件中的一个实际创新案例

汪子熙

AR SAP 虚拟现实 增强现实 5月月更

微博评论高性能高可用计算架构设计分析

锎心😌😌😌

Go Web编程入门:路由

宇宙之一粟

Go Go web 5月月更

Druid 连接池源码阅读 03

石小天

自开发 Web 应用如何使用 SAP Customer Data Cloud 实现自定义登入功能

汪子熙

用户权限 第三方登录 SAP 登录验证 5月月更

存在负权边,Bellman-Ford

工程师日月

算法 5月月更

微博评论的高性能高可用计算架构

大眼喵

「架构实战营」

vue框架

恒山其若陋兮

5月月更

如何让你的 WordPress 网站更安全

海拥(haiyong.site)

WordPress 5月月更

学生管理系统(1)简介

5月月更

下一站,智能世界:华为给全球轨道数字化带来全新加速度

脑极体

数据库连接池 -Druid 源码学习(三)

wjchenge

Druid 数据库连接池

druid源码学习三-继续探究DruidDataSource类init方法

Nick

Apache Druid

使用 OData 实施 SAP 系统与第三方系统集成的步骤概述

汪子熙

系统集成 SAP OData 5月月更 第三方系统

微博评论高性能高可用计算架构

Trent

高可用 架构设计 高性能 训练营

Docker下的OpenResty三部曲之二:细说开发

程序员欣宸

Docker 5月月更

C语言_结构体总结

DS小龙哥

5月月更

【高并发】高并发环境下诡异的加锁问题(你加的锁未必安全)

冰河

并发编程 多线程 高并发 协程 异步编程

微博系统中”微博评论“的高性能高可用计算架构

凯博无线

架构实战营 - 模块五 - 作业

michael

架构实战营 #架构实战营 「架构实战营」

设计模式之建造者模式

乌龟哥哥

5月月更

聊聊 Kafka:Kafka 消息重复的场景以及最佳实践

老周聊架构

kafka 5月月更

druid 源码阅读 3——DataSource的结构(变量)

张大彪

CMMI研究院刚刚推出两门新认证课程

高山

培训 CMMI 确保安全 确保安防

你肯定听说过requests,但你知道2022年有一个比 requests 还牛的爬虫库吗?

梦想橡皮擦

5月月更

元宇宙参与指南——如何融入元宇宙建设?

CECBC

pycharm的安装

工程师日月

5月月更

模块五:微博评论的高性能高可用框架

jiaoxn

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章