“All in Cloud”之后,和你聊聊「云原生DevOps的Kubernetes技巧」 了解详情
写点什么

AIOps 对报警架构的挑战

  • 2020 年 2 月 05 日
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020 年 2 月 05 日 20:13669

评论

发布
暂无评论
发现更多内容

Redis io多线程

C++后台开发

redis 后端开发 Linux服务器开发 C++后台开发 单线程

【TcaplusDB知识库】TcaplusDB shard搬迁介绍

数据人er

爱番番微前端框架落地实践

百度Geek说

前端

CRM系统帮助企业有影响力的营销

低代码小观

CRM 客户关系管理 企业管理系统 CRM系统 客户关系管理系统

Jmeter高手进阶-脚本增强

伤心的辣条

Python 程序人生 软件测试 IT 自动化测试

【TcaplusDB知识库】TcaplusDB查看进程所在机器介绍

数据人er

龙蜥开发者说:我的操作系统之路,坚持从实践中来,到实践中去 | 第6期

OpenAnolis小助手

Linux 开源 操作系统 龙蜥社区 龙蜥开发者说

【TcaplusDB知识库】TcaplusDB进程停止介绍

数据人er

【TcaplusDB知识库】TcaplusDB推送配置介绍

数据人er

共享自助洗车多少钱一次?怎么收费

车白兔自助洗车机加盟

自助洗车加盟 自助洗车多少钱一次 共享自助洗车多少钱 自助洗车怎么收费

【TcaplusDB知识库】TcaplusDB查看进程状态介绍

数据人er

密码学系列之:PKI的证书格式表示X.509

程序那些事

Java 密码学 程序那些事 5月月更

慌!老大突然问我基于JDK和CGLib实现动态代理的区别和适用场景

JAVA架构笔记

Java jdk 动态代理 cglib CGLIB 动态代理

【TcaplusDB知识库】TcaplusDB引擎参数调整介绍

数据人er

【TcaplusDB知识库】TcaplusDB进程启动介绍

数据人er

一图详解java-class类文件原理

华为云开发者社区

Java JVM class 类文件

【TcaplusDB知识库】TcaplusDB TcapDB扩缩容方法介绍

数据人er

宜搭小技巧|海量数据管理难?这招帮你事半功倍

钉钉宜搭低代码

钉钉宜搭

【云计算】云计算四个必学知识看这里!

行云管家

云计算 云服务 企业上云

前端工程化之FaaS SSR方案​

百度Geek说

前端

钱卫宁:开源是培养数据库人才的关键|OceanBase 数据库大赛访谈

OceanBase 数据库

oceanbase 数据库大赛

【TcaplusDB知识库】TcaplusDB查看线上运行情况介绍

数据人er

Hoo研究院 | 币圈后浪—PRISM

区块链前沿News

Hoo

解锁户外降温黑科技,图拉斯新品发布会完美收官

Geek_2d6073

自建Gitlab迁移工具使用指南

阿里云云效

云计算 阿里云 gitlab 代码迁移 代码库

【TcaplusDB知识库】TcaplusDB刷新tbus通道介绍

数据人er

大前端技术的边界在哪里?

博文视点Broadview

互联网出海企业数据库选型问答实录

OceanBase 数据库

云数据库 oceanbase 互联网出海

【TcaplusDB知识库】TcaplusDB TcapDB扩缩容方法介绍

数据人er

【TcaplusDB知识库】TcaplusDB TcapProxy扩缩容方法介绍

数据人er

【TcaplusDB知识库】TcaplusDB设备搬迁介绍

数据人er

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章