免费下载案例集|20+数字化领先企业人才培养实践经验 了解详情
写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131187

评论

发布
暂无评论
发现更多内容

探索Web前端技术的新趋势与发展

不在线第一只蜗牛

互联网 前端 Web 前端技术

克魔助手工具下载、注册和登录指南

雪奈椰子

按图搜索淘宝商品接口(拍立淘)(Taobao.item_search_img)

tbapi

按图搜索淘宝商品接口 图片搜索商品接口 图片搜索API接口 拍立淘API接口 淘宝图片搜索接口

提升团队协作效率——SmartSVN for Mac的核心价值

iMac小白

PDF Expert for Mac(PDF编辑阅读转换器)v3.8.2中文激活版

iMac小白

软件测试/测试开发|web基础知识介绍

霍格沃兹测试开发学社

混合专家模型 (MoE) 详解

不在线第一只蜗牛

前端 低代码 开发 框架

平均性能提升50%以上,天翼云第八代升级款弹性云主机重磅上线

编程猫

AdGuard for Mac(广告拦截软件) 2.9.2 (1234) 中文激活版

mac

苹果mac Windows软件 AdGuard 广告拦截软件

配置多网关/多网卡

纵歌

IPQ9554 with QCN6224 WiFi network card: What kind of high-performance wireless network connection?

wifi6-yiyi

ipq9554 QCN6224

基于 KubeBlocks 的 PikiwiDB(原Pika) 云化下一站

小猿姐

数据库 云计算

AI 领域代币市场趋势:探索最热门投资领域的前沿动向

Footprint Analytics

区块链 AI

Angular 控制流与延迟视图揭秘

爱吃小舅的鱼

研发

「悦数图数据库」获 2023 年度 IT168 创新解决方案奖

悦数图数据库

图数据库 图数据库实战

万界星空科技数字化车间应用场景

万界星空科技

数字化 工业互联网 智能工厂 mes 数字化车间

使用 extract + TextMapAdapter 实现了自定义 traceId

观测云

Trace 链路

面试官:说说MVCC的执行原理?

王磊

Java 面试

ERP系统与智能商品系统在供应链管理上的区别和优势在哪些方面?

第七在线

如何快速获取抖音新用户/用户信息

RestCloud

抖音 数据同步 ETL

软件测试/测试开发|关于bug,你需要了解的,全在这里了

霍格沃兹测试开发学社

阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战

阿里巴巴云原生

阿里云 容器 云原生

什么是制造业的数字化车间

万界星空科技

数字化转型 数字化 MES系统 云mes 万界星空科技mes

软件测试/测试开发|Linux三剑客之——awk命令详解

霍格沃兹测试开发学社

软件测试/测试开发|一篇文章带你入门HTML

霍格沃兹测试开发学社

中&美程序员,其实就差在这6点了

伤感汤姆布利柏

程序员 IT

实时渲染与离线渲染优势浅析-3D可视化技术

3DCAT实时渲染

云渲染 实时渲染

利用抖音商品详情API提升电商应用的市场份额

技术冰糖葫芦

程序员如何封装逻辑?

伤感汤姆布利柏

CSS 低代码

NAT协议的实现方式

郑州埃文科技

边缘计算:将未来的计算力带到你的指尖

啊川..

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章