写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131545

评论

发布
暂无评论
发现更多内容

从0到1:琴房预订小程序开发笔记(上)

CC同学

主机防护如何更安全、高效? HSS新增多种特性,让你少走弯路

华为云开发者联盟

华为云 主机安全 云图说 新版本

Oracle 可观测最佳实践

观测云

oracle

天润融通智能运营工具:让AI客服机器人回答更精准

天润融通

《CPython Internals》阅读笔记:p177-p220

codists

CPython Internals

唯品会API接口详解:商品详情与关键词搜索功能

代码忍者

唯品会商品API接口

智谱发布端到端多模态模型 GLM-Realtime,2 分钟记忆能力;讯飞星火同传语音大模型发布,5 秒时延

RTE开发者社区

奇点云发布DataSimba敏捷版 | StartDT Day全回顾

奇点云

大数据 AI

字节的面试,感觉还挺简单的~

王中阳Go

Go 后端 面试题

Code Review:提升代码质量与团队能力的利器

京东科技开发者

WebGL技术开发MR应用

北京木奇移动技术有限公司

软件外包公司 webgl开发 MR应用

天润融通AI Agent,让智能客服对话更自然、理解更准确

天润融通

一文让你对mysql索引底层实现明明白白

京东科技开发者

1 行命令引发的Go应用崩溃

阿里技术

阿里云 命令 排查 Go应用

谷歌地图 | 利用 Google 地图平台重新定义叫车体验

Cloud Ace 云一

如何通过API接口高效获取自营商城商品详情与价格信息

代码忍者

API接口

Linux内存泄露案例分析和内存管理分享

京东科技开发者

以技术创新引领数据要素行业发展,隐语开源社区2024迈上新台阶!

隐语SecretFlow

万字报告:从 MEV 类型、数据与缓解机制等方面,深度解析 Solana MEV 生态

TechubNews

区块链 SOL

SpringBoot的两种启动方式原理

不在线第一只蜗牛

Java Spring Boot 后端

浅尝semantic kernel

为自己带盐

人工智能 semantic kernel

某政务行业基于 SeaTunnel 探索数据集成平台的架构实践

白鲸开源

学习Java的路线、资料整理

追随哆咪

如何在自己电脑上一键部署 AI 大模型

JustYan

人工智能 大模型 生成式AI

实时洞察、智能运营——新技术重塑企业绩效管理应用(下)

用友智能财务

绩效 企业 会计

低代码平台:技术复杂性的系统简化

JeeLowCode低代码平台

低代码 低代码开发 低代码前端 低代码缺点

WebGL技术开发VR应用

北京木奇移动技术有限公司

VR开发 软件外包公司 webgl开发

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章