写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131525

评论

发布
暂无评论
发现更多内容

缓存之美:Guava Cache 相比于 Caffeine 差在哪里?

京东科技开发者

生而非凡,稳健流畅,HarmonyOS体验再升级

最新动态

Meta 拟收购语音 AI 初创 PlayAI;Qwen-TTS API 正式上线,支持京沪川方言丨日报

声网

《仿盒马》app开发技术分享-- 首页商品流(7)

鸿蒙小林

让高端装备“先跑起来”:虚拟仿真验证平台重塑研制流程

DevOps和数字孪生

高端装备

高性能缓存设计:如何解决缓存伪共享问题

京东科技开发者

华为JDC登场!观测云带来下一代监控观测平台的AI实战解法

观测云

人工智能

从0到亿级数据抓取:亮数据如何破解全球采集难题?

阿Q说代码

数据挖掘 数据采集 亮数据

《仿盒马》app开发技术分享-- 首页地址选择&会员码(8)

鸿蒙小林

【7 月 5 日北京】倒计时 5 天!原来 IoTDB 用户大会有这么多现场福利

Apache IoTDB

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

声网

Nexpose 8.12.0 for Linux & Windows - 漏洞扫描

sysin

Nexpose

ETLCloud CDC中如何监听多表?

谷云科技RestCloud

数据库 数据处理 ETL CDC 数据集成工具

BOE(京东方)携手合作伙伴定义下一代电竞显示趋势 借势核聚变嘉年华构建产业生态闭环

爱极客侠

懒懒笔记 | 课代表带你梳理【RAG课程 17&18:企业级安全 + 多智能体协同,打造可控、智能的RAG系统】

商汤万象开发者

AI agent LLM llama

HarmonyOS多设备开发方案全新升级,赋能全场景高效开发

最新动态

《仿盒马》app开发技术分享-- 首页活动配置(5)

鸿蒙小林

HarmonyOS NEXT

《仿盒马》app开发技术分享-- 自定义标题栏&商品详情初探(9)

鸿蒙小林

腾讯云自研企业级操作系统TencentOS Server,助力央国企加速自主创新

极客天地

Golang基础笔记七之指针,值类型和引用类型

Hunter熊

Go 指针 逃逸分析 引用类型 内存逃逸

【HarmonyOS 5】鸿蒙TEE(可信执行环境)详解

GeorgeGcs

​《仿盒马》app开发技术分享-- 新人专享券(2)

鸿蒙小林

HarmonyOS NEXT

《仿盒马》app开发技术分享-- 金刚区(3)

鸿蒙小林

《仿盒马》app开发技术分享-- 首页模块配置(4)

鸿蒙小林

HarmonyOS NEXT

《仿盒马》app开发技术分享-- 首页banner(6)

鸿蒙小林

SyncMate for mac(数据同步软件)

Geek贝

手滑救星!通知中心一秒即达,这次真的“滑”得漂亮!

HarmonyOS SDK

harmoyos

实战拆解:阿里云 ESA 重构金融行业的安全与速度

阿里云CloudImagine

云计算 最佳实践 边缘计算 安全防护 ESA

什么是即席查询?企业数据敏捷分析的新范式

镜舟科技

数据分析 存算分离架构 StarRocks 即席查询 OLAP 引擎

Gartner推荐的容器监控系统管理实践——嘉为蓝鲸监控中心

嘉为蓝鲸

AIOPS Gartner 智能运维 可观测

一次线上生产库的全流程切换完整方案

京东科技开发者

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章