“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

AIOps 对报警架构的挑战

  • 2020-02-05
  • 本文字数:853 字

    阅读完需:约 3 分钟

AIOps 对报警架构的挑战

ArchSummit 北京 2019 大会上,周伟讲师与范月林讲师做了《AIOps 对报警架构的挑战》主题演讲,主要内容如下。


演讲简介


监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。


如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:


  1. 在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路

  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏

  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失


最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。


内容大纲


  1. 落地 AIOps 对报警架构的挑战

  2. 报警系统的业务模型

  3. 异常判断子系统

  4. 智能异常检测的研发流程

  5. 多维度异常判断模型

  6. 离线开发框架和近/在线运行平台

  7. 事件管理子系统

  8. 报警事件模型

  9. 基于状态机引擎的报警升级机制

  10. 通告发送子系统

  11. 报警智能合并

  12. 报警流控方案

  13. AIOps 落地实战经验


听众受益点


  1. 了解监控报警的业务痛点和对自身架构的挑战

  2. 了解 AIOps 落地过程中的思考和和工程实践经验


讲师介绍


周伟


百度 资深研发工程师


2015 年加入百度,目前负责百度 Noah 监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。


范月林


百度 资深研发工程师


2014 年硕士毕业于北京邮电大学,随后加入 IBM,负责高性能计算中间件的研发工作。2017 年加入百度,负责 Noah 报警系统的研发设计工作,在报警事件管理、报警合并 &渲染、故障 Oncall 等领域有丰富实战经验。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/beijing/schedule


2020-02-05 20:131041

评论

发布
暂无评论
发现更多内容

凭借师兄甩给我的通关秘籍,顺利拿到字节Offer

学Java关注我

Java 编程 架构 面试

一千座5G工厂的花苞

脑极体

重磅!数字人民币接入支付宝!

CECBC

数字人民币

工业制造业亟需数字化转型,区块链可以发挥哪些价值?

CECBC

区块链

Java程序员如何在“黄金五年”实现最大价值?

学Java关注我

Java 编程 架构 互联网 计算机

前端项目上传图片,压缩,拍照图片旋转解决方案

Vue js canvas axios

太赞了!美团大牛强推的Spring事务笔记,上线仅1天就获赞上万

飞飞JAva

Java 事务spring

云原生下的灰度体系建设

阿里巴巴云原生

容器 运维 云原生 k8s 监控

云原生的进一步具象化

阿里巴巴云原生

大数据 容器 云原生 监控 中间件

GreenPlum中的资源队列

数据社

greenplum 5月日更

数据工作者必备工作技能:数据治理

博文视点Broadview

Nginx如何配置Http、Https、WS、WSS?

冰河

nginx 负载均衡 反向代理 https HTTP

王兴的失败观

池建强

成功 王兴 创业失败启示录

从SPACE矩阵,看5G究竟是否在走向成功?

脑极体

Yii2反序列化RCE 新POP链

Thrash

☕【Java技术之旅】如何彻底认识AQS的原理(上篇)

洛神灬殇

Java AQS JVM JUC 5月日更

实战排查由于系统负载引起的服务响应异常

Coder的技术之路

高并发 性能调优 线上问题

机器学习 Machine Learning- 吴恩达Andrew Ng 第5~15课总结 John 易筋 ARTS 打卡 Week 47

John(易筋)

ARTS 打卡计划

SSL / TLS协议解析!什么是SNI? SNI 识别?

明儿

网络攻防学习笔记 Day10

穿过生命散发芬芳

5月日更 网络攻防

阿里P7大佬!王者级讲解ConcurrentHashMap源码,码农:太透彻了

牛哄哄的java大师

Java ConcurrentHashMap

强!上线3天获10w浏览量,京东T8纯手码Redis缓存手册,我粉了

飞飞JAva

redis

Linux下内存不足问题的定位与处理

明儿

Linux 内存 性能调优

边缘计算与云计算的故事

攻城先森

云计算 边缘计算 5月日更

API网关

lenka

5月日更

异步编程的几种方式,你知道几种?

xcbeyond

Java 异步编程 5月日更

差点扛不住了,阿里巴巴支付宝面试 5 轮暴击,终获 Offer

Java架构师迁哥

如何判断企业赚不赚钱?

石云升

创业 财务分析 5月日更

常见流媒体服务器方案对比分析

liuzhen007

音视频 5月日更

语义理解过程中的崩溃

Qien Z.

nlp 语义 5月日更

凭借一份“面试真经pdf”,我四面字节跳动,拿下1-2级offer

Java 程序员 架构 面试

AIOps 对报警架构的挑战_ArchSummit_周伟_InfoQ精选文章