阿里智能化故障治理流程探索和实践

阅读数:1018 2019 年 9 月 10 日 13:51

阿里智能化故障治理流程探索和实践

ArchSummit 北京 2018 大会上,司宇讲师做了《阿里智能化故障治理流程探索和实践》主题演讲,主要内容如下。

演讲简介

阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一故障治理,对产品 / 技术 / 运营都是巨大的挑战。阿里巴巴集团全球运行指挥中心(GOC)通过多年的探索,积累了大量跨 BU 故障治理经验,并在过程中使用了创新了自动化、智能化体系。

本次演讲将会对阿里巴巴集团故障治理整体流程及实战中的自动化、智能化体系做以介绍,并对未来故障治理领域智能运维工作进行展望。

演讲提纲

1、阿里巴巴全局故障治理流程

2、基于 AIOps 的全局故障治理架构

3、新零售 / 云计算等新业态给全局故障治理带来的挑战

  • 故障分维度下钻分析
  • 全局统一的监控 / 报警接入网关

4、实战案例讲解

  • 故障知识图谱
  • 故障等级定义结构化
  • 自动化通告
  • 智能应急助手
    • 业务背景及问题拆解
    • 通告内容自动纠错
    • 故障场景自动分析升级

5、智能运维落地方案实施建议

听众受益点

  1. 了解阿里集团跨 BU 丰富业务形态下的统一故障治理实战经验;
  2. 了解新零售 / 云计算等新兴业务的故障管理案例;
  3. 基于案例,了解到故障治理领域 AIOps 及算法的落地方案。

讲师介绍

司宇

阿里巴巴 GOC- 监控中心技术专家

阿里巴巴集团安全生产委员会 - 全球运行指挥中心 (GOC) 技术专家,负责阿里巴巴集团监控中心的管理工作。在运维及运维平台建设领域有丰富的技术经验和成果。加入阿里巴巴前曾在小米、平安好医生主导自动化运维平台的建设。

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

阿里智能化故障治理流程探索和实践

完整演讲 PPT 下载链接

https://archsummit.infoq.cn/2018/beijing/schedule

评论

发布