写点什么

阿里智能化故障治理流程探索和实践

  • 2019-09-10
  • 本文字数:653 字

    阅读完需:约 2 分钟

阿里智能化故障治理流程探索和实践

ArchSummit北京2018大会上,司宇讲师做了《阿里智能化故障治理流程探索和实践》主题演讲,主要内容如下。


演讲简介


阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一故障治理,对产品/技术/运营都是巨大的挑战。阿里巴巴集团全球运行指挥中心(GOC)通过多年的探索,积累了大量跨 BU 故障治理经验,并在过程中使用了创新了自动化、智能化体系。


本次演讲将会对阿里巴巴集团故障治理整体流程及实战中的自动化、智能化体系做以介绍,并对未来故障治理领域智能运维工作进行展望。


演讲提纲


1、阿里巴巴全局故障治理流程


2、基于 AIOps 的全局故障治理架构


3、新零售/云计算等新业态给全局故障治理带来的挑战


  • 故障分维度下钻分析

  • 全局统一的监控/报警接入网关


4、实战案例讲解


  • 故障知识图谱

  • 故障等级定义结构化

  • 自动化通告

  • 智能应急助手

  • 业务背景及问题拆解

  • 通告内容自动纠错

  • 故障场景自动分析升级


5、智能运维落地方案实施建议


听众受益点


  1. 了解阿里集团跨 BU 丰富业务形态下的统一故障治理实战经验;

  2. 了解新零售/云计算等新兴业务的故障管理案例;

  3. 基于案例,了解到故障治理领域 AIOps 及算法的落地方案。


讲师介绍


司宇


阿里巴巴 GOC-监控中心技术专家


阿里巴巴集团安全生产委员会-全球运行指挥中心(GOC)技术专家,负责阿里巴巴集团监控中心的管理工作。在运维及运维平台建设领域有丰富的技术经验和成果。加入阿里巴巴前曾在小米、平安好医生主导自动化运维平台的建设。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/beijing/schedule


2019-09-10 13:513936

评论

发布
暂无评论
发现更多内容

从0到1:企业办公审批小程序开发笔记

CC同学

2024-06-08:用go语言,给定三个正整数 n、x和y, 表示城市中的房屋数量以及编号为x和y的两个特殊房屋。 在这座城市中,房屋通过街道相连。对于每个编号i(1 <= i < n), 存在一条

福大大架构师每日一题

福大大架构师每日一题

领导者在沟通中最容易犯的错误

俞凡

团队管理

如何有效管理低绩效人员:CARES 框架

俞凡

团队管理

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS 集成网卡驱动 Marvell AQC 网卡定制版

sysin

esxi 驱动 网卡 unlocker aqc

基于Java“花鸣”B2C电子商务平台设计实现(源码+lw+部署文档+讲解等)

hunter_coder

人工智能 openai

阿里巴巴关键字搜索商品API返回值实践:电商数据驱动的营销策略调整

技术冰糖葫芦

API Explorer API 文档 API 策略

日调用量翻10倍!百度主力大模型免费吸引客户涌入

IT新闻资讯

#百度#

2024年5月文章一览

codists

淘宝按关键字搜索API返回值研究:提升搜索准确性的关键

技术冰糖葫芦

API Explorer api 货币化 API 文档

I/O虚拟化概述

Linux内核拾遗

Virtualization 虚拟化 virtio IO虚拟化

普通职场人的成长路径

老张

面试经验 成长计划 思维逻辑

基于Java“镜头人生”约拍网站系统设计实现(源码+lw+部署文档+讲解等)

hunter_coder

人工智能 openai

Web应用程序安全漏洞的危害与防御措施

德迅云安全杨德俊

多家央行开启降息序幕:加密行情的新机遇与挑战

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

阿里智能化故障治理流程探索和实践_ArchSummit_司宇_InfoQ精选文章