50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

阿里智能化故障治理流程探索和实践

  • 2019-09-10
  • 本文字数:653 字

    阅读完需:约 2 分钟

阿里智能化故障治理流程探索和实践

ArchSummit北京2018大会上,司宇讲师做了《阿里智能化故障治理流程探索和实践》主题演讲,主要内容如下。


演讲简介


阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一故障治理,对产品/技术/运营都是巨大的挑战。阿里巴巴集团全球运行指挥中心(GOC)通过多年的探索,积累了大量跨 BU 故障治理经验,并在过程中使用了创新了自动化、智能化体系。


本次演讲将会对阿里巴巴集团故障治理整体流程及实战中的自动化、智能化体系做以介绍,并对未来故障治理领域智能运维工作进行展望。


演讲提纲


1、阿里巴巴全局故障治理流程


2、基于 AIOps 的全局故障治理架构


3、新零售/云计算等新业态给全局故障治理带来的挑战


  • 故障分维度下钻分析

  • 全局统一的监控/报警接入网关


4、实战案例讲解


  • 故障知识图谱

  • 故障等级定义结构化

  • 自动化通告

  • 智能应急助手

  • 业务背景及问题拆解

  • 通告内容自动纠错

  • 故障场景自动分析升级


5、智能运维落地方案实施建议


听众受益点


  1. 了解阿里集团跨 BU 丰富业务形态下的统一故障治理实战经验;

  2. 了解新零售/云计算等新兴业务的故障管理案例;

  3. 基于案例,了解到故障治理领域 AIOps 及算法的落地方案。


讲师介绍


司宇


阿里巴巴 GOC-监控中心技术专家


阿里巴巴集团安全生产委员会-全球运行指挥中心(GOC)技术专家,负责阿里巴巴集团监控中心的管理工作。在运维及运维平台建设领域有丰富的技术经验和成果。加入阿里巴巴前曾在小米、平安好医生主导自动化运维平台的建设。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/beijing/schedule


2019-09-10 13:513931

评论

发布
暂无评论
发现更多内容

【1.6-1.13】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动

PyFlink 最新进展解读及典型应用场景介绍

Apache Flink

大数据 flink 实时计算

收官!OceanBase第五届技术征文大赛获奖名单公布!

OceanBase 数据库

数据库 oceanbase

2022总结,强风吹拂

程思扬

总结 年终总结 经验分享、

浅谈服务接口的高可用设计

京东科技开发者

负载均衡 接口 后端 混沌工程 企业号 1 月 PK 榜

Python报错:ModuleNotFoundError: No module named 'xxx'

Geek_7ubdnf

Python

Python报错:ImportError cannot import name 'imresize'

Geek_7ubdnf

Python

pip安装报错:UnicodeDecodeError 'utf-8' codec can't decode byte 0xc3 in position 4

Geek_7ubdnf

Python

conda安装报错:PermissionError [Errno 13] Permission denied

Geek_7ubdnf

Python

35张图,直观理解Stable Diffusion

OneFlow

人工智能 深度学习 Stable Diffusion

还在自建MQTT物联网平台?快来试试开源MQTT托管型物联网平台——实践类

阿里云AIoT

安全 物联网 物联网安全 技术标签

mmdetection训练数据遇到的问题

Geek_7ubdnf

Python 机器学习

Vue实现登录功能

Geek_7ubdnf

Vue

互联网医疗月度观察:规范化、合法化的网络售药新时代到来

易观分析

互联网医疗

10分钟玩转阿里云物联网平台设备接入、管理、运维——实践类

阿里云AIoT

安全 物联网 物联网安全 技术标签

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

合合技术团队

图像处理 图像预处理 人工智能’

Win10桌面图标显示问题

Geek_7ubdnf

windows

2022年IAA行业品类年度表现总结

易观分析

视频 IAA

微信小程序实验案例:简易成语小词典

TiAmo

小程序 微信小程序

Spring获取Bean的9种方式

小小怪下士

Java spring 程序员 springboot

如何使用企业账户进行协作?

Towify

如何使用滑块实现切换图片功能?

Towify

如何使用免适配云鹰模组实现多网可切?——实践类

阿里云AIoT

安全 物联网 物联网安全 技术标签

中移链合约常用开发介绍 (二)多索引表的使用

BSN研习社

粒子滤波 PF(Particle filter)算法

Geek_7ubdnf

机器学习

Linux安装与卸载软件

Geek_7ubdnf

Linux

再获殊荣!图数据库 NebulaGraph 获得 ITPUB 2022 创新产品奖

最新动态

电脑音视频暂停再继续,声音突然变大

Geek_7ubdnf

windows

数维图可视化编辑器超10项功能升级,您的需求就在其中

2D3D前端可视化开发

数据可视化 数字孪生 三维可视化 web3d web组态软件

如何理解鲁棒性?为什么robustness会翻译为鲁棒性?

九章云极DataCanvas

JDBC的基本概念

Geek_7ubdnf

Java

阿里智能化故障治理流程探索和实践_ArchSummit_司宇_InfoQ精选文章