写点什么

阿里智能化故障治理流程探索和实践

  • 2019-09-10
  • 本文字数:653 字

    阅读完需:约 2 分钟

阿里智能化故障治理流程探索和实践

ArchSummit北京2018大会上,司宇讲师做了《阿里智能化故障治理流程探索和实践》主题演讲,主要内容如下。


演讲简介


阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一故障治理,对产品/技术/运营都是巨大的挑战。阿里巴巴集团全球运行指挥中心(GOC)通过多年的探索,积累了大量跨 BU 故障治理经验,并在过程中使用了创新了自动化、智能化体系。


本次演讲将会对阿里巴巴集团故障治理整体流程及实战中的自动化、智能化体系做以介绍,并对未来故障治理领域智能运维工作进行展望。


演讲提纲


1、阿里巴巴全局故障治理流程


2、基于 AIOps 的全局故障治理架构


3、新零售/云计算等新业态给全局故障治理带来的挑战


  • 故障分维度下钻分析

  • 全局统一的监控/报警接入网关


4、实战案例讲解


  • 故障知识图谱

  • 故障等级定义结构化

  • 自动化通告

  • 智能应急助手

  • 业务背景及问题拆解

  • 通告内容自动纠错

  • 故障场景自动分析升级


5、智能运维落地方案实施建议


听众受益点


  1. 了解阿里集团跨 BU 丰富业务形态下的统一故障治理实战经验;

  2. 了解新零售/云计算等新兴业务的故障管理案例;

  3. 基于案例,了解到故障治理领域 AIOps 及算法的落地方案。


讲师介绍


司宇


阿里巴巴 GOC-监控中心技术专家


阿里巴巴集团安全生产委员会-全球运行指挥中心(GOC)技术专家,负责阿里巴巴集团监控中心的管理工作。在运维及运维平台建设领域有丰富的技术经验和成果。加入阿里巴巴前曾在小米、平安好医生主导自动化运维平台的建设。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2018/beijing/schedule


2019-09-10 13:513865

评论

发布
暂无评论
发现更多内容

极限科技三周年庆典:追求极致,共创未来科技新篇章

极限实验室

极限科技 周年庆典 极限科技三周年 周年庆

GPUStack v0.4:文生图模型、语音模型、推理引擎版本管理、离线支持和部署本地模型

GPUStack

Stable Diffusion LLM Whisper Speech-to-Text Text-to-Speech

让零代码系统界面体验更优秀

明道云

Elasticsearch vs 向量数据库:寻找最佳混合检索方案

Zilliz

全文检索 elasticsearch 向量检索 Milvus 混合检索

制造业数字化演进历程中的创新与HAP 赋能

明道云

集团企业分级管理授权能力建设

芯盾时代

iam 权限管理系统 授权访问

火山引擎数据飞轮最新活动:结合大模型能力,探索金融行业数智化落地新可能

字节跳动数据平台

数据飞轮

喜报!极限科技(INFINI Labs)通过国家高新技术企业认定

极限实验室

科技 极限科技 高新企业认定

LlamaIndex工作流可视化的AI助手分析探索

代码忍者

API 接口 pinduoduo API

企业数字化转型的矛与盾

明道云

七牛云荣获「2024 鸿蒙生态 SDK 星河奖」

七牛云

从MySQL JOIN 算法角度看如何优化SQL

京东科技开发者

数字赋能制造:赛力斯汽车的零代码创新实践

明道云

收藏品NFT的开发流程

北京木奇移动技术有限公司

NFT数字藏品系统 NFT开发 软件外包公司

探索1688商品详情API:轻松解锁商品信息的全面视角

代码忍者

API 接口 pinduoduo API

最新前端架构设计:中央仓库管理-基于工作空间和git-submodule实现共用和管理

京东科技开发者

大数据平台Bug Bash大扫除最佳实践

京东科技开发者

阿里智能化故障治理流程探索和实践_ArchSummit_司宇_InfoQ精选文章