2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1744 字

    阅读完需:约 6 分钟

大小:950.95K时长:05:24
“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


美图高级运维经理石鹏已确认出席并发表题为《“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践》的主题分享,结合美图 SRE 团队的实践经验,深入探讨故障应急的各个环节,并由此展开给大家呈现一个典型的“故障生命周期”。演讲将沿着这个脉络对故障的本质和常见原因进行剖析,对可观测性建设、灾备建设、应急预案及演练、故障复盘等日常高频工作场景进行讲解。此外,也将对 AIOps、LLM Ops 等前沿的技术做一些探讨和交流。



石鹏从业十余年,一直从事运维相关的工作。 2016 年加入美图公司,现任美图 SRE 负责人,目前整体负责美图公司线上服务的稳定性保障工作。 曾多次参与或主导过美图公司多项基础设施、运维架构的调整和改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验积累和行业输出。 致力于推广 SRE、稳定性运营相关的理念及实践,编著有「SRE 系统建设指南」图谱,参与过业界多个 SRE、DevOps 相关案例集/期刊/标准/白皮书的编纂或供稿。他同时还是业界多个技术峰会的分享嘉宾、金牌讲师或出品人,SRE 精英联盟成员,中国信通院「稳定性保障实验室」认证专家、关键技术工作组-技术监督委员会委员兼应急工作组组长。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引子:你是否会“谈故障色变”,遇到故障慌不慌,为个啥?

2. 洞若观火:洞察本质,掌握规律

  • SRE 的核心职责 与 企业发展的关系

  • 构建「大框架」:可靠性工程的「全生命周期」

  • 构建「大框架」:稳定性运营的「全景图」

  • 建立对故障的正确认识

  • 稳定性工作的度量 和 工作目标

3. 未雨绸缪:体系建设,主动出击

  • 体系化建设清单

  • 可观测性建设

  • 高可用建设

  • 应急预案及预案演练

  • SRE 工具箱建设

4. 指挥若定:有章可循,有条不紊

  • 原则和建议

  • 流程机制约定

  • 故障现场指挥

  • 常见故障场景 及 常见手段

  • 非常规模式 及 处置方法

  • 血泪案例分享

5. 复盘改进:吃堑长智,举一反三

  • 工作清单复盘

  • 故障复盘:从“黄金三问”到“深度思考”

  • 如何进行故障的定级、定性、定责?

  • 周期回顾 和 数据洞察

6. 补充总结 & 未来展望

  • 故障管理 之 体系化框架

  • 前沿技术探索及展望


您认为,这样的技术在实践过程中有哪些痛点?

  • “老生常谈”的几个需要平衡的问题及 SRE 所面临的典型困境

  • 稳定性建设的目标、业务高速迭代的效率诉求、公司在稳定建设方面可以投入的资源之间会存在矛盾

  • SRE 人手不足、工具建设不到位、忙于救火、疲于应付的恶性循环。破除这些困境,需要找到合适的切入点,方法也因时、因地不尽相同

  • 新技术的应用和落地:AIOps、LLM Ops 等新技术为故障应急带来了新的可能性,现在业界也有很多探索和实践。尤其是随着 DeepSeek 开源之后,有很多团队也在积极拥抱和尝试,但如何将这些技术真正应用到实践中,在落地过程中还有一些问题尚待探索和解决。

  • 业务系统、环境的复杂性,可能会带来一些“未知的未知”,这些会对故障应急带来非常大的挑战。


演讲亮点

  • 故障管理的流程化和规范化

  • 稳定性运营的持续改进


听众收益

  • 掌握故障应急的系统性方法:从故障的本质出发,系统性地思考和解决故障应急问题,而不是仅仅停留在“头痛医头,脚痛医脚”

  • 提升故障处理的实战能力:了解美图 SRE 团队在故障应急方面的实践,包括可观测性建设、高可用建设、应急预案制定与演练、故障复盘等实操性实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-05 17:007110

评论

发布
暂无评论

Hive说我变了,Spark说不你没变

怀瑾握瑜的嘉与嘉

spark 7月月更

TCP拥塞控制详解 | 5. 回避算法

俞凡

算法 网络 TCP拥塞控制

14岁懂社会 - 《你没有那么笨》读书笔记

懒时小窝

读书笔记 14岁懂社会

新星计划Day3【JavaSE】 集合 Part1

京与旧铺

7月月更

Node.js的非阻塞I/O

是乃德也是Ned

Node 7月月更

Spring 核心概念

说故事的五公子

Java spring

人最痛苦的时候就是没有目标的时候

KEY.L

7月月更

前端异常监控平台对比

南城FE

前端 7月月更 异常监控

QT 实现生成压缩包

小肉球

qt 7月月更

【愚公系列】2022年7月 Go教学课程 008-数据类型之整型

愚公搬代码

7月月更

架构实战营模块六作业

Geek_Q

ORACLE进阶(十一)MERGE INTO学习总结

No Silver Bullet

oracle MERGE INTO 7月月更

Spring Cloud源码分析之Eureka篇第七章:续约

程序员欣宸

Java Spring Cloud Eureka 7月月更

关于 HTTP post 请求 form data 里的特殊符号,比如加号 plus symbol

汪子熙

HTTP web开发 7月月更 encoding form

双目立体匹配之匹配代价计算

秃头小苏

7月月更 双目立体匹配

Jenkins centOS搭建和task创建

沃德

ci 程序员 7月月更

数据库每日一题---第21天:员工花费的总时间

知心宝贝

数据库 云计算 后端 开发 7月月更

C 语言入门(二)

逝缘~

c 7月月更

Python反爬,JS反爬串讲,从MAOX眼X开始,本文优先解决反爬参数 signKey

梦想橡皮擦

Python 爬虫 7月月更

内部排序——归并排序

乔乔

7月月更

基于物联网设计的铂电阻气体测温仪(华为云IOT)

DS小龙哥

7月月更

电商系统微服务架构

泋清

#架构实战营

Android Wear开发步骤

芝麻粒儿

android 手机 7月月更

C++|登录后通知各个显示页面,观察者模式

中国好公民st

c++ 7月月更

Python|揭开「pip不是内部或外部命令,也不是可运行的程序或批处理文件」的神秘面纱

AXYZdong

Python 7月月更

ORACLE进阶(十二)union(all)学习总结

No Silver Bullet

oracle 7月月更 union union all

LeetCode-125. 验证回文串(java)

bug菌

Leet Code 7月月更

iOS中的继承

NewBoy

前端 移动端 iOS 知识体系 7月月更

java零基础入门-Number & Math 类

喵手

Java 7月月更

Python 入门指南之错误和异常

海拥(haiyong.site)

7月月更

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京_软件工程_QCon全球软件开发大会_InfoQ精选文章