写点什么

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1744 字

    阅读完需:约 6 分钟

大小:950.95K时长:05:24
“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


美图高级运维经理石鹏已确认出席并发表题为《“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践》的主题分享,结合美图 SRE 团队的实践经验,深入探讨故障应急的各个环节,并由此展开给大家呈现一个典型的“故障生命周期”。演讲将沿着这个脉络对故障的本质和常见原因进行剖析,对可观测性建设、灾备建设、应急预案及演练、故障复盘等日常高频工作场景进行讲解。此外,也将对 AIOps、LLM Ops 等前沿的技术做一些探讨和交流。



石鹏从业十余年,一直从事运维相关的工作。 2016 年加入美图公司,现任美图 SRE 负责人,目前整体负责美图公司线上服务的稳定性保障工作。 曾多次参与或主导过美图公司多项基础设施、运维架构的调整和改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验积累和行业输出。 致力于推广 SRE、稳定性运营相关的理念及实践,编著有「SRE 系统建设指南」图谱,参与过业界多个 SRE、DevOps 相关案例集/期刊/标准/白皮书的编纂或供稿。他同时还是业界多个技术峰会的分享嘉宾、金牌讲师或出品人,SRE 精英联盟成员,中国信通院「稳定性保障实验室」认证专家、关键技术工作组-技术监督委员会委员兼应急工作组组长。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引子:你是否会“谈故障色变”,遇到故障慌不慌,为个啥?

2. 洞若观火:洞察本质,掌握规律

  • SRE 的核心职责 与 企业发展的关系

  • 构建「大框架」:可靠性工程的「全生命周期」

  • 构建「大框架」:稳定性运营的「全景图」

  • 建立对故障的正确认识

  • 稳定性工作的度量 和 工作目标

3. 未雨绸缪:体系建设,主动出击

  • 体系化建设清单

  • 可观测性建设

  • 高可用建设

  • 应急预案及预案演练

  • SRE 工具箱建设

4. 指挥若定:有章可循,有条不紊

  • 原则和建议

  • 流程机制约定

  • 故障现场指挥

  • 常见故障场景 及 常见手段

  • 非常规模式 及 处置方法

  • 血泪案例分享

5. 复盘改进:吃堑长智,举一反三

  • 工作清单复盘

  • 故障复盘:从“黄金三问”到“深度思考”

  • 如何进行故障的定级、定性、定责?

  • 周期回顾 和 数据洞察

6. 补充总结 & 未来展望

  • 故障管理 之 体系化框架

  • 前沿技术探索及展望


您认为,这样的技术在实践过程中有哪些痛点?

  • “老生常谈”的几个需要平衡的问题及 SRE 所面临的典型困境

  • 稳定性建设的目标、业务高速迭代的效率诉求、公司在稳定建设方面可以投入的资源之间会存在矛盾

  • SRE 人手不足、工具建设不到位、忙于救火、疲于应付的恶性循环。破除这些困境,需要找到合适的切入点,方法也因时、因地不尽相同

  • 新技术的应用和落地:AIOps、LLM Ops 等新技术为故障应急带来了新的可能性,现在业界也有很多探索和实践。尤其是随着 DeepSeek 开源之后,有很多团队也在积极拥抱和尝试,但如何将这些技术真正应用到实践中,在落地过程中还有一些问题尚待探索和解决。

  • 业务系统、环境的复杂性,可能会带来一些“未知的未知”,这些会对故障应急带来非常大的挑战。


演讲亮点

  • 故障管理的流程化和规范化

  • 稳定性运营的持续改进


听众收益

  • 掌握故障应急的系统性方法:从故障的本质出发,系统性地思考和解决故障应急问题,而不是仅仅停留在“头痛医头,脚痛医脚”

  • 提升故障处理的实战能力:了解美图 SRE 团队在故障应急方面的实践,包括可观测性建设、高可用建设、应急预案制定与演练、故障复盘等实操性实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-05 17:007025

评论

发布
暂无评论

如何提升口头表达能力?

石云升

表达 11月日更

反垄断专家如何看待区块链监管的发展方向

CECBC

2020吊打面试官系列!Android大厂高级面试题 灵魂 100 问,你能答对多少?

android 程序员 移动开发

设计模式【3.2】-- JDK动态代理源码分析有多香?

秦怀杂货店

源码分析 动态代理

15年手持4个大厂offer的我,今天面试今日头条体无完肤

android 程序员 移动开发

200行代码打造超越一线互联网公司的换肤架构

android 程序员 移动开发

2019中级Android开发面试解答之线程篇

android 程序员 移动开发

2020字节跳动安卓程序员视频面试,这五点一定有助你顺利拿到offer

android 程序员 移动开发

2019年百度Android面试题-公共技术点之-View-绘制流程

android 程序员 移动开发

2019年移动开发,我的改变之旅

android 程序员 移动开发

2020-Android-面试重难点(万字篇),字节

android 程序员 移动开发

2020上半年百度Android岗(初级到高级)面试真题全收录+解析

android 程序员 移动开发

算法入门-选择排序

ES_her0

11月日更

12月面试ing-本以为学了个好找工作的Android开发,没想到又是坑---

android 程序员 移动开发

攻击SSRF漏洞之Redis利用

喀拉峻

redis 网络安全 安全 信息安全 漏洞

北鲲云超算平台如何为生命科学研究提供数据归档与存储服务?

北鲲云

2019寒冬之下,作为一个android码农,是如何进入腾讯的?

android 程序员 移动开发

2019已经很冷,2020年Android工作或更难找——进大厂面试必备基础技能

android 程序员 移动开发

2020Android高级开发面试题以及答案整理,持续更新中~

android 程序员 移动开发

2020作为一个资深的Android开发者需要掌握哪些技能?

android 程序员 移动开发

2020对标阿里P8,最强学习路线:Android小白—

android 程序员 移动开发

dart系列之:dart语言中的变量

程序那些事

flutter dart 程序那些事 11月日更

eBPF: 让云原生运维拥有超能力

俞凡

云原生 网络 ebpf

06 K8S之kubectl命令介绍

穿过生命散发芬芳

k8s 11月日更

固定价格项目能否敏捷?

Bruce Talk

敏捷 随笔 Agile

2019-金九银十多家BAT大厂Android面试真题锦集干货整理

android 程序员 移动开发

前端开发中使用纯函数提纯非纯函数

devpoint

JavaScript 纯函数 11月日更

智+人:在云端重塑一场认知革命

脑极体

10道阿里Android岗必问题摆这儿了,你爱刷不刷!(附参考回答解析

android 程序员 移动开发

2018届android校招面试总结:百度,大疆,乐视

android 程序员 移动开发

2019-必看-Android-高级面试题总结

android 程序员 移动开发

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京_软件工程_QCon全球软件开发大会_InfoQ精选文章