写点什么

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1744 字

    阅读完需:约 6 分钟

大小:950.95K时长:05:24
“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


美图高级运维经理石鹏已确认出席并发表题为《“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践》的主题分享,结合美图 SRE 团队的实践经验,深入探讨故障应急的各个环节,并由此展开给大家呈现一个典型的“故障生命周期”。演讲将沿着这个脉络对故障的本质和常见原因进行剖析,对可观测性建设、灾备建设、应急预案及演练、故障复盘等日常高频工作场景进行讲解。此外,也将对 AIOps、LLM Ops 等前沿的技术做一些探讨和交流。



石鹏从业十余年,一直从事运维相关的工作。 2016 年加入美图公司,现任美图 SRE 负责人,目前整体负责美图公司线上服务的稳定性保障工作。 曾多次参与或主导过美图公司多项基础设施、运维架构的调整和改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验积累和行业输出。 致力于推广 SRE、稳定性运营相关的理念及实践,编著有「SRE 系统建设指南」图谱,参与过业界多个 SRE、DevOps 相关案例集/期刊/标准/白皮书的编纂或供稿。他同时还是业界多个技术峰会的分享嘉宾、金牌讲师或出品人,SRE 精英联盟成员,中国信通院「稳定性保障实验室」认证专家、关键技术工作组-技术监督委员会委员兼应急工作组组长。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引子:你是否会“谈故障色变”,遇到故障慌不慌,为个啥?

2. 洞若观火:洞察本质,掌握规律

  • SRE 的核心职责 与 企业发展的关系

  • 构建「大框架」:可靠性工程的「全生命周期」

  • 构建「大框架」:稳定性运营的「全景图」

  • 建立对故障的正确认识

  • 稳定性工作的度量 和 工作目标

3. 未雨绸缪:体系建设,主动出击

  • 体系化建设清单

  • 可观测性建设

  • 高可用建设

  • 应急预案及预案演练

  • SRE 工具箱建设

4. 指挥若定:有章可循,有条不紊

  • 原则和建议

  • 流程机制约定

  • 故障现场指挥

  • 常见故障场景 及 常见手段

  • 非常规模式 及 处置方法

  • 血泪案例分享

5. 复盘改进:吃堑长智,举一反三

  • 工作清单复盘

  • 故障复盘:从“黄金三问”到“深度思考”

  • 如何进行故障的定级、定性、定责?

  • 周期回顾 和 数据洞察

6. 补充总结 & 未来展望

  • 故障管理 之 体系化框架

  • 前沿技术探索及展望


您认为,这样的技术在实践过程中有哪些痛点?

  • “老生常谈”的几个需要平衡的问题及 SRE 所面临的典型困境

  • 稳定性建设的目标、业务高速迭代的效率诉求、公司在稳定建设方面可以投入的资源之间会存在矛盾

  • SRE 人手不足、工具建设不到位、忙于救火、疲于应付的恶性循环。破除这些困境,需要找到合适的切入点,方法也因时、因地不尽相同

  • 新技术的应用和落地:AIOps、LLM Ops 等新技术为故障应急带来了新的可能性,现在业界也有很多探索和实践。尤其是随着 DeepSeek 开源之后,有很多团队也在积极拥抱和尝试,但如何将这些技术真正应用到实践中,在落地过程中还有一些问题尚待探索和解决。

  • 业务系统、环境的复杂性,可能会带来一些“未知的未知”,这些会对故障应急带来非常大的挑战。


演讲亮点

  • 故障管理的流程化和规范化

  • 稳定性运营的持续改进


听众收益

  • 掌握故障应急的系统性方法:从故障的本质出发,系统性地思考和解决故障应急问题,而不是仅仅停留在“头痛医头,脚痛医脚”

  • 提升故障处理的实战能力:了解美图 SRE 团队在故障应急方面的实践,包括可观测性建设、高可用建设、应急预案制定与演练、故障复盘等实操性实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-05 17:006946

评论

发布
暂无评论

韩国电商巨头Coupang 如何利用分布式缓存加速机器学习模型训练

Alluxio

机器学习 AI 模型训练 电商平台 Coupang

如何利用jobleap.cn更有效地转行以及找到满意的工作

安全乐谷

找工作 简历 秋招 春招 找实习

2025年在哪里可以找到开始秋招的公司?

安全乐谷

找工作 招聘 应届生 秋招 找实习

jobleap.cn解决了哪些传统招聘软件没解决的问题

安全乐谷

求职 找工作 招聘 秋招 春招

jobleap.cn的简历优化功能可以如何使用

安全乐谷

面试 求职 简历优化 找工作 找实习

如何利用JobLeap.cn找到第一份实习

安全乐谷

找工作 秋招 春招 找实习

如何利用jobleap.cn提高简历通过率和面试成功率

安全乐谷

找工作 招聘 秋招 春招 找实习

OHDC.2025 | Web与W3C标准分论坛:共商共建,共筑未来

极客天地

React-native新架构

溪抱鱼

前端 React 框架

Claude 语音版曝光,可通过对话搜索文档、撰写邮件;ElevenLabs 已支付音频样本演员超 500 万美元丨日报

声网

中国国内最好的求职招聘软件有哪些

安全乐谷

求职 找工作 招聘 秋招 春招

时序数据库 IoTDB 集成 DBeaver,简易操作实现时序数据清晰管理

Apache IoTDB

智能驾驶感知算法任务简介

地平线开发者

自动驾驶; 算法工具链 地平线征程6

低代码是什么?2025技术详解:平台分类、用户群体与发展趋势

优秀

低代码 低代码开发 低代码平台

为什么说JobLeap.cn是文科生找工作的最佳选择?

安全乐谷

找工作 应届生 秋招 春招 找实习

从0到1:多医院陪诊小程序开发笔记(上)

CC同学

OHDC.2025 | 硬件生态分论坛:共筑开源鸿蒙硬件新生态

极客天地

ArkUI-X添加到现有Android项目中

龙儿筝

OHDC.2025 | 大屏生态分论坛:共建共享,共赢未来

极客天地

为什么JobLeap.cn的新一代智能职业发展平台比传统求职软件更有效

安全乐谷

求职 找工作 秋招 春招 找实习

Alluxio AI助力知乎千卡模型训练

Alluxio

iVX+ARM 边缘计算技术架构解析:从底层架构到行业应用

代码制造者

懒懒笔记 | 课代表带你梳理【RAG课程 9&10:大模型微调与思维链蒸馏】

商汤万象开发者

互联网一线大厂最新版 Java面试八股文

Geek_Yin

Java 程序员 Java面试题 Java面试八股文

最系统的Java八股文大全(25技术栈完整脑图+源码解析)

Geek_Yin

程序员 java面试 Java面试题 Java面试八股文

前端工具方法整理

刘大猫

Java 数组 js 格式化字符串 刷新页面

OHDC.2025 | Watch生态分论坛:共绘腕间设备新蓝图

极客天地

OHDC.2025 | AI分论坛:探索开源鸿蒙AI无限可能

极客天地

什么是新一代智能职业发展平台?jobleap.cn领导的新一代求职平台与传统App有何不同?

安全乐谷

求职 找工作 秋招 春招

2025年有哪些高效且前沿的求职技巧,可以助我找到更好的工作

安全乐谷

面试 求职 找工作 招聘 秋招

OHDC.2025 | 统一互联分论坛:All Devices,One Connect

极客天地

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践 | QCon北京_软件工程_QCon全球软件开发大会_InfoQ精选文章