首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。

小米 手机 IoT 团队 SRE 负责人付冰尧已确认出席并发表题为《稳中求胜:小米米家稳定性保障与故障应急实践》的主题分享,通过米家历史故障案例,介绍近 2-3 年米家是如何通过完善应急保障体系和运维自动化平台,逐步提升业务稳定性,侧重分享业务架构优化、基础组件升级、质量加固经验以及故障预案的制定与实施。

付冰尧在运维领域积累了较丰富经验。曾任职世界 200 强央企,负责 OA、邮箱、SAP 部署实施运维。后担任闪送运维总监,主导公司基础设施软件架构规划与实施。在小米手机部 SRE 团队,推动运维标准化、自动化,实现降本增效,还负责小米相册百 PB 级数据迁移项目。拥有多年 DevOps 开发经验,掌握 Golang、Python 等技术栈,研究方向聚焦云原生与软件工程管理。他在本次会议的详细演讲内容如下:

演讲提纲

1. 小米 IoT 业务及架构介绍

  • 业务概况

  • 架构详解

2. IoT 业务质量保障遇到的问题和挑战

  • 用户和设备双侧稳定性保障难题

  • 用户对故障的低容忍与应对压力

3. SRE 的故障应急体系的建设与落地

  • 预警机制

  • 预案管理

  • 关键服务的故障自愈

  • 应急指挥 &协作机制

  • 复盘改进

4. 应急案例分享

您认为,这样的技术在实践过程中有哪些痛点?

  • 用户和设备双侧稳定性能力保障能力的建设

  • 自动化运维能力有待提升,后续如何通过 AIOps 能力增强业务稳定性

演讲亮点

  • 全球领先平台的独家经验分享,米家作为全球最大的消费级物联网平台,首次深度揭秘其在 IoT 业务质量保障方面的宝贵经验

  • 故障应急体系建设的方法论结合具体案例,系统性的介绍如何全面提升业务质量

听众收益

  • 深入了解 IoT 业务特性与质量保障精髓

  • 掌握系统性提升业务质量的方法论

  • 探索 IoT 业务与运维系统的平衡之道

除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。

为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088