2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:605.33K时长:03:26
首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米 手机 IoT 团队 SRE 负责人付冰尧已确认出席并发表题为《稳中求胜:小米米家稳定性保障与故障应急实践》的主题分享,通过米家历史故障案例,介绍近 2-3 年米家是如何通过完善应急保障体系和运维自动化平台,逐步提升业务稳定性,侧重分享业务架构优化、基础组件升级、质量加固经验以及故障预案的制定与实施。



付冰尧在运维领域积累了较丰富经验。曾任职世界 200 强央企,负责 OA、邮箱、SAP 部署实施运维。后担任闪送运维总监,主导公司基础设施软件架构规划与实施。在小米手机部 SRE 团队,推动运维标准化、自动化,实现降本增效,还负责小米相册百 PB 级数据迁移项目。拥有多年 DevOps 开发经验,掌握 Golang、Python 等技术栈,研究方向聚焦云原生与软件工程管理。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米 IoT 业务及架构介绍

  • 业务概况

  • 架构详解

2. IoT 业务质量保障遇到的问题和挑战

  • 用户和设备双侧稳定性保障难题

  • 用户对故障的低容忍与应对压力

3. SRE 的故障应急体系的建设与落地

  • 预警机制

  • 预案管理

  • 关键服务的故障自愈

  • 应急指挥 &协作机制

  • 复盘改进

4. 应急案例分享


您认为,这样的技术在实践过程中有哪些痛点?

  • 用户和设备双侧稳定性能力保障能力的建设

  • 自动化运维能力有待提升,后续如何通过 AIOps 能力增强业务稳定性


演讲亮点

  • 全球领先平台的独家经验分享,米家作为全球最大的消费级物联网平台,首次深度揭秘其在 IoT 业务质量保障方面的宝贵经验

  • 故障应急体系建设的方法论结合具体案例,系统性的介绍如何全面提升业务质量


听众收益

  • 深入了解 IoT 业务特性与质量保障精髓

  • 掌握系统性提升业务质量的方法论

  • 探索 IoT 业务与运维系统的平衡之道


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-05 10:005898

评论

发布
暂无评论

BFC "苦"前端久矣!

coolion

CSS 大前端

一次线上JVM Young GC调优,搞懂了这么多东西!

南方有乔木兮

架构师培训 -08总结 数据结构算法,网络通信协议,非阻塞网络 I/O,数据库原理

刘敏

架构师训练营第8周学习总结

TH

【解构系统设计面试】什么是系统设计?以及如何设计一个新鲜事系统?

罗远航

系统设计

视频丨包不同的沙雕敏捷之砸锅卖铁买兰博

华为云开发者联盟

程序员 运维 敏捷 敏捷开发 技术人

判断两个链表是否合并

Acker飏

第八周总结

Acker飏

Developer 转型记:一个开发平台的“魔力”

华为云开发者联盟

华为 AI 开发者 开发者工具 华为云

求组队,PK华为HMS全球应用创新大赛!

InfoQ_e92167c73263

android

新三板专家-程晓明:四板将是推动区块链技术与资本市场结合试验田

CECBC

区块链技术 推进落地应用

2行代码搞定一个定时器!

简爱W

百万并发「零拷贝」技术系列之经典案例Netty

码农神说

Java Netty 零拷贝

单向链表合并算法

走过路过飞过

要都练基本功

架构师

JVM详解之:HotSpot VM中的Intrinsic methods

程序那些事

Java JVM GC

使用Spring Validation优雅地校验参数

Java课代表

springboot

架构师训练营week08 学习总结

GunShotPanda

该学一学了!零基础入门Docker

程序员的时光

Docker

揭秘淘宝平台广告策略,拆解最佳投放实践

华为云开发者联盟

数据分析 广告 用户增长 淘宝 电商

Java中的模板设计模式,太实用了!

BUZHIDAO

Java

一图看懂华为云DevCloud如何应对敏捷开发的测试挑战

华为云开发者联盟

微服务 敏捷开发 测试 云服务 华为云

轻量级BI应用-Superset实践

Jackchang234987

BI 数据产品

知识点梳理:聊聊iOS SDK数据采集那点事儿

易观大数据

信创舆情一线--50多家科技公司源代码泄露

统小信uos

MySQL的索引基础知识

guoguo 👻

Java SSM 框架常见面试题

老大哥

Java

架构师训练营week08 作业

GunShotPanda

第八周总结

LEAF

面试官问:僵尸进程和孤儿进程有了解过吗

Java小咖秀

Linux 学习 面试 进程 经验

判了!中科大博士写游戏外挂赚了12万获刑,被抓才知道帮团队赚了300万……

程序员生活志

游戏开发 游戏 游戏外挂 新闻

首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon北京_软件工程_QCon全球软件开发大会_InfoQ精选文章