在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:605.33K时长:03:26
首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米 手机 IoT 团队 SRE 负责人付冰尧已确认出席并发表题为《稳中求胜:小米米家稳定性保障与故障应急实践》的主题分享,通过米家历史故障案例,介绍近 2-3 年米家是如何通过完善应急保障体系和运维自动化平台,逐步提升业务稳定性,侧重分享业务架构优化、基础组件升级、质量加固经验以及故障预案的制定与实施。



付冰尧在运维领域积累了较丰富经验。曾任职世界 200 强央企,负责 OA、邮箱、SAP 部署实施运维。后担任闪送运维总监,主导公司基础设施软件架构规划与实施。在小米手机部 SRE 团队,推动运维标准化、自动化,实现降本增效,还负责小米相册百 PB 级数据迁移项目。拥有多年 DevOps 开发经验,掌握 Golang、Python 等技术栈,研究方向聚焦云原生与软件工程管理。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米 IoT 业务及架构介绍

  • 业务概况

  • 架构详解

2. IoT 业务质量保障遇到的问题和挑战

  • 用户和设备双侧稳定性保障难题

  • 用户对故障的低容忍与应对压力

3. SRE 的故障应急体系的建设与落地

  • 预警机制

  • 预案管理

  • 关键服务的故障自愈

  • 应急指挥 &协作机制

  • 复盘改进

4. 应急案例分享


您认为,这样的技术在实践过程中有哪些痛点?

  • 用户和设备双侧稳定性能力保障能力的建设

  • 自动化运维能力有待提升,后续如何通过 AIOps 能力增强业务稳定性


演讲亮点

  • 全球领先平台的独家经验分享,米家作为全球最大的消费级物联网平台,首次深度揭秘其在 IoT 业务质量保障方面的宝贵经验

  • 故障应急体系建设的方法论结合具体案例,系统性的介绍如何全面提升业务质量


听众收益

  • 深入了解 IoT 业务特性与质量保障精髓

  • 掌握系统性提升业务质量的方法论

  • 探索 IoT 业务与运维系统的平衡之道


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-05 10:006321

评论

发布
暂无评论

一文详解RocketMQ的存储模型

华为云开发者联盟

开发 华为云 企业号 1 月 PK 榜

EMQ携“云边协同IIoT解决方案”亮相2022世界工业互联网产业大会

EMQ映云科技

人工智能 物联网 IoT 云边协同 企业号 1 月 PK 榜

强强联手 | 尚硅谷&腾讯云EMR离线数仓教程发布

小谷哥

YMatrix v5.0 发布:138 项深度优化,重塑集群架构,实现性能及高可用性全方位提升!

YMatrix 超融合数据库

OLAP OLTP 超融合数据库 数据库架构设计 YMatrix

Serverless时代的微服务开发指南:华为云提出七大实践新标准

华为云开发者联盟

微服务 云原生 后端 华为云 企业号 1 月 PK 榜

2022大厂投资盘点:最大的投资就是减少投资

ToB行业头条

重磅发布丨从云原生到Serverless,先行一步看见更大的技术想象力

阿里巴巴云原生

阿里云 Serverless 云原生

IoT物联网设备「固件升级」OTA,「资源包更新」最佳实践——实践类

阿里云AIoT

运维 物联网 数据格式

一文了解华为FusionInsight MRS HBase的集群隔离方案RSGroup

华为云开发者联盟

大数据 后端 华为云 企业号 1 月 PK 榜

基于开源体系的云原生微服务治理实践与探索

阿里巴巴云原生

阿里云 开源 云原生 service mesh

喜报!SelectDB 携手中航信移动科技有限公司、四川大数据技术服务中心,双双入选大数据“星河(Galaxy)”优秀案例

SelectDB

数据库 大数据 数据湖 云原生 云上架构

旅游业复苏在即,区块链赋能智慧旅游新体验

旺链科技

区块链 区块链技术 区块链技术应用

高并发环境下构建缓存服务,你需要注意这6点

华为云开发者联盟

高并发 开发 华为云 企业号 1 月 PK 榜

基于云基础设施快速部署 RocketMQ 5.0 集群

Apache RocketMQ

RocketMQ 云原生 消息队列

DTALK直播预约 | 金融行业嘉宾分享:金融机构数据治理实践路径

袋鼠云数栈

云渲染市场安全吗?如何保证数据安全、财产安全?

Renderbus瑞云渲染农场

云渲染 云渲染农场 云渲染安全

2022 Apache APISIX 年度记忆

API7.ai 技术团队

api 网关 APISIX 年终盘点 apache 社区

2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急

OneFlow

人工智能 深度学习

金融数字化为何需要低代码开发平台

力软低代码开发平台

站酷基于服务网格ASM的生产实践

阿里巴巴云原生

阿里云 云原生 服务网格

划重点,2023 年最值得关注的 8 大技术趋势

PreMaint

人工智能 云计算 5G 技术趋势 元宇宙

软件测试/测试开发丨iOS 自动化测试踩坑(一): 技术方案、环境配置与落地实践

测试人

ios xcode 软件测试 自动化测试 测试开发

云原生安全系列 4:6个 Kubernetes 安全最佳实践

HummerCloud

Kubernetes 云原生安全

IM通讯协议专题学习(七):手把手教你如何在NodeJS中从零使用Protobuf

JackJiang

即时通讯 protobuf im开发

Apache Tomcat 存在 JsonErrorReportValve 注入漏洞(CVE-2022-45143)

墨菲安全

安全漏洞 CVE

明天 9 点!Doris Summit 2022 拉开序幕,立即报名年度技术盛会!

SelectDB

数据湖 云原生 实时数仓 湖仓一体 数据库·

为iframe正名,你可能并不需要微前端

阿里巴巴终端技术

前端 微前端 iframe

首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon北京_软件工程_QCon全球软件开发大会_InfoQ精选文章