Data+AI时代,如何打造下一代数智平台? 了解详情
写点什么

首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon 北京

  • 2025-04-05
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:605.33K时长:03:26
首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米 手机 IoT 团队 SRE 负责人付冰尧已确认出席并发表题为《稳中求胜:小米米家稳定性保障与故障应急实践》的主题分享,通过米家历史故障案例,介绍近 2-3 年米家是如何通过完善应急保障体系和运维自动化平台,逐步提升业务稳定性,侧重分享业务架构优化、基础组件升级、质量加固经验以及故障预案的制定与实施。



付冰尧在运维领域积累了较丰富经验。曾任职世界 200 强央企,负责 OA、邮箱、SAP 部署实施运维。后担任闪送运维总监,主导公司基础设施软件架构规划与实施。在小米手机部 SRE 团队,推动运维标准化、自动化,实现降本增效,还负责小米相册百 PB 级数据迁移项目。拥有多年 DevOps 开发经验,掌握 Golang、Python 等技术栈,研究方向聚焦云原生与软件工程管理。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小米 IoT 业务及架构介绍

  • 业务概况

  • 架构详解

2. IoT 业务质量保障遇到的问题和挑战

  • 用户和设备双侧稳定性保障难题

  • 用户对故障的低容忍与应对压力

3. SRE 的故障应急体系的建设与落地

  • 预警机制

  • 预案管理

  • 关键服务的故障自愈

  • 应急指挥 &协作机制

  • 复盘改进

4. 应急案例分享


您认为,这样的技术在实践过程中有哪些痛点?

  • 用户和设备双侧稳定性能力保障能力的建设

  • 自动化运维能力有待提升,后续如何通过 AIOps 能力增强业务稳定性


演讲亮点

  • 全球领先平台的独家经验分享,米家作为全球最大的消费级物联网平台,首次深度揭秘其在 IoT 业务质量保障方面的宝贵经验

  • 故障应急体系建设的方法论结合具体案例,系统性的介绍如何全面提升业务质量


听众收益

  • 深入了解 IoT 业务特性与质量保障精髓

  • 掌握系统性提升业务质量的方法论

  • 探索 IoT 业务与运维系统的平衡之道


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-05 10:005908

评论

发布
暂无评论

热烈庆祝“海泰密码技术融合创新中心&数据中心重启安全工程”双中心智能重启用

电子信息发烧客

网络安全 科技 科技企业

Apache SeaTunnel(Incubating)与计算引擎的解耦之道,重构API我们做了些什么

Apache SeaTunnel

Apache 大数据 开源 DolphinScheduler workflow

英伟达周锡健:设计到数字营销的最后一公里

阿里云弹性计算

vr XR 视觉计算

混合办公首选轻薄本,华为MateBook的“三重变身”改变了什么?

脑极体

《阿里云代码安全白皮书》5个维度应对3类代码安全问题

阿里云云效

云计算 阿里云 代码管理 代码托管 代码安全

直播预告丨Hello HarmonyOS进阶课程第四课——ArkUI动画开发

HarmonyOS开发者

HarmonyOS arkui

SaaS应用:企业数字化转型性价比最高的方式

小炮

做了5年开源项目,我总结了以下提PR经验!

OpenHarmony开发者

OpenHarmony 开源生态

我们为什么选择使用分布式持续交付新星 Zadig ?

Zadig

DevOps 云原生 CI/CD 软件交付

Markdown语法简介

工程师日月

markdown语法 5月月更

前端食堂技术周刊第 38 期:Remix v1.5.0、Babel v7.18.0、前端部署十五章、Tree Shaking 问题排查指南、一文搞懂前端技术发展

童欧巴

前端 Remix 前端部署

满满干货!手把手教你实现基于eTS的HarmonyOS分布式计算器

HarmonyOS开发者

HarmonyOS ETS

netty系列之:epoll传输协议详解

程序那些事

Java Netty 程序那些事 5月月更

企业引流和留存,“App+小程序”是较优技术策略

Speedoooo

微信小程序 APP开发 小程序容器 小程序转app

烧录OpenHarmony 3.2(尝鲜版)步骤

离北况归

OpenHarmony OpenHarmony3.2

微擎同步粉丝不显示头像和昵称?

智伍应用

微擎 php开源

人人皆为开发者?不可错过的低代码发展新趋势

云智慧AIOps社区

大前端 低代码 数据可视化

10分钟,将微信小程序转换成App

Speedoooo

微信小程序 移动开发 小程序容器 小程序转app

【刷题第16天】数组中出现次数超过一半的数字

白日梦

5月月更

谈谈技术能力

阿里巴巴中间件

阿里云 程序员 中间件 技术思考

IET 试水SiFL中文项目 为中国工程师“走出去”创造宝贵机遇

E科讯

“双碳”大局中再看业务合同电子化

鲸品堂

节能 提效降本 双碳

使用postMessage对iframe进行跨域数据传输

空城机

iframe postMessage 5月月更

多款顶级好用的 Vue 表单设计器测评推荐,可拖拽生成表单

蒋川

Vue Element 组件 表单设计 Ant Design

Apache ShenYu 网关正式支持 Dubbo3 服务代理

阿里巴巴中间件

阿里云 开源 微服务 云原生 dubbo

为什么校招面试中“线程与进程的区别”老是被问到?我该如何回答?

宇宙之一粟

线程 进程 5月月更

小程序和App同时拥有?两者兼得的一种技术方案

Speedoooo

微信小程序 APP开发 小程序容器 小程序转app

Hoo研究院|区块链简报 20220523期

区块链前沿News

#区块链# Hoo 热点

使用 Provider 实现 Flutter 不相关页面状态数据共享

岛上码农

flutter ios 安卓开发 跨平台开发 5月月更

干货复盘 | 易观分析“出海非洲战略”专题分享

易观分析

非洲战略

成本节省 50%,10 人团队使用函数计算开发 wolai 在线文档应用

阿里巴巴中间件

阿里云 中间件 函数计算

首次深度揭秘,小米米家稳定性保障与故障应急实践 | QCon北京_软件工程_QCon全球软件开发大会_InfoQ精选文章