写点什么

从数字化到数智化:百度 SRE 免疫系统构建与应用实践 | QCon 北京

  • 2025-04-04
    北京
  • 本文字数:1550 字

    阅读完需:约 5 分钟

大小:828.71K时长:04:42
从数字化到数智化:百度 SRE 免疫系统构建与应用实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


百度资深运维工程师梅利民已确认出席并发表题为《从数字化到数智化:百度 SRE 免疫系统构建与应用实践》的主题分享,展开介绍百度如何通过“数字免疫”概念构建可持续的高质量保障体系,探讨如何通过质量能力数字化、产品规模化和智能增强三大路径,帮助团队系统性提升质量保障能力,希望能为其他企业提供参考。



梅利民目前在百度任搜索、推荐等业务运维技术负责人,聚焦高可用架构、高资源效能、敏捷效率以及 AIOps 智能运维方向。他在 2014 年加入百度,先后负责消息中间件基础服务、搜索/推荐等业务服务运维工作,完成集团单机房故障自动止损、应用弹性伸缩/计算成本治理/智能带宽成本优化以及机房敏捷搬迁等项目设计和落地。当前聚焦在 AIOps 数字化、智能化运维创新技术领域,负责运维大模型智能客服系统和数智化免疫等运维平台产品的研发与建设,致力于通过技术创新提升运维效率与系统稳定性。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景与机遇

  • 云原生趋势下质量保障的挑战

  • 数字化免疫能力带来的机遇

2. 基于数字化的免疫建设路径

  • 业界调研与百度自研路径选择

  • 实现路径:数字化、产品规模化落地及智能化探索

3. 免疫能力系统方案设计

  • 质量能力数字化:五大场景的数字化建模与风险识别

  • 产品化生态构建:统一数仓的灵活编排能力及多方协同共建模式

  • 智能化探索:风险处置的自助化、智能闭环处理探索

4. 数字免疫应用落地实践

  • 统一数仓建设:解决数据标准化量化不足

  • 规则库推广:通过灵活的可组合能力,降低使用门槛,支持业务共建生态

  • 数字化风险治理:风险治理与智能闭环探索

5. 总结与展望

  • 从数字化到数智化免疫系统的核心价值与行业意义

  • AI 时代质量保障能力的持续探索方向


您认为,这样的技术在实践过程中有哪些痛点?

  • 统一数仓的构建仍然存在一定的适配成本、维护成本以及后期的拓展成本

  • 对接(理解)底层不同云产品的数据过程中,需要投入专家人力

  • 随着接入用户和定制化策略增多,统一数仓在未来每一次的结构更新和性能优化都面临较大挑战

  • 产品化开放生态的同时,也面临着大量的“冗余”策略,对策略调优有较大挑战

  • 自定义策略较高的灵活性,在业务接入初期可以带来明显的正向收益;但是随着业务的迭代、人员更替,新旧策略的汰换、历史任务退场等可能影响评估准确性

  • 对于自定义策略,目前暂无较好的通用调优方案;用户想自行维护低冗余策略,减少低效开支,需要投入较大成本


演讲亮点

  • 质量能力保障理念革新:由被动治理转变为协同共建治理,降低理解和使用成本

  • 质量能力治理左移:由被动解决问题到风险治理,规避故障发生


听众收益

  • 了解百度在质量保障领域的数字化转型与智能化实践的工程经验

  • 了解数字免疫能力在落地过程中的技术点

  • 了解云原生与 AI 时代下质量保障的未来发展方向,为其他企业提供参考


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-04 17:007134

评论

发布
暂无评论

拆解&组合

圣迪

数据 创新 组合 拆解 要素

神工鬼斧惟肖惟妙,M1 mac系统深度学习框架Pytorch的二次元动漫动画风格迁移滤镜AnimeGANv2+Ffmpeg(图片+视频)快速实践

刘悦的技术博客

人工智能 机器学习 深度学习 PyTorch 图像处理

【Spring Boot 快速入门】七、Spring Boot集成RabbitMQ

小阿杰

RabbitMQ SpringBoot 2 内容合集 签约计划第二季

重学计算机组成原理(4)-还记得纸带编程吗?

JavaEdge

12月日更

Thanos 架构剖析(六)告警规则如何管理

耳东@Erdong

Thanos 签约计划第二季 Rule

Go 语言快速入门指南:第四篇 与数据为舞之数组

宇宙之一粟

数组 签约计划第二季 12月日更

和12岁小同志搞创客开发:手撕代码,做一款遥控灯

不脱发的程序猿

少儿编程 DIY 智能硬件 创客开发 Arduino

【Spring Boot 快速入门】六、Spring Boot集成Redis

小阿杰

redis SpringBoot 2 内容合集 签约计划第二季

面试官:StringBuilder与TextWriter有什么区别

喵叔

28天写作 12月日更

45 K8S之系统扩展CRD/自定义API Server

穿过生命散发芬芳

k8s 28天写作 12月日更

阿里云 FaaS 架构设计与创新实践

阿里巴巴云原生

阿里云 Serverless 云原生 Faas

架构实战营模块二作业

张扬

Go 语言快速入门指南 【专题合集】

宇宙之一粟

Go 内容合集 签约计划第二季 技术专题合集

每一天

Nydia

创业研发团队的氛围营造

wood

创业 管理 28天写作

Python Qt GUI设计:窗口之间数据传递(拓展篇—5)

不脱发的程序猿

Python qt PyQt GUI设计 窗口之间数据传递

学习源码整体架构系列 | 前端

若川

内容合集 签约计划第二季 技术专题合集

Volatile 原理七:volatile都不保证原子性,为啥我们还要用它

悟空聊架构

volatile 原子性 28天写作 悟空聊架构 12月日更

模块2作业

miliving

和12岁小同志搞创客开发:手撕代码,做一款数字骰子

不脱发的程序猿

少儿编程 DIY 智能硬件 创客开发 Arduino

你还在一个挨一个的删除镜像文件吗?

liuzhen007

28天写作 12月日更

1-10聚合架构第十一讲:不服?那得治!

钰湚—付晓岩

架构实战营模块二学习总结

张扬

Thanos 架构剖析(五)历史数据怎么办

耳东@Erdong

Thanos 签约计划第二季 compactor

[Pulsar] Acknowledgement原理

Zike Yang

Apache Pulsar 12月日更

腾讯新闻基于 Flink PipeLine 模式的实践

腾讯云大数据

flink pipeline 流计算 Oceanus

对上管理

张老蔫

28天写作

Go 语言快速入门指南:第五篇 与数据为舞之切片

宇宙之一粟

golang slices 切片 签约计划第二季 12月日更

Hystrix

李子捌

微服务 28天写作 12月日更

聊天与学习

将军-技术演讲力教练

Go 语言快速入门指南:第三篇 流程控制

宇宙之一粟

for 流程控制 swith 签约计划第二季 if语句

从数字化到数智化:百度 SRE 免疫系统构建与应用实践 | QCon北京_云计算_QCon全球软件开发大会_InfoQ精选文章