从数字化到数智化:百度 SRE 免疫系统构建与应用实践 | QCon 北京

  • 2025-04-04
    北京
  • 本文字数:1550 字

    阅读完需:约 5 分钟

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。

百度资深运维工程师梅利民已确认出席并发表题为《从数字化到数智化:百度 SRE 免疫系统构建与应用实践》的主题分享,展开介绍百度如何通过“数字免疫”概念构建可持续的高质量保障体系,探讨如何通过质量能力数字化、产品规模化和智能增强三大路径,帮助团队系统性提升质量保障能力,希望能为其他企业提供参考。

梅利民目前在百度任搜索、推荐等业务运维技术负责人,聚焦高可用架构、高资源效能、敏捷效率以及 AIOps 智能运维方向。他在 2014 年加入百度,先后负责消息中间件基础服务、搜索/推荐等业务服务运维工作,完成集团单机房故障自动止损、应用弹性伸缩/计算成本治理/智能带宽成本优化以及机房敏捷搬迁等项目设计和落地。当前聚焦在 AIOps 数字化、智能化运维创新技术领域,负责运维大模型智能客服系统和数智化免疫等运维平台产品的研发与建设,致力于通过技术创新提升运维效率与系统稳定性。他在本次会议的详细演讲内容如下:

演讲提纲

1. 背景与机遇

  • 云原生趋势下质量保障的挑战

  • 数字化免疫能力带来的机遇

2. 基于数字化的免疫建设路径

  • 业界调研与百度自研路径选择

  • 实现路径:数字化、产品规模化落地及智能化探索

3. 免疫能力系统方案设计

  • 质量能力数字化:五大场景的数字化建模与风险识别

  • 产品化生态构建:统一数仓的灵活编排能力及多方协同共建模式

  • 智能化探索:风险处置的自助化、智能闭环处理探索

4. 数字免疫应用落地实践

  • 统一数仓建设:解决数据标准化量化不足

  • 规则库推广:通过灵活的可组合能力,降低使用门槛,支持业务共建生态

  • 数字化风险治理:风险治理与智能闭环探索

5. 总结与展望

  • 从数字化到数智化免疫系统的核心价值与行业意义

  • AI 时代质量保障能力的持续探索方向

您认为,这样的技术在实践过程中有哪些痛点?

  • 统一数仓的构建仍然存在一定的适配成本、维护成本以及后期的拓展成本

  • 对接(理解)底层不同云产品的数据过程中,需要投入专家人力

  • 随着接入用户和定制化策略增多,统一数仓在未来每一次的结构更新和性能优化都面临较大挑战

  • 产品化开放生态的同时,也面临着大量的“冗余”策略,对策略调优有较大挑战

  • 自定义策略较高的灵活性,在业务接入初期可以带来明显的正向收益;但是随着业务的迭代、人员更替,新旧策略的汰换、历史任务退场等可能影响评估准确性

  • 对于自定义策略,目前暂无较好的通用调优方案;用户想自行维护低冗余策略,减少低效开支,需要投入较大成本

演讲亮点

  • 质量能力保障理念革新:由被动治理转变为协同共建治理,降低理解和使用成本

  • 质量能力治理左移:由被动解决问题到风险治理,规避故障发生

听众收益

  • 了解百度在质量保障领域的数字化转型与智能化实践的工程经验

  • 了解数字免疫能力在落地过程中的技术点

  • 了解云原生与 AI 时代下质量保障的未来发展方向,为其他企业提供参考

除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。

为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088