写点什么

亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海

  • 2025-09-18
    北京
  • 本文字数:1963 字

    阅读完需:约 6 分钟

大小:1.01M时长:05:54
亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


bilibili 可观测平台研发负责人徐建伟已确认出席并发表题为亿级用户背后的智能诊断:多模态数据融合与实时诊断实践的主题分享。在支撑 bilibili 亿级用户的复杂分布式系统中,一次故障可能涉及数百个微服务的连锁反应。传统的人工排查方式面临着"大海捞针"的困境,平均 MTTR 往往在小时级别。而 AI 技术的突破为这一问题带来了全新解法。团队构建了智能化根因分析系统,实现了从"被动响应"到"主动诊断"的转变,将工程师从重复性排查工作中解放出来。本次分享将深入剖析 bilibili 在 AI 驱动的智能运维领域的核心技术实践,包括多模态数据融合、知识图谱构建、大模型推理优化等关键技术,为听众提供可落地的 AI + 可观测性解决方案。


徐建伟是 bilibili 可观测平台研发负责人,8 年可观测性平台架构设计与研发运维经验,主导构建了支撑 bilibili 亿级用户的可观测系统全链路架构。在 AI 驱动的智能运维领域有深度实践经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 从"人肉排查"到"AI 诊断":bilibili 的痛点与机遇

  • 亿级用户背景下的故障挑战:复杂度指数级增长

  • 传统根因分析的三大瓶颈:时间成本、准确率、知识传承

  • AI 技术带来的机遇:数据驱动 + 智能推理

2. 根因分析核心架构和演进思路

  • 多模态数据融合:日志、指标、链路、事件的统一建模

  • 知识图谱构建:从历史案例到智能推理规则

  • 大模型应用:自然语言处理 + 时序分析的深度融合

  • 数据提纯:清洗、对齐、增强 —— 打造高信噪比的诊断燃料

  • 模型迭代:动态调整推理边界,让 AI 学会“灰度思考”

  • 工单即训练集:每一次人工复盘都是模型的进化机会

  • 自生长的知识库:诊断结果自动沉淀为可复用的解决方案

3. 核心场景的 AI 化改造实践

  • 视频播放异常:从告警到根因定位的 3 分钟闭环

  • 推荐系统降级:多组件级联故障的智能溯源

  • 局部流量暴增:多元数据联动诊断

  • 数据库性能:SQL 慢查询的智能优化建设

4. 技术演进方向与实践展望

  • 场景覆盖的扩展:降低用户领域知识到根因模型的转化门槛

  • 准确率的持续提升:从问题定界向精准定根因的技术深化

  • AI 能力的平台化:构建可复制、可扩展的智能诊断体系


您认为,这样的技术在实践过程中有哪些痛点?

  • 特定业务逻辑场景覆盖不足(如风控限流导致互动主播无法查看到观众弹幕)

  • 定制化业务规则适配成本较高(需人工配置策略,购买任务配置过期)

  • 复杂业务场景的根因定位准确率待提升(典型如联合会员兑换未到账问题)


演讲亮点

  • 通过建立业务场景模型与底层多模态数据的深度关联,实现了从业务指标异常(如流量下跌)到系统组件(如风险控制模块)、基础设施(如 IP 发布策略)的全链路根因追溯能力。这种端到端的关联分析有效解决了传统监控中"指标孤岛"问题,使故障定位时间缩短 60% 以上

  • 将传统权重分析升级为基于知识图谱的因果推理模型,通过细粒度条件过滤机制(如结合发布时间窗口、IP 批次等维度),实现了多维因子交叉影响的自动化分析。实际测试表明,该方法使误报率降低 45%,准确率提升至 92%


听众收益

  • 系统性理解分布式场景下的根因分析挑战

    掌握复杂系统中根因定位的典型难点(如微服务间非线性交互、数据割裂、术语差异等),明确从“表象告警”到“真实根因”的推理障碍

    学习如何通过多源数据融合(日志、指标、链路等)和知识库构建解决信息缺失与噪声问题

  • 获得可落地的根因分析方法论与实践经验

    了解从告警触发到自动化归因的完整演进路径,包括模型优化(如边界条件细化)、案例沉淀(工单联动生成知识库)等关键步骤

    直接复用分享中的典型场景解决方案(如 SLA 异常、MySQL 慢查询突增),快速定位类似问题(如资源争抢、发布故障)


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-18 13:001

评论

发布
暂无评论

破除“数据孤岛”新策略:Data Fabric(数据编织)和逻辑数据平台

Aloudata

数据管理 数据孤岛 数据虚拟化 Data Fabric 数据编织

报名参加通义灵码高校训练营,领 300 元阿里云产品通用抵扣金

阿里云云效

阿里云 云原生

报名参加通义灵码高校训练营,领 300 元阿里云产品通用抵扣金

阿里巴巴云原生

阿里云 云原生 通义灵码

使用Python获取HTTP请求头数据

霍格沃兹测试开发学社

一文读懂Lumoz节点的潜力与收益,加密收益新范式

BlockChain先知

快速掌握 WinRAR:详细安装与使用指南

霍格沃兹测试开发学社

VMware vCenter Server 8.0U1e 下载 - 修复堆溢出 (远程执行代码) 和本地权限提升漏洞

sysin

vSphere vcenter esxi

2024年全球架构师峰会(ArchSummit深圳站)

后台技术汇

Java 后台开发 架构师 全球架构师峰会 ArchSubmit

使用Python获取HTTP请求头数据

霍格沃兹测试开发学社

Postman 集合变量使用详解

霍格沃兹测试开发学社

MQTTX 1.10.0 发布:CLI高级文件管理与配置

EMQ映云科技

mqtt mqttx

火山引擎×OPPO,以多样化AI智能体为手机用户带来全新体验

新消费日报

解决华为NEXT应用开发中模拟器组件缺失问题

彭康佳

鸿蒙 an'droid

Altair 助力优化摩托车空气动力学性能,实现更好的整流罩设计

Altair RapidMiner

人工智能 仿真 AIGC altair

小鲤AI志愿填报助手:一键探索最适合你的大学专业

AI Inception

AI 高考 AIGC rag

使用 Apache JMeter 事务控制器的详细指南

霍格沃兹测试开发学社

从钉钉到跨境电商技术演变,HHO通过NineData实现全球化业务布局

NineData

数据安全 数据管理 NineData 两氢一氧 本地机房

使用 Apache JMeter 吞吐量控制器的详细指南

霍格沃兹测试开发学社

多环境镜像晋级/复用最佳实践

阿里巴巴云原生

阿里云 云原生 云效

利用JAVA语言调用GLM-4接口实战指南

幂简集成

Java API 大模型

VMware vCenter Server 8.0U2d 下载 - 修复堆溢出 (远程执行代码) 和本地权限提升漏洞

sysin

vSphere vmware vcenter esxi

数据虚拟化和 Data Fabric(数据编织)对企业数据管理意味着什么?

Aloudata

数据管理 数据孤岛 数据虚拟化 Data Fabric 数据编织

华为阅读亮相BIBF:以AI赋能出版行业,引领阅读新业态

最新动态

英伟达成全球市值第一公司;苹果暂停下一代高端头显研发丨 RTE 开发者日报 Vol.227

声网

VMware vCenter Server 7.0U3r 下载 - 修复堆溢出 (远程执行代码) 和本地权限提升漏洞

sysin

vSphere vcenter esxi

Web3新视野:Lumoz节点的潜力与收益解读

石头财经

质检迈入新时代,天润融通推出基于大模型的质检3.0解决方案

天润融通

人工智能

亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章