写点什么

亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海

  • 2025-09-18
    北京
  • 本文字数:1963 字

    阅读完需:约 6 分钟

大小:1.01M时长:05:54
亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


bilibili 可观测平台研发负责人徐建伟已确认出席并发表题为亿级用户背后的智能诊断:多模态数据融合与实时诊断实践的主题分享。在支撑 bilibili 亿级用户的复杂分布式系统中,一次故障可能涉及数百个微服务的连锁反应。传统的人工排查方式面临着"大海捞针"的困境,平均 MTTR 往往在小时级别。而 AI 技术的突破为这一问题带来了全新解法。团队构建了智能化根因分析系统,实现了从"被动响应"到"主动诊断"的转变,将工程师从重复性排查工作中解放出来。本次分享将深入剖析 bilibili 在 AI 驱动的智能运维领域的核心技术实践,包括多模态数据融合、知识图谱构建、大模型推理优化等关键技术,为听众提供可落地的 AI + 可观测性解决方案。


徐建伟是 bilibili 可观测平台研发负责人,8 年可观测性平台架构设计与研发运维经验,主导构建了支撑 bilibili 亿级用户的可观测系统全链路架构。在 AI 驱动的智能运维领域有深度实践经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 从"人肉排查"到"AI 诊断":bilibili 的痛点与机遇

  • 亿级用户背景下的故障挑战:复杂度指数级增长

  • 传统根因分析的三大瓶颈:时间成本、准确率、知识传承

  • AI 技术带来的机遇:数据驱动 + 智能推理

2. 根因分析核心架构和演进思路

  • 多模态数据融合:日志、指标、链路、事件的统一建模

  • 知识图谱构建:从历史案例到智能推理规则

  • 大模型应用:自然语言处理 + 时序分析的深度融合

  • 数据提纯:清洗、对齐、增强 —— 打造高信噪比的诊断燃料

  • 模型迭代:动态调整推理边界,让 AI 学会“灰度思考”

  • 工单即训练集:每一次人工复盘都是模型的进化机会

  • 自生长的知识库:诊断结果自动沉淀为可复用的解决方案

3. 核心场景的 AI 化改造实践

  • 视频播放异常:从告警到根因定位的 3 分钟闭环

  • 推荐系统降级:多组件级联故障的智能溯源

  • 局部流量暴增:多元数据联动诊断

  • 数据库性能:SQL 慢查询的智能优化建设

4. 技术演进方向与实践展望

  • 场景覆盖的扩展:降低用户领域知识到根因模型的转化门槛

  • 准确率的持续提升:从问题定界向精准定根因的技术深化

  • AI 能力的平台化:构建可复制、可扩展的智能诊断体系


您认为,这样的技术在实践过程中有哪些痛点?

  • 特定业务逻辑场景覆盖不足(如风控限流导致互动主播无法查看到观众弹幕)

  • 定制化业务规则适配成本较高(需人工配置策略,购买任务配置过期)

  • 复杂业务场景的根因定位准确率待提升(典型如联合会员兑换未到账问题)


演讲亮点

  • 通过建立业务场景模型与底层多模态数据的深度关联,实现了从业务指标异常(如流量下跌)到系统组件(如风险控制模块)、基础设施(如 IP 发布策略)的全链路根因追溯能力。这种端到端的关联分析有效解决了传统监控中"指标孤岛"问题,使故障定位时间缩短 60% 以上

  • 将传统权重分析升级为基于知识图谱的因果推理模型,通过细粒度条件过滤机制(如结合发布时间窗口、IP 批次等维度),实现了多维因子交叉影响的自动化分析。实际测试表明,该方法使误报率降低 45%,准确率提升至 92%


听众收益

  • 系统性理解分布式场景下的根因分析挑战

    掌握复杂系统中根因定位的典型难点(如微服务间非线性交互、数据割裂、术语差异等),明确从“表象告警”到“真实根因”的推理障碍

    学习如何通过多源数据融合(日志、指标、链路等)和知识库构建解决信息缺失与噪声问题

  • 获得可落地的根因分析方法论与实践经验

    了解从告警触发到自动化归因的完整演进路径,包括模型优化(如边界条件细化)、案例沉淀(工单联动生成知识库)等关键步骤

    直接复用分享中的典型场景解决方案(如 SLA 异常、MySQL 慢查询突增),快速定位类似问题(如资源争抢、发布故障)


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-18 13:006304

评论

发布
暂无评论

如何基于 Kubernetes 实现优质开发者平台体验?

SEAL安全

Kubernetes IdP 平台工程 内部开发者平台

全套解决方案:中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!

汀丶人工智能

人工智能 自然语言处理 大语言模型

超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据

汀丶人工智能

人工智能 大语言模型 ChatGLM-6B bloom

移动端应用程序的一些测试方案和策略

QE_LAB

移动端测试

酷睿轻薄本也能运行大语言模型,英特尔推动 PC 生成式 AI 落地

E科讯

SpringBoot 的优雅的接口参数验证

java易二三

Java 编程 程序员 计算机

Python案例|Matplotlib库实现的数据分析

TiAmo

Python 数据挖掘 数据分析

解锁多核处理器的力量:探索数据并行化在 Java 8 Stream 中的应用

java易二三

Java 程序员 计算机

一文了解JVM对象内存布具以及内存分配规则

java易二三

Java 程序员 JVM 计算机

窗口到底有多滑动?揭秘TCP/IP滑动窗口的工作原理

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

火山引擎DataLeap基于Apache Atlas自研异步消息处理框架

字节跳动数据平台

数据中台 数据治理 数据安全 数据研发 企业号 8 月 PK 榜

Java 面试题——MySQL 索引篇

郑在暴富中

Java 面试题 MySQL索引

十年磨一剑的华为云GES,高明在哪

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生

网易数帆

大数据 spark 云原生 Kyuubi Celeborn

OpenHarmony 4.0 Beta2新版本发布,邀您体验

OpenHarmony开发者

OpenHarmony

Forrester首次面向中国的开源报告:阿里云在云原生领域开源布局最全面

阿里巴巴云原生

阿里云 开源 云原生

小灯塔系列-中小企业数字化转型系列研究——文档协作测评报告

向量智库

ARTS 0819 打卡

冰封的鸢尾花

ARTS 打卡计划

PCB工艺制程能力介绍及解析(上)

华秋电子

PCB

R语言之 dplyr 包

timerring

R 语言

[小笔记] Java 线程池

java易二三

Java 程序员 线程 线程池 计算机

亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章