写点什么

数据驱动的智能诊断系统:多智能体系统在生产环境中的技术落地与实践|AICon 北京

  • 2025-11-21
    北京
  • 本文字数:1870 字

    阅读完需:约 6 分钟

大小:1009.80K时长:05:44
数据驱动的智能诊断系统:多智能体系统在生产环境中的技术落地与实践|AICon北京

12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


阿里云 Serverless 基础架构负责人 & AgentRun 产研负责人赵庆杰将在「Data+AI / Agent 落地实践」专题发表题为数据驱动的智能诊断系统:多智能体系统在生产环境中的技术落地与实践的主题分享。随着云原生架构与大规模分布式系统的广泛应用,系统复杂性急剧上升,传统基于规则或单点模型的运维诊断手段已难以应对高动态、高维度的生产环境挑战。本演讲将深入剖析阿里云如何构建一套数据驱动的智能诊断系统,通过融合全栈可观测性数据(包括指标、日志、链路与 eBPF 事件)、大语言模型(LLM)推理能力与多智能体协同架构,在真实生产环境中实现端到端的故障感知、根因分析与修复建议生成。


本次演讲将详细介绍系统的核心设计原则:1)角色化智能体分工机制——包括感知 Agent、推理 Agent、验证 Agent 与执行 Agent,各司其职并动态协作;2)数据 - 模型 - 动作闭环——如何将实时运维数据转化为智能体可理解的语义上下文,并驱动自动化决策;3)与现有 SRE 体系的无缝集成——在保障安全合规的前提下,逐步替代人工巡检与告警响应流程。


该系统已在阿里云多个 Serverless 核心产品线(中规模化落地,实测数据显示:平均故障恢复时间(MTTR)降低 40% 以上,无效告警减少 65%,人工干预频次下降 60%。此外,我们还将分享在模型幻觉控制、智能体通信协议设计、冷启动场景优化等方面的工程实践与关键教训。


赵庆杰是现任阿里云云原生 Serverless 基础架构负责人 &AgentRun 产品研发负责人,专注于 Serverless 架构、AI Agent、平台即服务(PaaS)及大规模分布式系统等核心技术方向。其工作聚焦于构建新一代 Serverless AI 技术平台,旨在通过技术创新降低云原生 AI 应用的开发与运维门槛,推动先进平台能力向更广泛开发者群体普惠化落地。


他在加入阿里云之前,曾就职于百度,担任核心 PaaS 平台负责人,主导建设了公司内部规模最大的 PaaS 系统,该平台稳定支撑百度约 80% 的在线业务,在高并发、高可用、弹性伸缩及资源调度等方面积累了深厚实践经验。其在后端分布式系统架构设计、微服务治理及云原生基础设施优化等领域具备扎实的技术功底与丰富的工程落地经验。


目前,他在阿里云致力于探索 Serverless 与人工智能技术的深度融合,特别是在 AI Agent 与无服务器计算协同演进的新范式下,推动 PaaS 平台向智能化、自动化和极致弹性方向持续演进。他在本次会议的详细演讲内容如下:


演讲提纲:

1.引言:运维智能化的新挑战

  • 云原生时代系统复杂性激增,传统 AIOps 方法面临瓶颈

  • 从“单模型辅助”到“多智能体协同”的范式演进必要性

2.整体架构设计:构建数据驱动的多智能体诊断系统

  • 系统核心组成:可观测数据层、智能体协调引擎、动作执行层

  • 智能体角色划分:感知 Agent(数据采集与异常检测)、推理 Agent(根因分析)、验证 Agent(假设检验)、执行 Agent(修复建议/自动化操作)

  • 数据闭环:指标、日志、链路与 eBPF 事件如何统一建模为智能体上下文

3.关键技术实现

  • 多智能体通信与协作机制:基于任务分解与共识协商的动态工作流

  • LLM 与领域知识融合:Prompt 工程、工具调用(Tool Use)与幻觉抑制策略

  • 安全与可靠性保障:权限控制、操作审计、人工熔断机制设计

4.生产环境落地实践

  • 应用场景:Serverless 平台冷启动异常、数据库慢查询风暴、容器集群资源争抢

  • 落地成效:MTTR 降低 40%+,无效告警减少 65%,人工干预下降 60%

  • 工程经验:从 POC 到规模化部署的关键路径、冷启动优化、成本与延迟权衡

  1. 总结与展望

听众收益:

  • 获得企业级智能体系统可靠性建设的方法论框架

  • 掌握多智能体可观测性设计模式与开源工具链集成方案

  • 探讨智能体诊断标准(如 OpenAgentTracing)的演进方向


除此之外,本次大会还策划了LLM 时代的软件研发新范式Context EngineeringData+AI / Agent 落地实践大模型系统工程企业级 Agent 的设计与落地大模型时代下的搜广推系统实践多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-11-21 17:554

评论

发布
暂无评论

全套音频插件包FabFilter Total Bundle 2024 mac下载安装

Rose

mac思维导图软件OmniGraffle v7.23中文正式版

Rose

视觉特效软件包FxFactory 8 Pro完美破解版 附fxfactory 破解补丁

Rose

Media Encoder 2024 for Mac(ME2024)v24.5激活版

Rose

百度&YY设计稿转代码的探索与实践

百度Geek说

前端 figma 企业号 6 月 PK 榜 设计稿转代码

直播预约丨《袋鼠云大数据实操指南》No.3:数据资产管理实操,如何有效进行数据治理

袋鼠云数栈

数据中台 数据治理 数据资产 数据湖治理中心 数据资产管理

LeetCode题解:63. 不同路径 II,动态规划(空间O(n)),JavaScript,详细注释

Lee Chen

淘宝商品详情API接口:轻松管理商品信息,提升运营效率

技术冰糖葫芦

API Explorer API 测试 API 策略 pinduoduo API

2024下半年小间距LED市场分析

Dylan

综艺节目 场景 城市 LED display LED显示屏

盘点下常见 HDFS JournalNode 异常的问题原因和修复方法

明哥的IT随笔

斩获 CVPR NTIRE 冠亚军,小红书如何提升短视频与直播体验质量?

小红书技术REDtech

人工智能 算法 计算机视觉 音视频 CVPR

软件测试学习笔记丨软件测试流程体系

测试人

软件测试

Koupleless 内核系列 | 一台机器内 Koupleless 模块数量的极限在哪里?

SOFAStack

开源 云原生 开发 架构治理 软件应用架构

ShineScrum捷行公开课

ShineScrum

从面试无力感,到一天2个offer的经验分享(内附大厂面试题)

测试人

面试 软件测试

接口测试:使用 curl 发送请求

测吧(北京)科技有限公司

测试

探索强化学习(人工智能重要子领域):原理、算法及应用

天津汇柏科技有限公司

人工智能 机器学习 强化学习

测试人生 | 招聘严峻期从面试无力感,到一天2个offer的一些经验分享(内附美团、字节、快手等面试题)

测吧(北京)科技有限公司

测试

限时优惠| 性能测试进阶训练营重磅来袭

测吧(北京)科技有限公司

测试

华为造车究竟成没成功,这个责任谁来担?

IPD产品研发管理

华为 项目管理 产品设计 产品开发 造车

记录一个因 MYSQL 服务端和JDBC驱动版本不一致导致 HMS 启动失败问题

明哥的IT随笔

数据驱动的智能诊断系统:多智能体系统在生产环境中的技术落地与实践|AICon北京_大会快讯_AICon 全球人工智能开发与应用大会_InfoQ精选文章