写点什么

SRE 智能体在金融核心系统的落地实践:DeepFlow 智能体的设计与思考|AICon 北京

  • 2025-11-26
    北京
  • 本文字数:2180 字

    阅读完需:约 7 分钟

大小:1.16M时长:06:46
SRE 智能体在金融核心系统的落地实践:DeepFlow 智能体的设计与思考|AICon北京

12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


云杉总裁向阳已确认出席并将在「企业级 Agent 的设计与落地」专题发表题为SRE 智能体在金融核心系统的落地实践:DeepFlow 智能体的设计与思考的主题分享。金融行业正处在核心系统信创化与智能化并行推进的关键阶段:业务微服务化、架构异构化、监管趋严、业务连续性目标提升,传统 SRE 模式已经无法支撑监管部门 99.99% 的业务连续性要求。他们在 DeepFlow 中实践了一种面向 SRE 场景的智能体架构,以“规划-感知-推理-行动-评估-反思”的闭环实现金融系统的自动化运维。


在感知层,他们以零侵扰 eBPF 采集为基础,解决金融核心系统“不可插桩”、“信创异构”环境下的全栈实时数据获取问题;在推理层,采用自适应思维链状态机驱动 LLM,实现上下文稳定的诊断与预测;在行动层,通过 Playbook 执行与灰度修复工具实现自愈;在评估与反思层,引入用户反馈、知识库增强与强化学习机制,使智能体能从历史事件中持续学习、优化策略。


在多家金融核心系统中部署后,智能体将疑难杂症 MTTR 降低 70%,并在监管可审计的前提下实现“分钟级定位、自动修复、持续学习”。本次演讲将全面分享其设计思路、落地过程及关键 Trade-off 取舍。

向阳是清华大学博士,云杉网络总裁,DeepFlow 产品及开源社区负责人。长期专注于云原生可观测性与智能运维方向,在国际顶级学术会议 ACM SIGCOMM 2023 发表了中国原创的零侵扰可观测性技术研究和实践成果,并于 2025 年携 DeepFlow 智能体在保险行业巨头的落地实践再次亮相了 ACM SIGCOMM 案例展。他在本次会议的详细演讲内容如下:


演讲提纲

1.金融行业智能运维的特殊挑战

  • 金融核心系统的特点:高可靠性诉求、低变更容忍度、信创多栈异构环境

  • 数据获取痛点:无插桩、零侵扰、安全审计

  • 智能体落地难点:合规可解释、策略可回溯、风险可控

2.从“可观测性平台”到“SRE 智能体”的演化路径

  • 感知工具 ≠ 智能体:从数据收集到主动推理的认知迁移

  • DeepFlow 智能体的设计目标:感知全栈、推理精准、行动闭环、持续进化

  • SRE 智能体总体架构:规划-感知-推理-行动-评估-反思

3.感知层:金融行业的“可观测性特化”

  • 零侵扰采集:通过 eBPF + MCP 实现生产环境零侵扰(Zero-Code)数据流

  • 信创异构环境支持:一云多芯(鲲鹏、海光)、分布式数据库的适配

  • 数据实时性特征:SRE 智能体基于秒级流式观测数据驱动

  • 安全与合规:数据不出域(本地闭环处理),消费可审计,行为留痕

4.推理层:从状态机到多专家决策智能

  • 多专家思维链同步执行、汇总融合

  • 思维链状态机:用状态机控制思维链,避免思维链固化与幻觉

  • 场景化 Prompt/Context 模板:根因溯源、容量预估、健康巡检

  • 强化学习与反馈回路:根据结果评估与业务影响反馈优化推理

5.行动层:安全可审计的自动恢复体系

  • 使用 LLM 将诊断结果映射为预注册 Playbook

  • 灰度修复与回滚机制:符合金融监管“三步验证”流程

  • 人与智能体协作模式:建议先行、人工确认、自动执行

6.评估与反思层:智能体的自我进化机制

  • 知识库增强(RAG):整合历史故障处置文档、运维规范文档

  • 混沌工程评估体系:结合实际环境和可预知结果,生成强化学习数据

  • 实时评估反思闭环:奖励信号(人工评估)、负反馈机制(恢复成功率)

7.实践落地与成效

  • 在某金融机构核心系统部署后:疑难杂症 MTTR 降低 70 %,人工巡检任务减少 90 %

  • 智能体从“辅助诊断”演进到“自主恢复、反思学习”

  • 组织层面的收益:经验知识结构化、跨部门协同自动化

8.展望:SRE 智能体的未来

  • 从单体 Agent 到 Multi-Agent 协作:巡检 Agent、诊断 Agent、治理 Agent 联动

  • 对智能体的安全监管:推理审计、行为审计

这样的技术在实践过程中有哪些痛点?

  • 实时性 vs 成本:使用小模型感知流式可观测性数据,消减大模型算力压力

  • 可解释性 vs 智能化:金融合规要求下黑箱推理不可审计,采用状态机生成思维链

  • 自动化 vs 风险管控:金融生产环境禁止全自动恢复,保留“人-机协作”审批节点

演讲有哪些前沿亮点?

  • 行业特化的智能体设计:在强监管、信创异构环境中实现“零侵扰感知 + 灰度修复 + 强化学习闭环”

  • 状态机化 LLM 推理框架:通过显式状态控制智能体思维链,保证推理稳定与合规

  • 可审计的 AI 决策体系:将每个智能体动作都落地为审计日志,实现可解释 AIOps

听众收益

  • 了解金融级智能体的完整闭环设计思路:从感知到反思,理解智能体架构如何在高风险行业落地。

  • 学习多层次 Trade-off 与风险控制经验:了解如何在合规、安全与智能化之间取得平衡。


除此之外,本次大会还策划了LLM 时代的软件研发新范式Context EngineeringData+AI / Agent 落地实践大模型系统工程企业级 Agent 的设计与落地大模型时代下的搜广推系统实践多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-11-26 17:423246

评论

发布
暂无评论

【kafka源码】/log_dir_event_notification的LogDir脱机事件通知

石臻臻的杂货铺

kafka

企业网盘 VS 大文件传输, 哪个才是企业传输的正确选择?

镭速

大文件传输 大文件传输工具

Footprint Analytics 宣布与 GameFi 平台 Game Verse 达成合作

Footprint Analytics

区块链

行云管家全面适配信创国产化平台

行云管家

云计算 信创 国产化 安全运维

文心一言 VS 讯飞星火 VS chatgpt (92)-- 算法导论8.3 5题

福大大架构师每日一题

福大大架构师每日一题

开箱即⽤!HashData 云数仓上线华为蓝鲸应⽤商城

酷克数据HashData

从好玩到好用:程序员用AI提效的那些事儿 | 京东云技术团队

京东科技开发者

AI 京东云 ChatGPT 企业号9月PK榜

创新型联合共创 |数糖 × 和鲸:挖掘数据价值,形成数据产出

ModelWhale

数据分析 数据 商业价值 地理标志 联合共创

java中有哪些并发的List?只知道一种的就太逊了

程序那些事

Java 程序那些事 面试秘籍

【云资讯】行云管家-云计算服务商佼佼者

行云管家

云计算 云管理 云计算运维 云服务商

实力!云起无垠获评清华校友三创大赛“天使组”十强

云起无垠

如何选择安全稳定的大文件传输软件平台,企业传输必看

镭速

为什么用代理ip网页加载不出来,一直转圈?

巨量HTTP

代理IP

2023 年中国国际服务贸易交易会发布:和鲸科技两项成果入选“智赋百业”人工智能融合发展与安全应用典型案例

ModelWhale

人工智能 大模型 AIGC

软件测试/测试开发丨Web自动化—headless无头浏览器 学习笔记

测试人

软件测试

《孤注一掷》揭露你我身边的网络安全威胁

云起无垠

多链代币开发数字货币开发相关介绍

区块链软件开发推广运营

交易所开发 数字藏品开发 dapp开发 NFT开发 区块链开发链游开发

团队绩效考核,OKR还是KPI?

老张

OKR KPI 绩效考核

Stream流处理快速上手最佳实践 | 京东物流技术团队

京东科技开发者

京东云 企业号9月PK榜

基于Spring事务的可靠异步调用实践 | 京东物流技术团队

京东科技开发者

spring 京东云 企业号9月PK榜

多主架构:VLDB技术论文《Taurus MM: bringing multi-master to the cloud》解读

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

WorkPlus | 好用、专业、安全的局域网即时通讯及协同办公平台

BeeWorks

跟模型和中间层聊聊:什么是最好的AI原生应用?

Zilliz

Milvus 大模型 AIGC 向量数据库

一文了解袋鼠云在实时数据湖上的探索与实践

袋鼠云数栈

数据湖 实时数据湖 湖仓一体 实时湖仓

杭州站|阿里云 Serverless 技术实践营(Serverless + 大数据)开启报名!

Serverless Devs

大数据 开源 Serverless 云原生

SRE 智能体在金融核心系统的落地实践:DeepFlow 智能体的设计与思考|AICon北京_大会快讯_AICon 全球人工智能开发与应用大会_InfoQ精选文章