SRE 智能体在金融核心系统的落地实践:DeepFlow 智能体的设计与思考|AICon 北京

  • 2025-11-26
    北京
  • 本文字数:2180 字

    阅读完需:约 7 分钟

12 月 19-20 日, AICon全球人工智能开发与应用大会收官之站将在北京举办,本次大会 将以 “探索 AI 应用边界” 为主题,聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向,围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例,邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

云杉总裁向阳已确认出席并将在「企业级 Agent 的设计与落地」专题发表题为SRE 智能体在金融核心系统的落地实践:DeepFlow 智能体的设计与思考的主题分享。金融行业正处在核心系统信创化与智能化并行推进的关键阶段:业务微服务化、架构异构化、监管趋严、业务连续性目标提升,传统 SRE 模式已经无法支撑监管部门 99.99% 的业务连续性要求。他们在 DeepFlow 中实践了一种面向 SRE 场景的智能体架构,以“规划-感知-推理-行动-评估-反思”的闭环实现金融系统的自动化运维。

在感知层,他们以零侵扰 eBPF 采集为基础,解决金融核心系统“不可插桩”、“信创异构”环境下的全栈实时数据获取问题;在推理层,采用自适应思维链状态机驱动 LLM,实现上下文稳定的诊断与预测;在行动层,通过 Playbook 执行与灰度修复工具实现自愈;在评估与反思层,引入用户反馈、知识库增强与强化学习机制,使智能体能从历史事件中持续学习、优化策略。

在多家金融核心系统中部署后,智能体将疑难杂症 MTTR 降低 70%,并在监管可审计的前提下实现“分钟级定位、自动修复、持续学习”。本次演讲将全面分享其设计思路、落地过程及关键 Trade-off 取舍。

向阳是清华大学博士,云杉网络总裁,DeepFlow 产品及开源社区负责人。长期专注于云原生可观测性与智能运维方向,在国际顶级学术会议 ACM SIGCOMM 2023 发表了中国原创的零侵扰可观测性技术研究和实践成果,并于 2025 年携 DeepFlow 智能体在保险行业巨头的落地实践再次亮相了 ACM SIGCOMM 案例展。他在本次会议的详细演讲内容如下:

演讲提纲

1.金融行业智能运维的特殊挑战

  • 金融核心系统的特点:高可靠性诉求、低变更容忍度、信创多栈异构环境

  • 数据获取痛点:无插桩、零侵扰、安全审计

  • 智能体落地难点:合规可解释、策略可回溯、风险可控

2.从“可观测性平台”到“SRE 智能体”的演化路径

  • 感知工具 ≠ 智能体:从数据收集到主动推理的认知迁移

  • DeepFlow 智能体的设计目标:感知全栈、推理精准、行动闭环、持续进化

  • SRE 智能体总体架构:规划-感知-推理-行动-评估-反思

3.感知层:金融行业的“可观测性特化”

  • 零侵扰采集:通过 eBPF + MCP 实现生产环境零侵扰(Zero-Code)数据流

  • 信创异构环境支持:一云多芯(鲲鹏、海光)、分布式数据库的适配

  • 数据实时性特征:SRE 智能体基于秒级流式观测数据驱动

  • 安全与合规:数据不出域(本地闭环处理),消费可审计,行为留痕

4.推理层:从状态机到多专家决策智能

  • 多专家思维链同步执行、汇总融合

  • 思维链状态机:用状态机控制思维链,避免思维链固化与幻觉

  • 场景化 Prompt/Context 模板:根因溯源、容量预估、健康巡检

  • 强化学习与反馈回路:根据结果评估与业务影响反馈优化推理

5.行动层:安全可审计的自动恢复体系

  • 使用 LLM 将诊断结果映射为预注册 Playbook

  • 灰度修复与回滚机制:符合金融监管“三步验证”流程

  • 人与智能体协作模式:建议先行、人工确认、自动执行

6.评估与反思层:智能体的自我进化机制

  • 知识库增强(RAG):整合历史故障处置文档、运维规范文档

  • 混沌工程评估体系:结合实际环境和可预知结果,生成强化学习数据

  • 实时评估反思闭环:奖励信号(人工评估)、负反馈机制(恢复成功率)

7.实践落地与成效

  • 在某金融机构核心系统部署后:疑难杂症 MTTR 降低 70 %,人工巡检任务减少 90 %

  • 智能体从“辅助诊断”演进到“自主恢复、反思学习”

  • 组织层面的收益:经验知识结构化、跨部门协同自动化

8.展望:SRE 智能体的未来

  • 从单体 Agent 到 Multi-Agent 协作:巡检 Agent、诊断 Agent、治理 Agent 联动

  • 对智能体的安全监管:推理审计、行为审计

这样的技术在实践过程中有哪些痛点?

  • 实时性 vs 成本:使用小模型感知流式可观测性数据,消减大模型算力压力

  • 可解释性 vs 智能化:金融合规要求下黑箱推理不可审计,采用状态机生成思维链

  • 自动化 vs 风险管控:金融生产环境禁止全自动恢复,保留“人-机协作”审批节点

演讲有哪些前沿亮点?

  • 行业特化的智能体设计:在强监管、信创异构环境中实现“零侵扰感知 + 灰度修复 + 强化学习闭环”

  • 状态机化 LLM 推理框架:通过显式状态控制智能体思维链,保证推理稳定与合规

  • 可审计的 AI 决策体系:将每个智能体动作都落地为审计日志,实现可解释 AIOps

听众收益

  • 了解金融级智能体的完整闭环设计思路:从感知到反思,理解智能体架构如何在高风险行业落地。

  • 学习多层次 Trade-off 与风险控制经验:了解如何在合规、安全与智能化之间取得平衡。

除此之外,本次大会还策划了LLM 时代的软件研发新范式Context EngineeringData+AI / Agent 落地实践大模型系统工程企业级 Agent 的设计与落地大模型时代下的搜广推系统实践多模态从技术突破到创新应用落地等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。