SRE 智能体在金融核心系统的落地实践：DeepFlow 智能体的设计与思考｜AICon北京

12 月 19-20 日， AICon全球人工智能开发与应用大会收官之站将在北京举办，本次大会将以 “探索 AI 应用边界” 为主题，聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向，围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例，邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家，带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

云杉总裁向阳已确认出席并将在「企业级 Agent 的设计与落地」专题发表题为《SRE 智能体在金融核心系统的落地实践：DeepFlow 智能体的设计与思考》的主题分享。金融行业正处在核心系统信创化与智能化并行推进的关键阶段：业务微服务化、架构异构化、监管趋严、业务连续性目标提升，传统 SRE 模式已经无法支撑监管部门 99.99% 的业务连续性要求。他们在 DeepFlow 中实践了一种面向 SRE 场景的智能体架构，以“规划-感知-推理-行动-评估-反思”的闭环实现金融系统的自动化运维。

在感知层，他们以零侵扰 eBPF 采集为基础，解决金融核心系统“不可插桩”、“信创异构”环境下的全栈实时数据获取问题；在推理层，采用自适应思维链状态机驱动 LLM，实现上下文稳定的诊断与预测；在行动层，通过 Playbook 执行与灰度修复工具实现自愈；在评估与反思层，引入用户反馈、知识库增强与强化学习机制，使智能体能从历史事件中持续学习、优化策略。

在多家金融核心系统中部署后，智能体将疑难杂症 MTTR 降低 70%，并在监管可审计的前提下实现“分钟级定位、自动修复、持续学习”。本次演讲将全面分享其设计思路、落地过程及关键 Trade-off 取舍。

向阳是清华大学博士，云杉网络总裁，DeepFlow 产品及开源社区负责人。长期专注于云原生可观测性与智能运维方向，在国际顶级学术会议 ACM SIGCOMM 2023 发表了中国原创的零侵扰可观测性技术研究和实践成果，并于 2025 年携 DeepFlow 智能体在保险行业巨头的落地实践再次亮相了 ACM SIGCOMM 案例展。他在本次会议的详细演讲内容如下：

演讲提纲
1.金融行业智能运维的特殊挑战
金融核心系统的特点：高可靠性诉求、低变更容忍度、信创多栈异构环境
数据获取痛点：无插桩、零侵扰、安全审计
智能体落地难点：合规可解释、策略可回溯、风险可控
2.从“可观测性平台”到“SRE 智能体”的演化路径
感知工具 ≠ 智能体：从数据收集到主动推理的认知迁移
DeepFlow 智能体的设计目标：感知全栈、推理精准、行动闭环、持续进化
SRE 智能体总体架构：规划-感知-推理-行动-评估-反思
3.感知层：金融行业的“可观测性特化”
零侵扰采集：通过 eBPF ＋ MCP 实现生产环境零侵扰（Zero-Code）数据流
信创异构环境支持：一云多芯（鲲鹏、海光）、分布式数据库的适配
数据实时性特征：SRE 智能体基于秒级流式观测数据驱动
安全与合规：数据不出域（本地闭环处理），消费可审计，行为留痕
4.推理层：从状态机到多专家决策智能
多专家思维链同步执行、汇总融合
思维链状态机：用状态机控制思维链，避免思维链固化与幻觉
场景化 Prompt/Context 模板：根因溯源、容量预估、健康巡检
强化学习与反馈回路：根据结果评估与业务影响反馈优化推理
5.行动层：安全可审计的自动恢复体系
使用 LLM 将诊断结果映射为预注册 Playbook
灰度修复与回滚机制：符合金融监管“三步验证”流程
人与智能体协作模式：建议先行、人工确认、自动执行
6.评估与反思层：智能体的自我进化机制
知识库增强（RAG）：整合历史故障处置文档、运维规范文档
混沌工程评估体系：结合实际环境和可预知结果，生成强化学习数据
实时评估反思闭环：奖励信号（人工评估）、负反馈机制（恢复成功率）
7.实践落地与成效
在某金融机构核心系统部署后：疑难杂症 MTTR 降低 70 %，人工巡检任务减少 90 %
智能体从“辅助诊断”演进到“自主恢复、反思学习”
组织层面的收益：经验知识结构化、跨部门协同自动化
8.展望：SRE 智能体的未来
从单体 Agent 到 Multi-Agent 协作：巡检 Agent、诊断 Agent、治理 Agent 联动
对智能体的安全监管：推理审计、行为审计
这样的技术在实践过程中有哪些痛点？
实时性 vs 成本：使用小模型感知流式可观测性数据，消减大模型算力压力
可解释性 vs 智能化：金融合规要求下黑箱推理不可审计，采用状态机生成思维链
自动化 vs 风险管控：金融生产环境禁止全自动恢复，保留“人-机协作”审批节点
演讲有哪些前沿亮点？
行业特化的智能体设计：在强监管、信创异构环境中实现“零侵扰感知 + 灰度修复 + 强化学习闭环”
状态机化 LLM 推理框架：通过显式状态控制智能体思维链，保证推理稳定与合规
可审计的 AI 决策体系：将每个智能体动作都落地为审计日志，实现可解释 AIOps
听众收益
了解金融级智能体的完整闭环设计思路：从感知到反思，理解智能体架构如何在高风险行业落地。
学习多层次 Trade-off 与风险控制经验：了解如何在合规、安全与智能化之间取得平衡。

除此之外，本次大会还策划了LLM 时代的软件研发新范式、Context Engineering、Data+AI / Agent 落地实践、大模型系统工程、企业级 Agent 的设计与落地、大模型时代下的搜广推系统实践、多模态从技术突破到创新应用落地等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

创作场景

SRE 智能体在金融核心系统的落地实践：DeepFlow 智能体的设计与思考｜AICon 北京