写点什么

阶跃星辰安全研发专家李昌昊确认出席 QCon 北京站,分享构建 AI Agent 从推理到执行的全链路无侵入可观测体系

  • 2026-03-31
    北京
  • 本文字数:2571 字

    阅读完需:约 8 分钟

从「AI For What」到「Value From AI」,100+可落地实践案例打通 AI 实战最后一公里!

4 月 16 日-4 月 18 日,QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑,聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题,邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家,带来百余项真实落地案例,系统性分享前沿洞察与实战干货,以技术共创探索 AI 落地新路径。

阶跃星辰安全研发专家李昌昊已确认出席 “Agent 可观测性与评估工程” 专题,并发表题为从推理到执行:构建 AI Agent 从推理到执行的全链路无侵入可观测体系的主题分享。当 Agent 从"能用"走向"好用",强化学习(RL)成为关键路径——但 AI Agent 的执行链路正在变得前所未有的复杂——LLM 推理产生意图,Agent 框架编排决策,沙箱平台调度容器,运行时执行系统调用——但现有的可观测工具只能看到其中的碎片。APM 看到 HTTP 请求,K8s 看到 Pod 生命周期,日志系统记录文本片段,没有任何一个方案能回答最核心的问题:"Agent 想做什么?实际做了什么?结果怎样?"

李昌昊在本次演讲中将分享如何基于 eBPF 构建覆盖"LLM → Agent → 沙箱平台 → 运行时"全链路的无侵入式可观测体系。eBPF 工作在内核层,天然穿透所有基于容器的沙箱实现,不需要 Agent 修改一行代码,不需要沙箱预装任何组件。他将完整展示这套体系如何打通四个观测层:在 LLM 层还原每次对话的 Token 消耗与延迟;在 Agent 层关联意图与行为;在沙箱平台层通过审计日志与运行时事件的时空关联建立完整 Trace;在运行时层捕获每个命令的 Stdio、退出码和资源消耗。所有数据通过 OTLP 标准协议输出,可直接接入 Jaeger、Grafana 等现有可观测基础设施,同时为 RL 训练提供结构化的 Reward Signal。

李昌昊,安全研发专家。 目前负责公司安全平台的整体架构设计与开发工作。拥有多年云原生安全与可观测领域从业经验,专注 eBPF 技术与高性能安全和可观测系统研发,在云原生安全体系建设、大规模 K8s 集群入侵检测及 CWPP/KSPM 架构设计方面具有丰富的实战经验。曾就职于字节跳动安全风控团队,是知名开源安全项目 Elkeid 和 vArmor 的核心开发者。目前专注于推动 AI Agent 在安全可观测领域的深度应用。他在本次会议的详细演讲内容如下:

演讲提纲

1. 为什么 Agent 需要一种全新的可观测方案

  • 现有工具问题:APM 看 HTTP、K8s 看 Pod、日志看文本,串起"想做什么→做了什么→结果怎样"

  • Agent 的执行链路跨越四个层:LLM 推理、Agent 编排、沙箱调度、运行时执行,每一层都有独立的上下文

  • 沙箱是 Agent 安全执行的基石,但也是可观测性断裂最严重的边界

  • 零侵入是刚需:不能要求每个沙箱镜像预装 SDK,不能要求 Agent 框架改代码

  • eBPF 方案的优势:海量并发下的零侵入采集、内核态高效过滤、零进程重启,适配多种沙箱环境

2. 深度感知:构建 Agent 执行的"全息画像"

  • 监控工具调用从 fork 到 exec 到 exit 的完整生命周期,构建进程树,识别异常退出的子进程

  • 捕获 stdout/stderr 的关键输出,直接获取工具执行的原始回显,这是判定 Agent 行为真实性的核心依据

  • 精确统计每个执行步骤的 CPU 时间和内存(RSS)微观波动,量化 Agent 解决问题的"效率成本"

  • 通过 eBPF Uprobes 在内存态还原加密的 Prompt 意图与外部 API 调用的真实响应,打通 Agent 与环境的交互盲区

  • eBPF 天然穿透所有基于容器的沙箱——Docker、K8s Pod、各类 Agent 专用沙箱,一套方案全部覆盖

3. 打通全链路:从 LLM 对话到内核 Syscall 的完整视图

  • LLM 层:通过 eBPF 透明解密 TLS 流量,还原每次对话的 Prompt/Response、Token 用量、首 Token 延迟和请求耗时。在 eBPF 层透明拦截 Agent 的出站 HTTP 请求,自动注入 W3C Trace Context

  • Agent 层:自动识别 Agent、Tool、LLM Source 三类资产及其调用拓扑,无需配置声明

  • 沙箱平台层:K8s 审计日志与 eBPF 运行时事件的时空关联,将平台侧的调度意图与沙箱内的实际执行精确绑定到同一 audit_id

  • 运行时层:捕获沙箱内每个进程的命令行、Stdio 输出、退出码、执行时长、CPU 和内存消耗

  • 构建" LLM 对话 → Agent 决策 → 平台调度 → 命令执行 → 子进程链" 的完整 Span 树

4. 数据交付:标准化输出与业务赋能

  • 所有观测数据统一导出为 OTLP Traces 和 Metrics,直接接入 Jaeger、Grafana、Datadog 等现有基础设施

  • Prometheus 端点暴露 LLM 延迟分布、Token 吞吐(RPM/TPM)、首 Token 延迟、Exec 成功率、资源消耗等运营指标

  • 基于 audit_id 的精确查询 API:凭一个 ID 实时获取某次执行的完整进程树、每个命令的退出码、耗时、资源消耗和 stdout/stderr

  • 为 RL 场景提供结构化的 Reward Signal:exit_code 作为 Outcome、cpu_time 作为 Efficiency、stdout 与退出码的矛盾作为 Behavior 验证的内核级证据

5. 总结与展望

  • 回顾从"沙箱黑盒"到"四层打通"的完整方案,以及在生产环境中的实践效果

您认为,这样的技术在实践过程中有哪些痛点?

  • eBPF 的内核兼容性仍是首要落地障碍,CO-RE 需要 5.x+ 内核,部分云厂商定制内核 BTF 信息缺失

  • 内核态只能看到系统调用级别的行为,应用内部的推理逻辑仍需协同方案补充

演讲亮点

  • 不是单点技术展示,而是完整串联 LLM → Agent → 沙箱平台 → 运行时四层,回答"Agent 想做什么、做了什么、结果怎样"

  • eBPF 天然穿透容器边界,一套方案适配所有基于容器的沙箱,不破坏隔离语义

  • 结合实际训练场景,构建包含 OTLP 标准输出和 reward 的观测结果,既能接入现有可观测栈,又能支持 RL 训练

听众收益

  • 了解一种覆盖 LLM 到 Syscall 全链路的 Agent 无侵入式可观测架构

  • 理解 eBPF 为何是沙箱可观测的最优解,以及大规模场景下的性能控制策略

  • 在实际训练场景下 Agent 可观测性的实践

除此之外,本次大会还策划了Agentic Engineering多模态理解与生成的突破记忆觉醒:智能体记忆系统的范式重塑与产业落地具身智能与物理世界交互Agent Infra 架构设计AI 重塑数据生产与消费AI 原生基础设施AI 驱动的技术债治理小模型与领域适配模型大模型算力优化Agent 可观测性与评估工程AI for SRE等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

9 折倒计时最后一周,现在购票立减 680。更多详情可扫码或联系票务经理 18514549229 进行咨询。