阶跃星辰安全研发专家李昌昊确认出席QCon北京站，分享构建 AI Agent 从推理到执行的全链路无侵入可观测体系

从「AI For What」到「Value From AI」，100+可落地实践案例打通 AI 实战最后一公里！

4 月 16 日-4 月 18 日，QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑，聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题，邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家，带来百余项真实落地案例，系统性分享前沿洞察与实战干货，以技术共创探索 AI 落地新路径。

阶跃星辰安全研发专家李昌昊已确认出席 “Agent 可观测性与评估工程” 专题，并发表题为《从推理到执行：构建 AI Agent 从推理到执行的全链路无侵入可观测体系》的主题分享。当 Agent 从"能用"走向"好用"，强化学习（RL）成为关键路径——但 AI Agent 的执行链路正在变得前所未有的复杂——LLM 推理产生意图，Agent 框架编排决策，沙箱平台调度容器，运行时执行系统调用——但现有的可观测工具只能看到其中的碎片。APM 看到 HTTP 请求，K8s 看到 Pod 生命周期，日志系统记录文本片段，没有任何一个方案能回答最核心的问题："Agent 想做什么？实际做了什么？结果怎样？"

李昌昊在本次演讲中将分享如何基于 eBPF 构建覆盖"LLM → Agent → 沙箱平台 → 运行时"全链路的无侵入式可观测体系。eBPF 工作在内核层，天然穿透所有基于容器的沙箱实现，不需要 Agent 修改一行代码，不需要沙箱预装任何组件。他将完整展示这套体系如何打通四个观测层：在 LLM 层还原每次对话的 Token 消耗与延迟；在 Agent 层关联意图与行为；在沙箱平台层通过审计日志与运行时事件的时空关联建立完整 Trace；在运行时层捕获每个命令的 Stdio、退出码和资源消耗。所有数据通过 OTLP 标准协议输出，可直接接入 Jaeger、Grafana 等现有可观测基础设施，同时为 RL 训练提供结构化的 Reward Signal。

李昌昊，安全研发专家。目前负责公司安全平台的整体架构设计与开发工作。拥有多年云原生安全与可观测领域从业经验，专注 eBPF 技术与高性能安全和可观测系统研发，在云原生安全体系建设、大规模 K8s 集群入侵检测及 CWPP/KSPM 架构设计方面具有丰富的实战经验。曾就职于字节跳动安全风控团队，是知名开源安全项目 Elkeid 和 vArmor 的核心开发者。目前专注于推动 AI Agent 在安全可观测领域的深度应用。他在本次会议的详细演讲内容如下：

演讲提纲
1. 为什么 Agent 需要一种全新的可观测方案
现有工具问题：APM 看 HTTP、K8s 看 Pod、日志看文本，串起"想做什么→做了什么→结果怎样"
Agent 的执行链路跨越四个层：LLM 推理、Agent 编排、沙箱调度、运行时执行，每一层都有独立的上下文
沙箱是 Agent 安全执行的基石，但也是可观测性断裂最严重的边界
零侵入是刚需：不能要求每个沙箱镜像预装 SDK，不能要求 Agent 框架改代码
eBPF 方案的优势：海量并发下的零侵入采集、内核态高效过滤、零进程重启，适配多种沙箱环境
2. 深度感知：构建 Agent 执行的"全息画像"
监控工具调用从 fork 到 exec 到 exit 的完整生命周期，构建进程树，识别异常退出的子进程
捕获 stdout/stderr 的关键输出，直接获取工具执行的原始回显，这是判定 Agent 行为真实性的核心依据
精确统计每个执行步骤的 CPU 时间和内存（RSS）微观波动，量化 Agent 解决问题的"效率成本"
通过 eBPF Uprobes 在内存态还原加密的 Prompt 意图与外部 API 调用的真实响应，打通 Agent 与环境的交互盲区
eBPF 天然穿透所有基于容器的沙箱——Docker、K8s Pod、各类 Agent 专用沙箱，一套方案全部覆盖
3. 打通全链路：从 LLM 对话到内核 Syscall 的完整视图
LLM 层：通过 eBPF 透明解密 TLS 流量，还原每次对话的 Prompt/Response、Token 用量、首 Token 延迟和请求耗时。在 eBPF 层透明拦截 Agent 的出站 HTTP 请求，自动注入 W3C Trace Context
Agent 层：自动识别 Agent、Tool、LLM Source 三类资产及其调用拓扑，无需配置声明
沙箱平台层：K8s 审计日志与 eBPF 运行时事件的时空关联，将平台侧的调度意图与沙箱内的实际执行精确绑定到同一 audit_id
运行时层：捕获沙箱内每个进程的命令行、Stdio 输出、退出码、执行时长、CPU 和内存消耗
构建" LLM 对话 → Agent 决策 → 平台调度 → 命令执行 → 子进程链" 的完整 Span 树
4. 数据交付：标准化输出与业务赋能
所有观测数据统一导出为 OTLP Traces 和 Metrics，直接接入 Jaeger、Grafana、Datadog 等现有基础设施
Prometheus 端点暴露 LLM 延迟分布、Token 吞吐（RPM/TPM）、首 Token 延迟、Exec 成功率、资源消耗等运营指标
基于 audit_id 的精确查询 API：凭一个 ID 实时获取某次执行的完整进程树、每个命令的退出码、耗时、资源消耗和 stdout/stderr
为 RL 场景提供结构化的 Reward Signal：exit_code 作为 Outcome、cpu_time 作为 Efficiency、stdout 与退出码的矛盾作为 Behavior 验证的内核级证据
5. 总结与展望
回顾从"沙箱黑盒"到"四层打通"的完整方案，以及在生产环境中的实践效果
您认为，这样的技术在实践过程中有哪些痛点？
eBPF 的内核兼容性仍是首要落地障碍，CO-RE 需要 5.x+ 内核，部分云厂商定制内核 BTF 信息缺失
内核态只能看到系统调用级别的行为，应用内部的推理逻辑仍需协同方案补充
演讲亮点
不是单点技术展示，而是完整串联 LLM → Agent → 沙箱平台 → 运行时四层，回答"Agent 想做什么、做了什么、结果怎样"
eBPF 天然穿透容器边界，一套方案适配所有基于容器的沙箱，不破坏隔离语义
结合实际训练场景，构建包含 OTLP 标准输出和 reward 的观测结果，既能接入现有可观测栈，又能支持 RL 训练
听众收益
了解一种覆盖 LLM 到 Syscall 全链路的 Agent 无侵入式可观测架构
理解 eBPF 为何是沙箱可观测的最优解，以及大规模场景下的性能控制策略
在实际训练场景下 Agent 可观测性的实践

除此之外，本次大会还策划了Agentic Engineering、多模态理解与生成的突破、记忆觉醒：智能体记忆系统的范式重塑与产业落地、具身智能与物理世界交互、Agent Infra 架构设计、AI 重塑数据生产与消费、AI 原生基础设施、AI 驱动的技术债治理、小模型与领域适配模型、大模型算力优化、Agent 可观测性与评估工程、AI for SRE等 20 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

9 折倒计时最后一周，现在购票立减 680。更多详情可扫码或联系票务经理 18514549229 进行咨询。

创作场景

阶跃星辰安全研发专家李昌昊确认出席 QCon 北京站，分享构建 AI Agent 从推理到执行的全链路无侵入可观测体系