让推理引擎可被“看见”：大模型推理端到端 Token 级可观测工程实践｜QCon北京

从「AI For What」到「Value From AI」，100+可落地实践案例打通 AI 实战最后一公里！

4 月 16 日-4 月 18 日，QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑，聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题，邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家，带来百余项真实落地案例，系统性分享前沿洞察与实战干货，以技术共创探索 AI 落地新路径。

蚂蚁集团可观测技术架构师刘杨已确认出席 “Agent 可观测性与评估工程” 专题，并发表题为《让推理引擎可被“看见”：大模型推理端到端 Token 级可观测工程实践》的主题分享。2025 年，Qwen/Deepseek 等为代表的开源模型能力接近闭源模型，vLLM/SGLang 等为主流推理引擎的飞速进化使得推理成本大幅下降，掀起了全年 Agent 应用的火爆。大模型驱动的推理链路，呈现出多语言，异构技术栈等复杂特性，原有的微服务可观测体系存在明显盲区，全链路全栈可观测性面临巨大挑战。对于链路中关键节点推理引擎，传统请求粒度的 Trace 无法下探 Token 粒度生成过程，让引擎相关的性能优化以及生产稳定性定位困难重重。

在此背景下，蚂蚁可观测团队率先构建了业界首个覆盖全链路、全栈、Token 级的深度可观测体系，将可观测性从宏观请求下沉至微观 Token 维度，实现对推理全过程的白盒化透视。本次演讲刘杨将系统分享团队在大模型推理可观测性领域的前沿探索与工程实践，涵盖核心架构设计、关键技术突破、典型场景案例及未来演进方向，为行业构建下一代 AI 基础设施提供可复用的方法论与技术参考。

刘杨，当前任职蚂蚁可观测技术架构师，参与或负责了产品/告警/计算/元数据等在内的可观测全技术栈建设，对于大型大规模软件系统有丰富的性能优化经验。最近两三年主要重心在大模型领域，包括面向可观测的 Agent 建设，以及推理引擎深度可观测体系构建。他在本次会议的详细演讲内容如下：

演讲提纲
1. 大模型时代 - 可观测性面临范式重构
链路盲区：多语言、异构技术栈等带来的观测盲区
引擎黑盒：请求 Trace 粗粒度可观测的局限
2. 从业务到引擎 - 全栈全链路架构与核心技术
全栈全链路的技术挑战
整体架构
产品实践
3. 引擎显微镜 - Token 级深度可观测
性能可观测：Token 生产耗时过程拆解
精度可观测：实时捕获候选 Token 候选概率分布
极致轻量：不采样以及千分点开销的高保真观测
产品实践与典型案例
4. 引擎广角镜 - 多请求并发分析
并发导致的性能劣化
多请求并发分析
产品实践与典型案例
5. 社区贡献：覆盖三大主流引擎，形成 Trace 统一可观测标准
6. 总结与展望
您认为，这样的技术在实践过程中有哪些痛点？
深入引擎内部埋点，覆盖多个主流引擎/异构硬件，维护成本较高。
演讲亮点
业界首个覆盖多引擎、Token 级的深度可观测 Trace，将可观测性从宏观请求下沉至微观 Token 维度，实现对引擎内部 Token 生产过程的白盒化透视。在生产环境大规模运行，实时采集，观测开销控制在千分点。
听众收益
掌握大模型推理全链路、全栈可观测的架构设计思路
获得 Token 级推理可观测的工程实现方法
了解在主流推理引擎 vLLM/SGLang 社区-可观测方面的工作

除此之外，本次大会还策划了Agentic Engineering、多模态理解与生成的突破、记忆觉醒：智能体记忆系统的范式重塑与产业落地、具身智能与物理世界交互、Agent Infra 架构设计、AI 重塑数据生产与消费、AI 原生基础设施、AI 驱动的技术债治理、小模型与领域适配模型、大模型算力优化、Agent 可观测性与评估工程、AI for SRE等 20 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 18514549229 进行咨询。

创作场景

让推理引擎可被“看见”：大模型推理端到端 Token 级可观测工程实践｜QCon 北京