Datadog 近期宣布,其 LLM 可观测性平台已为使用 Google Agent Development Kit (ADK) 构建的应用程序提供自动埋点功能,帮助用户更深入地洞察 AI 驱动型智能体系统的行为、性能、成本及安全性。该集成在 Google Cloud 博客上进行了重点介绍,旨在让开发者和 SRE 团队无需繁琐的手动配置或自定义埋点即可轻松监控和排查复杂的多步骤 AI 智能体工作流。
随着企业越来越多地采用 ADK 等框架构建自主 AI 智能体,这些系统的非确定性特质使得预测输出、诊断故障和控制成本变得困难。Datadog 的新集成将 ADK 应用的信号接入其可观测性系统,使团队能够可视化智能体决策路径、追踪工具调用、测量令牌使用量和延迟,并标记出可能导致性能下降或 API 成本激增的意外循环和错误路由步骤。Datadog 通过将这些遥测数据与其他系统指标关联,帮助团队提升智能体的可靠性和运营信心。
该集成还填补了智能体部署中的一个空白:虽然 ADK 为跨场景构建 AI 智能体提供了灵活的框架,但其本身缺乏针对生产环境的监控和治理工具。Datadog 的埋点功能通过自动追踪每个智能体的操作并将其呈现在统一的时间线上,填补了这一空白,使团队能够轻松定位工具选择错误或低效重试循环等问题,从而避免因这些问题导致延迟增加或令牌开销上升。
Datadog 的 LLM 可观测性平台现在支持查看每个工具和工作流分支的令牌消耗及延迟情况,帮助识别智能体的异常行为和成本超支风险。这在企业环境中尤为重要,因为复杂的智能体编排往往涉及多模型、多工作流及外部系统集成,而传统应用性能监控难以应对以 AI 为核心的业务逻辑。
通过这一集成,Datadog 将其可观测性平台(已覆盖基础设施、安全和分布式系统)拓展至新兴的智能体 AI 应用领域,弥合了 AI 实验与稳定生产部署之间的鸿沟。
其他可观测性厂商也在开发类似的集成功能,帮助企业更好地理解和使用 LLM:
New Relic 提供全栈可观测性和 APM,具备强大的分布式追踪和性能洞察能力,正通过扩展遥测关联和 AI 感知监控功能向 AI 可观测性演进。虽然它尚未拥有与 Datadog ADK 集成相同水平的专用 LLM 工具,但它为应用和基础设施提供了坚实的端到端可见性,帮助团队理解 AI 和智能体工作负载如何与系统的其他部分交互。New Relic 采用基于数据摄取量而非主机数量的定价模式,对关注成本的团队而言更具可预测性。
Splunk 的可观测性产品(包括 Splunk Observability Cloud)擅长高容量日志摄取和查询,在跨各类数据集的详细取证分析方面表现突出。然而,与 Datadog 深度集成的智能体可观测性特性相比,开箱即用地关联 AI 特定信号(如令牌消耗或模型决策路径)可能需要更多配置工作。Splunk 在处理大规模非结构化遥测和以安全为中心的监控方面表现依然强劲,但在没有自定义埋点或插件的情况下,其内置的 AI/智能体工作流功能可能相对滞后。
围绕 AI 和智能体可观测性的新兴需求正推动各厂商持续升级其工具,聚焦运行时追踪、序列与路径可视化,以及 AI 工作负载的成本和延迟洞察,但各厂商均基于自身核心优势采取了差异化策略。
原文链接:
https://www.infoq.com/news/2026/02/datadog-google-llm-observability/





