
主要的可观测性平台提供商正在将人工智能集成到他们的监控系统中,因为企业希望他们的供应商能够减少监控数字基础设施所涉及的手动工作。像 Logz.io、Dynatrace、Datadog 和 New Relic 这样的公司已经实现了旨在自动化日常运维任务和加速事件解决流程的 AI 功能。
在Logz.io的一篇博文中,Jade Lassery 写到了他们的专用“AI 代理”。这些代理可以实现特定的运维功能。该公司的根因分析代理(Root Cause Analysis Agent)可以关联不同服务的遥测数据,生成事件时间线和补救步骤,而他们的告警分析代理(Alert Analysis Agent)则使用上下文指标和建议采取的行动来丰富通知内容。根据 Logz.io 的文档:
当有告警触发时,RCA 代理就会介入——不需要工单,不需要 Slack 话题。它会关联受影响的服务、环境和依赖项的日志、指标和追踪信息。
该平台还包括一个数据分析代理(Data Analysis Agent),可以通过处理自然语言查询来识别性能模式。一个值得注意的功能是,它允许用户将调查洞察转换为持久化的仪表板面板,Logz.io将其描述为连接“调查和监控工作流”的桥梁。早期用户提供了积极的反馈,beta 用户报告说,由于调查是自动的,分诊时间减少了 30-70%。

Dynatrace的 Davis AI 引擎采取了拓扑方法,关于这一点,本月早些时候的一篇新闻稿提到过。Davis AI通过映射应用程序依赖来识别潜在的故障,从而实现故障的预防。与 Logz.io 特定于任务的代理不同,Davis 使用因果 AI 全面分析云架构,识别基础设施、应用程序和最终用户体验中的异常模式。在新闻稿中,Dynatrace 创始人兼首席技术官 Bernd Greifeneder 解释说:“我们构建了下一代的平台,为的是可以帮助客户利用先进的 AI 减轻工作负担并解锁全新的可能。”

与其他供应商相比,Datadog的方法以其Watchdog系统为核心。该系统使用统计学习进行跨指标、日志和追踪信息的异常检测。Logz.io 致力于于通过浅显易懂的摘要来做出解释,而 Datadog 强调相关性,可自动链接不同数据源中的相关事件。这种方法似乎适用于云规模的部署,但与 Logz.io 的模块化系统相比,对 AI 驱动工作流的细粒度控制比较少。
New Relic 优先考虑了 MLOps 的集成,并以此确立了其独特的地位;将机器学习应用于模型性能和漂移检测。New Relic 的方法有助于模型生命周期管理,但与其他平台提供的更广泛用途相比,它在通用基础设施监控方面的应用范围比较窄。
尽管它们的技术实现存在明显差异,但这些平台有几个核心能力是一样的。从 Logz.io 的语义搜索到 Dynatrace 基于意图的解析,所有平台都使用自然语言处理用户查询,尽管实现方式存在显著的差异。每个平台都提供自动化的根因分析,Logz.io 和 Dynatrace 会生成建议采取的具体补救步骤,而 Datadog 则专注于不同事件之间的相关性映射。另一个常见的功能是使用 AI 减少告警噪音,同样是通过不同的方法实现的。Logz.io 使用了上下文丰富,而 Dynatrace 有拓扑过滤,Datadog 则使用了统计抑制技术。不同的供应商以截然不同的方式从反应式监控转向了主动系统管理。
各个领域都有实际的应用出现。一个托管安全服务提供商测试了 Logz.io 的 AI 代理,并在博文中报告说,该系统的“与众不同之处在于,它能自动进行第一层调查,分析与告警相关的日志和指标,并在几秒钟内找出可能的原因。”Logz.io 报告说,有数百家公司正在使用他们的 AI 代理,每周通过 AI 驱动的分析功能处理的数据量达到千 T 字节。
这些近期发布的公告显示了从简单的基于仪表板的监控向 Datadog 所说的“代理 AI”功能的转变。这些功能可以自主操作,减少分析可观测性工具所涉及的人力劳动。像 Logz.io 这样的专门代理的实际应用,展示了这些先进的理论如何转化成了切实的运营效益。有早期采用者报告说,手动分诊工作显著减少。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:https://www.infoq.com/news/2025/06/logzio-dynatrace-observability/
评论