Quesma 推出了 OTelBench,这是一个开源的基准测试套件,旨在衡量 OpenTelemetry 管道的性能以及 AI 代理在实施和维护可观测性配置中的有效性。
该工具提供了一个统一的框架,用于评估可观测性基础设施的技术限制以及大型语言模型在自动化网站可靠性工程任务中的效率。通过这两个领域的结合,该套件旨在为平台工程师提供基于证据的可验证数据,从而帮助他们应对现代云原生环境下监控的复杂性。
起初,项目的重点是高负载场景下 OpenTelemetry 管道的性能和可靠性。随着云环境中产生的遥测数据越来越多,识别收集器的性能瓶颈对于维护系统稳定性变得至关重要。OTelBench 可以模拟各种流量模式,用于衡量处理器和导出器的关键性能指标,如吞吐量、延迟和资源消耗。这使得团队可以在将更改部署到生产环境之前验证他们的硬件需求和配置设置。
经过扩展之后,除了基础设施测试外,该套件还能评估 AI 代理如何平衡数据解析精度和系统开销。尽管前沿模型展现了卓越的通用编码能力,但基准测试的最新结果显示,其在生产级监控任务中还存在着显著的差距。即便是最顶尖的模型,在上下文传播和分布式追踪方面也常常表现得很吃力,在实际场景涉及 OpenTelemetry 规范中的复杂维度时,其成功率往往低于 30%。
在最近的一份公告中,Quesma 创始人 Przemysław Delewski 特别介绍了该项目背后的动机。他说,“最近我们构建了 OTelBench,一个基准测试,可以比较不同设置和配置下 OpenTelemetry 的性能”。现在,该框架扮演了更广泛的角色,它可以提供一个可复制的环境来测试自动化 SRE 解决方案是否能够准确地实施监控,而又不产生畸形追踪或静默故障。
该项目可以与传统方法并存,例如 OpenTelemetry 项目为其收集器组件维护的内部基准测试。虽然工程师历来使用 k6 或 Gatling 等通用负载测试工具来模拟 OTLP 流量,但这些选项通常缺乏 Quesma 套件提供的代理自动化综合评估。基准测试的客观性确保它保持供应商中立,从而能够测试各种开源后端(如 Prometheus 和 Jaeger)的导出器。
通过自动化评估人类配置的管道和 AI 驱动的监控工具,该工具减少了验证基础设施更改所需的手动工作。无论配置是出自开发人员之手还是由算法生成,用户都可以更深入地了解内部缓冲和排队策略如何管理突发的流量激增。这有助于创建可随后端服务扩展的健壮的可观测性框架,而不会引发意外的性能回归或数据丢失。





