写点什么

OpenTelemetry”指南,以扩大可观测性的采用

作者:Craig Risi
  • 2026-02-27
    北京
  • 本文字数:1974 字

    阅读完需:约 6 分钟

开源可观测性项目OpenTelemetry最近发布了一份名为“揭秘 OpenTelemetry”的全面指南,旨在帮助组织理解、采用和扩展使用 OpenTelemetry 标准的可观测性。该帖子澄清了关于该项目的常见误解,概述了其组件如何适应现代可观测性堆栈,并为寻求在分布式架构中对系统进行监控的工程团队提供了实用建议。

 

OpenTelemetry 正成为从应用程序和基础设施中收集日志、指标、追踪和其他遥测数据的通用标准,但其灵活性和不断增长的生态系统也导致了人们对其工作原理和何时使用特定组件的困惑。新指南旨在回答围绕项目目的、其与监控和可观测性平台的关系以及如何与云提供商和 APM 工具集成的常见问题。通过这样做,OpenTelemetry 社区希望减少采用障碍,并赋予团队更一致地监控复杂应用程序的能力。

 

在较高的层次上,该指南强调 OpenTelemetry 不是一个完整的可观测性产品,而是一个供应商中立的监控标准和收集框架。它以一致的格式捕获遥测数据,并将其导出到后端系统进行存储、分析和可视化。博客解释了 OpenTelemetry API、SDK、收集器和OTLP等协议的角色,展示了这些组件如何适应端到端的可观测性管道,从应用内监控到后端消费。

 

提供的一个关键澄清是监控和可观测性产品之间的区别。虽然 OpenTelemetry 提供了生成和传输遥测数据的构建块,但团队仍然需要后端系统(如PrometheusJaegerGrafanaSplunk或其他可观测性平台)来存储、查询和警告这些数据。该指南还涉及性能考虑、采样策略和在生产中部署收集器的最佳实践,以免引入不必要的开销。

 

该帖子概述了跨环境的常见实现模式:微服务、无服务器和边缘,以及诸如指标爆炸、追踪上下文传播问题和配置错误的导出器等陷阱。对于每个问题,指南推荐了一些策略,如语义约定、批处理和采样,以及与服务级别目标(SLO)对齐的遥测设计。目标是帮助团队将可观测性从临时仪表板转变为可以驱动调试、性能调整和可靠性工程的可操作洞察。

 

OpenTelemetry 社区指出,随着分布式服务、混合云和 AI 驱动系统的推动,云原生复杂性不断增长,一致的遥测对于理解系统行为至关重要。通过揭开其架构和使用的神秘面纱,该项目希望鼓励更广泛的采用和更有效的行业可观测性实践。OpenTelemetry 由云原生计算基金会(CNCF)托管,并已看到来自云供应商、可观测性平台和寻求供应商中立监控的企业的贡献不断增加。

 

OpenTelemetry 团队解决的一个中心误解是,人们认为 OpenTelemetry 本身就是一个可观测性平台或监控产品。实际上,OpenTelemetry 是一个供应商中立的监控和数据收集标准,而不是用于存储、可视化或警告遥测数据的后端。它提供了生成和导出遥测数据所需的 API、SDK、数据模型和收集器,但组织仍必须选择一个后端,无论是开源还是商业的,以使数据可用。另一个常见的误解是采用 OpenTelemetry 需要“大爆炸”式的重写。该指南强调,团队可以逐步进行监控,从关键服务开始,随着成熟度的增长逐步扩大覆盖范围。

 

该指南还纠正了更多的遥测自动意味着更好的可观测性的观念。没有采样、语义约定和清晰的服务目标,团队冒着创建嘈杂、昂贵的数据流的风险,这些数据流增加了复杂性而不是清晰度。同样,OpenTelemetry 不是一刀切的部署:收集器、导出器和处理管道必须根据工作负载模式、性能限制和合规需求进行定制。通过将 OpenTelemetry 重新定位为灵活的基础而不是现成的解决方案,该项目鼓励团队将可观测性视为一种架构学科,而不仅仅是工具选择。

 

许多可观测性从业者和行业报告强调了监控和可观测性后端之间类似的区分。例如,Grafana LabsSplunk等供应商的可观测性状态报告一致指出,组织经常在没有明确的存储、查询或警告计划的情况下监控系统,导致“可观测性债务”。这些报告建议将遥测视为一个生命周期,包括捕获、传输、存储和洞察,而不仅仅是监控的复选框。这与 OpenTelemetry 的信息一致,即收集数据只是第一步;团队还必须计划如何管理、提炼和采取行动。

 

其他声音指出了一些常见的陷阱,这些陷阱有时与 OpenTelemetry 的观点相偏离。一些工程博客Reddit讨论组DevOps调查强调,组织在团队所有权和可观测性的文化采纳方面仍然存在挑战,不仅仅是技术栈的问题。他们认为,即使系统被很好地监控,如果团队不构建共享仪表板、定义服务级别指标(SLIs)和目标(SLOs),或者不投资于培训开发人员解释遥测数据,也可能无法提供价值。从这个意义上说,挑战不仅仅是与 OpenTelemetry 等标准进行技术对齐,还包括组织准备将可观测性作为决策支持系统而非监控孤岛。

 

综上所述,这些资源强化了一个更广泛的主题,即有效的可观测性既是技术性的也是文化性的。像 OpenTelemetry 这样的监控标准提供了必要的管道,但要实现全部价值,取决于组织如何将数据整合到工作流程中,根据实际需求定制管道,并避免过度收集数据,这些数据增加了噪音而没有提供洞察。

 

原文链接:

https://www.infoq.com/news/2026/02/opentelemetry-observability/