可观测

关注
收录了可观测频道下的 826 篇内容
关注可观测领域的技术实践、工具发展和前沿趋势
  • 全部
  • 文章
  • 视频
  • 话题
  • 电子书
OpenTelemetry”指南,以扩大可观测性的采用
OpenTelemetry”指南,以扩大可观测性的采用

开源可观测性项目 OpenTelemetry 最近发布了一份名为“揭秘 OpenTelemetry”的全面指南,旨在帮助组织理解、采用和扩展使用 OpenTelemetry 标准的可观测性。

从告警疲劳到代理辅助的智能可观测性
从告警疲劳到代理辅助的智能可观测性

初次接触可观测性 AI 代理的概念时,我是持怀疑态度的。这听起来像是供应商炒作与流行词汇的结合体。但随着技术的日趋成熟,早期应用方案的陆续出现,其潜力正变得越来越清晰。

谁写的代码谁负责!Cursor 发布 Agent Trace:从此 Bug 别想再推给 AI
谁写的代码谁负责!Cursor 发布 Agent Trace:从此 Bug 别想再推给 AI

Agent Trace:Cursor 提出 AI 代码归属的开放规范。

容器可观测新视角: SysOM 延时抖动监控助力定位业务抖动原因
容器可观测新视角: SysOM 延时抖动监控助力定位业务抖动原因

在云原生场景中,为了最大化资源利用率,越来越多的集群采用资源超卖策略和混合部署方式。然而,这种模式在提升集群效率的同时,也显著增加了宿主机与容器化应用之间的资源竞争风险。

为什么你的系统一出事就“查不清”?Railway 给出可观测性的标准答案
为什么你的系统一出事就“查不清”?Railway 给出可观测性的标准答案

Railway 发布可观测性实践指南,系统阐述日志、指标、追踪与告警的协同价值,帮助工程团队更高效地定位和诊断生产系统故障。

DoorDash通过多臂老虎机增强A/B测试
DoorDash 通过多臂老虎机增强 A/B 测试

DoorDash 工程师 Caixia Huang 和 Alex Weinstein 说,尽管实验至关重要,但传统 A/B 测试可能过于缓慢且成本高昂。为了消除这些限制,他们采用了“多臂老虎机”(MAB)方法来优化实验。

星巴克中国一体化可观测性重构:从日志检索到指标驱动,构建低成本、高可用的可观测体系
星巴克中国一体化可观测性重构:从日志检索到指标驱动,构建低成本、高可用的可观测体系

“我们在不引入重型流式计算(如 Flink)的前提下,采用 Vector 将访问日志指标化的方式,联动并用指标与日志。”

三大头部互联网企业交锋,AI 时代可观测边界出现了吗?
三大头部互联网企业交锋,AI 时代可观测边界出现了吗?

LLM 的推理能力与生成式 AI 的数据理解能力,为可观测技术的演进提供了全新思路。另一方面,可观测技术也在反哺 AI 领域。那么, AI 与可观测技术是如何双向赋能的?AIOps 从实验到生产、从口号到落地的行动路径又是怎么样的?

AI 时代可观测性的“智”变与“智”控 |InfoQ《极客有约》
AI 时代可观测性的“智”变与“智”控 |InfoQ《极客有约》

阿里云、字节、小红书技术专家同台,深度对话 AI 时代可观测性的“智”变与“智”控之道。

研究发现大模型尚不足以在事件管理中取代SRE工程师
研究发现大模型尚不足以在事件管理中取代 SRE 工程师

ClickHouse 的一项研究发现,大型语言模型尚不能取代网站可靠性工程师(SREs)来执行诸如寻找事件根因等任务。然而,人工智能技术正朝着这一目标大步前进。

谷歌云可观测性采用OpenTelemetry协议进行原生追踪数据摄取
谷歌云可观测性采用 OpenTelemetry 协议进行原生追踪数据摄取

谷歌云宣布在其 Cloud Trace 服务中原生支持 OpenTelemetry 协议(OTLP),这标志着向供应商中立的可观测性基础设施迈出了重要发热一步。新功能允许开发人员通过 telemetry.googleapis.com 端点直接使用 OTLP 发送追踪数据,从而消除了对供应商特定导出器和自定义数据转换的需求。

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海
重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

结合小红书在 AI 领域不同方向解决痛点问题的经验探索,详细分享其中一些重点技术的实践和落地。

Honeycomb 推出托管 MCP 服务,实现 IDE 与可观测性数据无缝集成
Honeycomb 推出托管 MCP 服务,实现 IDE 与可观测性数据无缝集成

Honeycomb 近日宣布其托管模型上下文协议(Model Context Protocol, MCP)服务正式上市,让开发者能够将可观测性数据直接集成到 GitHub Copilot 等 AI 驱动的开发工具中。

因果推理如何破解 LLM 在可观测性领域的局限性
因果推理如何破解 LLM 在可观测性领域的局限性

本文中将首先阐述 LLM 与智能体 AI 在可观测性和事件管理中的优势,继而分析其在精准根因分析与有效修复方面的局限性。接着介绍因果知识与推理引擎如何为精准事件诊断与响应提供 LLM 所缺失的上下文支撑。最后探讨如何将因果推理与 AI Agent 相结合,实现主动事件预防、自动化修复,并最终通向自主服务可靠性之路。

亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海
亿级用户背后的智能诊断:多模态数据融合与实时诊断实践|QCon 上海

深入剖析 bilibili 在 AI 驱动的智能运维领域的核心技术实践。

Vercel为可观察性平台新增外部API缓存分析功能
Vercel 为可观察性平台新增外部 API 缓存分析功能

Vercel 通过整合外部 API 缓存洞察功能增强了其可观察性平台,开发人员能够跟踪有多少对第三方 API 的请求是从 Vercel 数据缓存中获取响应。

Grafana 12推出了可观测性代码和动态仪表板特性
Grafana 12 推出了可观测性代码和动态仪表板特性

Grafana 实验室推出了 Grafana 12,为其可视化和仪表板平台带来了重大更新。

传统可观测性的尽头,是LLM可观测性的起点
传统可观测性的尽头,是 LLM 可观测性的起点

“在人类系统中,信任来自对规则一致性的判断;在智能系统中,信任则来自对‘行为合理性’的持续观测。”

从零到一:SaaS平台自动化测试体系实践
从零到一:SaaS 平台自动化测试体系实践

本文深入剖析了如何基于创新性的 “双螺旋模式”、自研测试工具和 “先保障质量,再提升效率” 的核心理念,在 SaaS 业务快速发展背景下,构建高效、可扩展的自动化测试体系,从而更好地服务于业务需求,实现降本提质的目标。

中国移动客服大模型:实现全面可观测性的创新实践
中国移动客服大模型:实现全面可观测性的创新实践

为高质量支撑 2024 年客服大模型商用,中国移动构建了客服大模型“混合云”生产环境,确保大模型应用安全稳定运行、智算资源高效利用。面对当前跨云调用拓扑的复杂性,以及运维保障与业务运营中服务质量观测指标的缺失问题,多团队共同合作基于 eBPF 与 Wasm 技术构建客服大模型生产运行态可观测能力。

OpenTelemetry 剖析数据模型落地!Elastic捐赠加速持续剖析标准化进程
OpenTelemetry 剖析数据模型落地!Elastic 捐赠加速持续剖析标准化进程

本文提到 Elastic 向 OpenTelemetry 项目提供了基于 eBPF 的持续剖析代理,以加速该技术在 OpenTelemetry 生态系统中的标准化进程。

自动化测试工具 JetBrains Aqua IDE 正式发布
自动化测试工具 JetBrains Aqua IDE 正式发布

Aqua 正式发布,这是第一个用于测试自动化的 IDE。

Grafana通过改善事件管理助力工程师快速解决问题
Grafana 通过改善事件管理助力工程师快速解决问题

Grafana Labs 是领先的可观测性解决方案提供商,它宣布对其事件响应和管理平台进行了重大改进。

Bonree ONE技术实践:如何用5台机器资源支撑起2000探针同时起跑?
Bonree ONE 技术实践:如何用 5 台机器资源支撑起 2000 探针同时起跑?

日志、指标和调用链是可观测性取得成功的三要素,而这些的实现离不开数据采集,探针采集并上报数据,后端服务接收后对数据进行处理分析,从而达到可观测的目的。通常,服务器性能数据、服务相关数据、服务之间的调用等数据经由探针采集上报,经过 ETL 处理后,成为可观测性分析中的重要依据。

民生银行云原生业务的 eBPF 可观测性建设实践
民生银行云原生业务的 eBPF 可观测性建设实践

本文讲述了民生银行的网络运维团队的工程师们在企业全面拥抱云原生的过程中,如何与云杉 DeepFlow 团队携手以 vTap 流量分发为起点,逐步改变传统网络运维思路,拥抱分布式流量采集方案,引入 eBPF 零侵扰应用追踪技术,并积极探索更多观测能力的发展历程。

寒冬不改凌云志,感恩携手共进退:基调听云高端客户答谢大会暨新品发布会圆满落幕
寒冬不改凌云志,感恩携手共进退:基调听云高端客户答谢大会暨新品发布会圆满落幕

基调听云年终高端客户答谢会暨新品发布会

好分期云原生转型下的北极星监控体系
好分期云原生转型下的北极星监控体系

在互联网业务场景下,系统稳定性和可用性是至关重要的,任何故障都可能对业务产生严重影响。然而,在这样的环境中,由于业务规模庞大、系统复杂度高,当出现故障时,往往会面临排查问题效率慢的挑战。 传统的监控体系可能无法满足对复杂系统的全面监测和快速问题定位的需求,导致故障持续时间延长,影响业务运营。

为什么说 eBPF 是实现可观测性的关键技术?
为什么说 eBPF 是实现可观测性的关键技术?

本文依次论述 APM 无法实现真正可观测性的原因,分析为什么 eBPF 是可观测性的关键技术,介绍 DeepFlow 基于 eBPF 的三大核心功能,并进一步阐述如何向 eBPF 的观测数据中注入业务语义。在此之后,本文分享了 DeepFlow 用户的九大类真实使用案例,总结了用户在采用 eBPF 技术前的常见疑问。最后,本文进一步分析了 eBPF 对新技术迭代的重大意义。

腾讯云原生可观测性之路:探索、实践与踩坑
腾讯云原生可观测性之路:探索、实践与踩坑

可观测系统发展历史以及未来的发展趋势。

阿里云资深技术专家周洋(中亭),确认担任QCon北京架构稳定性专题出品人
阿里云资深技术专家周洋(中亭),确认担任 QCon 北京架构稳定性专题出品人

在当今的软件开发中,架构稳定性和可观测性都是非常重要的考虑因素。

    Web 前端技术在音视频编辑和智能创作方向的探索
    Web 前端技术在音视频编辑和智能创作方向的探索

    孟谦 | 字节跳动 智能创作 AIP 平台生态前端负责人

    立即下载
    网络驱动大规模 AI 训练 - 阿里云可预期网络 HPN 7.0 架构

    席永青 | 阿里巴巴 资深网络架构师

    立即下载
    网易云音乐智能监控探索与实践

    宋东辉 | 网易云音乐 资深测试开发工程师

    立即下载