写点什么

slo

收录了 slo 频道下的 50 篇内容

使用Prometheus和Grafana实现SLO
使用 Prometheus 和 Grafana 实现 SLO

在线服务的目标应该是提供与业务需求匹配的可用服务。此流程的关键部分应该涉及组织中的不同团队,例如,从业务开发团队到工程团队。

关于故障复盘、容忍度和SLO
关于故障复盘、容忍度和 SLO

如何更好的聚焦改进

蚂蚁集团如何在大规模 Kubernetes 集群上实现高 SLO?
蚂蚁集团如何在大规模 Kubernetes 集群上实现高 SLO?

随着 Kubernetes 逐渐成为云计算的标准,企业中的 Kubernetes 应用正成为主流。

NVIDIA Dynamo Planner为多节点LLM推理带来SLO驱动的自动化
NVIDIA Dynamo Planner 为多节点 LLM 推理带来 SLO 驱动的自动化

微软和英伟达已经发布了他们合作的第二部分,即在Azure Kubernetes Service (AKS)上运行NVIDIA Dynamo进行大型语言模型推理。

数据驱动型决策如何支持软件交付(三):站点可靠性工程助力产品运维
数据驱动型决策如何支持软件交付(三):站点可靠性工程助力产品运维

本文要点:数据驱动决策系列文章概述了数据驱动决策如何支持软件交付中的三大活动——产品管理、开发和运维。

通过标准化和短反馈循环打造可伸缩的SRE基础设施
通过标准化和短反馈循环打造可伸缩的 SRE 基础设施

软件企业对可靠运营大规模服务的需求在不断增长。这种需求可以通过不同的方式来满足。谷歌为此提出了一种方法,也就是所谓的站点可靠性工程(SRE),这是一门将软件工程技术应用在运营上的学科。

“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践
“谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践

本文分享结合美图 SRE 团队的实践经验,深入探讨故障应急的各个环节。并由此展开,给大家呈现一个典型的“故障生命周期”。他沿着这个脉络对故障的本质和常见原因进行剖析,对可观测性建设、灾备建设、应急预案及演练、故障复盘等日常高频工作场景进行讲解。

微服务依赖管理的陷阱与模式
微服务依赖管理的陷阱与模式

本文分享的故事讲述了一项小更改是如何影响整个系统的,并讨论了对系统建立全局视角以更好地理解更改对系统影响的重要性。

数据驱动决策如何支持软件交付(四):优化产品交付组织
数据驱动决策如何支持软件交付(四):优化产品交付组织

数据驱动决策系列文章概述了数据驱动决策如何支持软件交付中的三大活动—产品管理、开发和运维。软件交付组织可以应用假设、CD指标和SRE的SLI/SLO来改善有效性、效率和服务可靠性水平。

SRE运维解密-服务质量目标:SLI,SLO,SLA
SRE 运维解密 - 服务质量目标:SLI,SLO,SLA

如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠地运维了。那么,不管是对外服务,还是内部API,我们都需要制定一个针对用户的服务质量目标,并且努力去达到这个质量目标。

微服务
运维
云原生
SRE
Google
观测云可用性 SLO 之跨多空间年度汇总统计
观测云可用性 SLO 之跨多空间年度汇总统计

本实践介绍如何通过观测云函数计算平台(DataFlux Func)来处理各个空间的数据,并生成综合的 SLO 数据。

SLO
SRE转型:银行 SRE 转型与 SLO 管理的深度融合
SRE 转型:银行 SRE 转型与 SLO 管理的深度融合

本文探讨了银行在SRE转型中如何通过SLO管理提升系统可靠性与业务连续性。随着金融行业数字化转型,传统运维模式已无法满足高可用性需求,SLO管理成为提高服务稳定性和优化运维效率的核心实践。

SRE
IT 运维
Linux 内核社区是数字军火商、斯拉夫兵工厂甚至 NSA 的最爱

PaX/Grsecurity是在OS安全上的一个开创性的贡献,没有PaX/Grsecurity的GNU/Linux的安全性只能防御脚本小子,过去的14年里Pax/Grsecurity为Linux内核做出了巨大出贡献的贡献,但到今天Linux内核社区都不愿意承认。在Anarchist看来,这样的Linux内核社区正是数字军火商,斯拉夫兵工厂甚至NSA所喜欢的。

SLICK: Facebook 基于 SLO 的可靠性保障实践

定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。

facebook
架构
大厂实践
我在Uber运营大型分布式系统三年经验谈
我在 Uber 运营大型分布式系统三年经验谈

Gergely在Uber公司内负责支付系统的运营。他在这篇文章里分享了许多通用的经验,对运营大型分布式系统的方法给出了指导。

Uber实践:运维大型分布式系统的一些心得
Uber 实践:运维大型分布式系统的一些心得

系统越大,墨菲“什么可能出错,就会出错”的定律就越会体现。

服务等级 SLA/SLO 实践观——目标设定、误报漏报与业务影响评估

没有 SLO 的监控系统如同没有刻度的尺子——能量长度却无法判断长短是否合适

全栈监控与告警设计——从 SLO 到告警规则,避免告警雪崩的分级体系

在掌握了风险可控的发布策略后,我们需要解决一个更根本的问题:如何准确判断发布是否成功?如何在海量监控数据中识别真正重要的信号?全栈监控与告警设计正是连接系统状态与人工干预的关键桥梁。

CPU利用率提升至55%,网易轻舟基于K8s的业务混部署实践
CPU 利用率提升至 55%,网易轻舟基于 K8s 的业务混部署实践

服务器资源利用率较低,IT 基础设施的总拥有成本(TCO)逐年上涨,一直是困扰很多企业的难题。随着云原生技术的发展,Kubernetes 逐渐成为数据中心的一项基础设施,将在 / 离线业务统一使用 Kubernetes 调度编排日渐成熟。

slo专题_资料-InfoQ中文网