

 写点什么

slo

收录了 slo 频道下的 50 篇内容

使用 Prometheus 和 Grafana 实现 SLO

在线服务的目标应该是提供与业务需求匹配的可用服务。此流程的关键部分应该涉及组织中的不同团队，例如，从业务开发团队到工程团队。

作者 : JUANJO CIARLANTE 译者: 关贺宇

2019-02-14

7031

关于故障复盘、容忍度和 SLO

如何更好的聚焦改进

作者 : 成哥的世界

2020-03-16

蚂蚁集团如何在大规模 Kubernetes 集群上实现高 SLO？

随着 Kubernetes 逐渐成为云计算的标准，企业中的 Kubernetes 应用正成为主流。

作者 : 田晓旭

2020-08-11

NVIDIA Dynamo Planner 为多节点 LLM 推理带来 SLO 驱动的自动化

微软和英伟达已经发布了他们合作的第二部分，即在Azure Kubernetes Service （AKS）上运行NVIDIA Dynamo进行大型语言模型推理。

作者：Claudio Masolo 译者: 刘雅梦

02-02

数据驱动型决策如何支持软件交付（三）：站点可靠性工程助力产品运维

本文要点：数据驱动决策系列文章概述了数据驱动决策如何支持软件交付中的三大活动——产品管理、开发和运维。

作者 : Vladyslav Ukis 译者: 王强

2020-03-31

509

通过标准化和短反馈循环打造可伸缩的 SRE 基础设施

软件企业对可靠运营大规模服务的需求在不断增长。这种需求可以通过不同的方式来满足。谷歌为此提出了一种方法，也就是所谓的站点可靠性工程（SRE），这是一门将软件工程技术应用在运营上的学科。

作者：Philipp Gündisch, Vladyslav Ukis 译者: 明知山策划: 丁晓昀

2022-07-27

“谈故障色变”到有章可循：美图 SRE 故障应急与复盘实践

本文分享结合美图 SRE 团队的实践经验，深入探讨故障应急的各个环节。并由此展开，给大家呈现一个典型的“故障生命周期”。他沿着这个脉络对故障的本质和常见原因进行剖析，对可观测性建设、灾备建设、应急预案及演练、故障复盘等日常高频工作场景进行讲解。

作者 : Kitty 策划: QCon全球软件开发大会

2025-10-20

微服务依赖管理的陷阱与模式

本文分享的故事讲述了一项小更改是如何影响整个系统的，并讨论了对系统建立全局视角以更好地理解更改对系统影响的重要性。

作者：Silvia Esparrachiari, Betsy Beyer 译者: 王强策划: 丁晓昀

2021-11-26

数据驱动决策如何支持软件交付（四）：优化产品交付组织

数据驱动决策系列文章概述了数据驱动决策如何支持软件交付中的三大活动—产品管理、开发和运维。软件交付组织可以应用假设、CD指标和SRE的SLI/SLO来改善有效性、效率和服务可靠性水平。

作者 : Vladyslav Ukis 译者: 王强

2020-04-30

SRE 运维解密 - 服务质量目标：SLI，SLO，SLA

如果不详细了解服务中各种行为的重要程度，并且不去度量这些行为的正确性的话，就无法正确运维这个系统，更不要说可靠地运维了。那么，不管是对外服务，还是内部API，我们都需要制定一个针对用户的服务质量目标，并且努力去达到这个质量目标。

微服务

运维

云原生

SRE

Google

董哥的黑板报

2022-08-05

观测云可用性 SLO 之跨多空间年度汇总统计

本实践介绍如何通过观测云函数计算平台（DataFlux Func）来处理各个空间的数据，并生成综合的 SLO 数据。

SLO

观测云

2024-11-28

SRE 转型：银行 SRE 转型与 SLO 管理的深度融合

本文探讨了银行在SRE转型中如何通过SLO管理提升系统可靠性与业务连续性。随着金融行业数字化转型，传统运维模式已无法满足高可用性需求，SLO管理成为提高服务稳定性和优化运维效率的核心实践。

SRE

IT 运维

嘉为蓝鲸

2025-02-13

Linux 内核社区是数字军火商、斯拉夫兵工厂甚至 NSA 的最爱

PaX/Grsecurity是在OS安全上的一个开创性的贡献，没有PaX/Grsecurity的GNU/Linux的安全性只能防御脚本小子，过去的14年里Pax/Grsecurity为Linux内核做出了巨大出贡献的贡献，但到今天Linux内核社区都不愿意承认。在Anarchist看来，这样的Linux内核社区正是数字军火商，斯拉夫兵工厂甚至NSA所喜欢的。

作者 : Brad Spengler

2015-07-02

3992