写点什么
创作场景
- 记录自己日常工作的实践、心得
- 发表对生活和职场的感悟
- 针对感兴趣的事件发表随笔或者杂谈
- 从 0 到 1 详细介绍你掌握的一门语言、一个技术,或者一个兴趣、爱好
- 或者,就直接把你的个人博客、公众号直接搬到这里
登录/注册
收录了 slo 频道下的 50 篇内容

在线服务的目标应该是提供与业务需求匹配的可用服务。此流程的关键部分应该涉及组织中的不同团队,例如,从业务开发团队到工程团队。

如何更好的聚焦改进

随着 Kubernetes 逐渐成为云计算的标准,企业中的 Kubernetes 应用正成为主流。

微软和英伟达已经发布了他们合作的第二部分,即在Azure Kubernetes Service (AKS)上运行NVIDIA Dynamo进行大型语言模型推理。

本文要点:数据驱动决策系列文章概述了数据驱动决策如何支持软件交付中的三大活动——产品管理、开发和运维。

软件企业对可靠运营大规模服务的需求在不断增长。这种需求可以通过不同的方式来满足。谷歌为此提出了一种方法,也就是所谓的站点可靠性工程(SRE),这是一门将软件工程技术应用在运营上的学科。

本文分享结合美图 SRE 团队的实践经验,深入探讨故障应急的各个环节。并由此展开,给大家呈现一个典型的“故障生命周期”。他沿着这个脉络对故障的本质和常见原因进行剖析,对可观测性建设、灾备建设、应急预案及演练、故障复盘等日常高频工作场景进行讲解。

本文分享的故事讲述了一项小更改是如何影响整个系统的,并讨论了对系统建立全局视角以更好地理解更改对系统影响的重要性。

数据驱动决策系列文章概述了数据驱动决策如何支持软件交付中的三大活动—产品管理、开发和运维。软件交付组织可以应用假设、CD指标和SRE的SLI/SLO来改善有效性、效率和服务可靠性水平。

如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠地运维了。那么,不管是对外服务,还是内部API,我们都需要制定一个针对用户的服务质量目标,并且努力去达到这个质量目标。


本文探讨了银行在SRE转型中如何通过SLO管理提升系统可靠性与业务连续性。随着金融行业数字化转型,传统运维模式已无法满足高可用性需求,SLO管理成为提高服务稳定性和优化运维效率的核心实践。
PaX/Grsecurity是在OS安全上的一个开创性的贡献,没有PaX/Grsecurity的GNU/Linux的安全性只能防御脚本小子,过去的14年里Pax/Grsecurity为Linux内核做出了巨大出贡献的贡献,但到今天Linux内核社区都不愿意承认。在Anarchist看来,这样的Linux内核社区正是数字军火商,斯拉夫兵工厂甚至NSA所喜欢的。
作者:京东物流 冯志文
定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。

Gergely在Uber公司内负责支付系统的运营。他在这篇文章里分享了许多通用的经验,对运营大型分布式系统的方法给出了指导。

系统越大,墨菲“什么可能出错,就会出错”的定律就越会体现。
没有 SLO 的监控系统如同没有刻度的尺子——能量长度却无法判断长短是否合适
在掌握了风险可控的发布策略后,我们需要解决一个更根本的问题:如何准确判断发布是否成功?如何在海量监控数据中识别真正重要的信号?全栈监控与告警设计正是连接系统状态与人工干预的关键桥梁。

服务器资源利用率较低,IT 基础设施的总拥有成本(TCO)逐年上涨,一直是困扰很多企业的难题。随着云原生技术的发展,Kubernetes 逐渐成为数据中心的一项基础设施,将在 / 离线业务统一使用 Kubernetes 调度编排日渐成熟。