运维

IT基础设施的演进,如何高效部署业务并保障稳定性。
收录了运维话题下的 307 篇文章
  • 文章
  • 迷你书
高效运维最佳实践:如何做好 On-call 和事故响应?

许多公司的 On-call 轮转和事故响应流程都会让团队成员感到紧张、焦虑和痛苦,以至于许多优秀的工程师由于这个原因而拒掉工作。 本文的作者基于其在 New Relic 的实践经验,向读者介绍了如何创建既能够支持系统的快速增长又高度重视系统的可靠性,同时还能保护开发人员免受戏剧性事故和压力的影响的 on-call 轮转和事故响应流程。

作者: Beth Long 译者: 丛一

2019 年 1 月 9 日
实时监控系统如何帮助 FreeWheel 支持超级赛事直播广告?

深度了解 FreeWheel 实时监控平台

作者: Debra

2019 年 1 月 8 日
Linus 发布 Linux 5.0 rc1 版本,为原来 4.21 版本

原 4.21 版本,Linus 称,没有太多理由,就是小版本号太多了。

作者: 徐川

2019 年 1 月 7 日
SQL Server 2019 修复函数内联 bug,速度提高 1000 倍

与过去几十年出现的大多数数据库一样,SQL Server 允许开发人员通过创建函数来扩展数据库。但在即将发布的 SQL Server 2019 之前,SQL Server 在执行标量函数时,速度要慢 1000 倍。

作者: Jonathan Allen 译者: 无明

2019 年 1 月 6 日
携程 Redis 容器化实践

携程的 Redis 使用规模有 200T+,并且每天有百万亿次的访问频率,如此大规模的 Redis 容器化是个不小的挑战,本文分享携程 Redis 容器化落地的一些实践经验。

作者: 李剑

2019 年 1 月 5 日
云原生的浪潮下,为什么运维人员适合学习 Go 语言?

随着云原生和可观察性理念的普及,现在的运维也越来越向云原生方向靠拢,本文提供一个视角,向你说明 Go 语言可以如何在适用于 DevOps。

作者: Natalie Pistunovich 译者: 无明

2019 年 1 月 4 日
Stack Overflow:我们是如何做监控的

本文介绍了 Stack Overflow 是如何做监控的,包括他们使用的工具、指标和下一步的工作。

作者: Nick Craver 译者: 谢丽

2019 年 1 月 3 日
DevOps 日常:别人家的运维这样过

Reddit 上有网友提问 DevOps 工程师工作日的日常和周末都做些什么,我们整理了一些回答。

作者: 张婵

2019 年 1 月 3 日
经典案例复盘——运维专家讲述如何实现 K8S 落地

运满满近年来业务飞速发展,对系统稳定性的要求越来越高,针对一些痛点开始实现 K8s 的落地。

作者: 王春林

2019 年 1 月 2 日
从 400+ 节点 Elasticsearch 集群的运维中,我们总结了这些经验

Meltwater 的工程师通过官方技术博客分享了他们如何运行和维护 400+ 节点的 Elasticsearch 集群。主要介绍了业务中积累的时间序列数据的特点、数据量和每日滚动索引策略,以及他们对 Elasticsearch 版本的选择(没错,目前他们使用的是 1.X,而且做了源码级的修改)、为何不选择托管的云服务、索引结构和分片规划等,最后重点介绍了他们在性能方面的努力和经验,给出了一个性能参考列表。

作者: Anton Hägerstrand 译者: 杨振涛

2018 年 12 月 28 日
都说 AIOps 是必然趋势,那实践 AIOps 之前需要做些什么准备?

FreeWheel 创建于 2007 年,总部位于美国硅谷,主要业务是提供互联网视频广告投放、监测、预测、增值等解决方案。公司运维经历了传统运维,DevOps,SRE,目前在探索 AIOps。

作者: 刘显 杨顺祥

2018 年 12 月 28 日
2018 年十大云宕机事故盘点:主流无一幸免!

本文总结了 2018 年前十大云宕机事故,欢迎各位补充经历过的云服务至暗时刻。

作者: 赵钰莹

2018 年 12 月 27 日