下面的这两件事可能是很多运维工程师心里的痛,一是公司的故障复盘会,总有监控缺失直指运维人员,二是很多同学因报警值班而身心俱疲。作为一个在BATJ公司运维了七年监控系统的工程师,一个同样经历过上述痛苦的工程师,在此抛砖引玉,从监控的思路,方法,以及各种场景的监控实践出发,希望大家在接触一个新的系统时,能够快速上手解决80%的常见问题,然后逐步打磨监控的召回率和准确率,进而实现有报警必有损,有损必有报警的目标。
运维工作千万条,做好监控第一条。监控工作不到位,服务宕机两行泪。
微服务架构在带来灵活性、扩展性、伸缩性以及高可用性等优点的同时,其复杂性也给运维工作中最重要的监控环节带来了很大的挑战,从用户的角度看,微服务架构下的监控应该注意哪些方面?
本文将分享京东云在 Kafka 黑盒监控方面的一些实践经验,其中着重对 Kafka Monitor 监控逻辑的部分代码进行解读,以便大家能够对其优秀的设计有一个更为深入的了解。
独孤九剑,助你彻底消灭无效报警!
本文将主要介绍报警风暴形成的原因和报警合并策略中简单的报警合并策略。
本篇文章中,运小博将介绍关联策略的报警合并策略、基于报警数据挖掘的机房故障分析、报警关注度分析、值班与逐级通告机制和报警回调等技术。
监控,是服务可用性保障的关键之一。本文从运维角度,对 ES 服务监控进行了系统性总结,涵盖监控工具选型、监控采集项筛选介绍,并列举了几个借助监控发现的 ES 线上问题。
Kafka,作为分布式高吞吐发布订阅的消息系统,广泛应用于消息队列、大数据流计算分析等场景。本文介绍了 Kafka 系统监控方案,以及站在用户视角阐述如何监控好 Kafka 实际产品。
Zookeeper(文中简称 ZK)是一个开放源码的分布式应用程序协调服务,是 Google 公司 Chubby 服务的开源实现,同时也是 Hadoop 和 Hbase 等开源软件的重要组件。文章将从 ZK 监控案例的角度出发,让大家了解 ZK 的一些重要监控指标。
我们用 Puppet 管理了上千台服务器,经过多次优化监控,自动化灰度发布保证了所有集群基础配置一致性。本文探讨了如何对 Puppet 系统进行监控,也将典型问题和解决方案一并分享给大家。
Hadoop 分布式文件系统 (HDFS) 被设计成适合运行在通用硬件 (commodity hardware) 上的分布式文件系统。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在大数据生态圈中,HDFS 是最重要的底层分布式文件系统,它的稳定性关乎整个生态系统的健康。本文介绍了 HDFS 相关的重要监控指标,分享指标背后的思考。
Nginx (“engine x”) 是一个开源、免费、高性能的 HTTP 和反向代理服务器,也可以用于 IMAP/POP3 代理服务器。充分利用 Nginx 的特性,可以有效解决流量高并发请求、cc 攻击等问题。本文探讨了电商场景下 Nginx 的监控方案,并将使用过程中遇到的问题和解决方案与大家一起分享。
通俗来讲——白盒监控可以帮助我们快速定位问题原因,但要知道服务出了什么问题,还需要我们从黑盒监控入手。