华为云门户的六维系统监控(一)

阅读数:1 2020 年 1 月 10 日 11:51

华为云门户的六维系统监控(一)

一个产品从雏形到成熟,业务异常会时不时的出现在这个过程中。业务异常可能不可避免,即使成熟的产品也可能由于互联网的攻击而异常,如果能及时发现异常并快速处理,对业务 / 用户造成的影响就能降到最低。如果某次异常发生后一两个小时或者更长时间业务侧都没有发现,那这种情况就很可怕了。

复制代码
华为云门户,包括官网、云市场、云社区(论坛)、用户中心等关键业务,是华为云的门脸。面向互联网,随时可能被攻击,业务异常对用户感知、体验、华为云品牌都会构成严重的威胁。业务的监控和告警显得尤为重要,下面来看看我们门户在这方面做了哪些动作来确保异常能快速的被监控到并产生告警,覆盖了系统可用性和用户体验性两大方面。

华为云门户的六维系统监控(一)
一、OpsMonitor

  • 介绍:OpsMonitor 是基于 Zabbix 开发的分布式运维监控系统,公有云统一监控平台。可将通用类主机资源使用情况上报到 IES 统一展示。检测到异常时立即告警。
  • 监控点:主机资源如 CPU、内存、磁盘空间、系统启动时长、用户密码过期检测、进程数量监控、* 网卡状态、网络流量、nginx 进程等。
  • 解决问题:服务器资源状态、进程等异常时业务侧无感知。
  • 检测频率:当前配置 5 分钟。
  • 告警阈值:可根据具体监控项进行配置,如 CPU 空闲率 30%。
  • 告警方式:邮件、短信。
  • 实战:2018 年 2 月 28 日 18:17 收到重要告警邮件,紧急连上服务器确认,告警属实,通过确认为后台管理服务器业务正常同步场景,同步完成后告警解除。

华为云门户的六维系统监控(一)

监控图:
华为云门户的六维系统监控(一)

本文转载自 Think 体验设计公众号。

原文链接: https://mp.weixin.qq.com/s/oZ-VCAXsboTx5cph4oAMVw

评论

发布