华为云门户的六维系统监控(二)

阅读数:1 2020 年 1 月 10 日 11:51

华为云门户的六维系统监控(二)

二、博睿

  • 介绍:
    博睿网络应用性能监控为第三方监控工具,本工具的优势在于从真实用户角度感知业务应用体验,基于全球监控网络,模拟真实有效的客户现场环境,对指定页面进行监控。工具使用灵活,支持指定监测周期、监测区域、运营商等,从不同维度全面评估网站性能。同时,工具提供了友好的页面进行历史数据查看,包括指标性能趋势、监测散点、瀑布图、分地域、分运营商的统计图等。
    华为云门户的六维系统监控(二)

  • 监控点:
    浏览监控:对指定页面进行主动访问,获取用户体验效果数据等。
    事务监控:通过对用户与网站交互行为的脚本录制以及回放,了解交互步骤的瓶颈点,以及相关页面的性能表现。

  • 解决问题:
    某个页面突然访问慢时业务侧无感知;业务页面在公司内部访问快,但从公网访问慢;业务页面长时间访问慢,无真实访问数据驱动业务优化;业务侧感知页面访问慢,无法获知从哪个时间点开始变慢。

  • 检测频率:重要页面 5 分钟。

  • 告警阈值:根据不同页面的正常性能表现,支持灵活告警配置

告警方式:邮件、短信。
实战: 2018 年 2 月 14 日 18:35 开始,连续收到多个博睿告警,显示云博客等页面打开慢:

华为云门户的六维系统监控(二)

最后人工拨测发现页面性能确实有下降,紧急组织定位,最终发现在该段时间,有用户恶意向系统发送大量请求,导致服务器处理性能下降,联系安全运维人员协助处理后,业务恢复正常。

三、CloudA

  • 介绍:cloudA 服务监控,基于 ICProbeAgent 进行监控数据采集,支持全面的主机性能指标监控,以及对于 cloudSOP 部署的微服务监控,同时还支持自由定制第三方组件的进程监控。对采集的监控数据,提供页面进行趋势展示,以及历史数据查看。对于上报的告警,统一汇聚到 IES 进行展示以及告警通知。
    华为云门户的六维系统监控(二)

  • 监控点:
    主机类:操作系统 CPU、内存、磁盘、网络等多项指标。
    数据库:连接数、每秒查询数、慢查询数、每秒选择数 / 更新数 / 提交数、数据库使用大小等。
    服务类:进程占用 CPU、进程占用物理内存、进程占用虚拟内存、句柄数、线程数等。

  • 解决问题:
    服务器资源出现异常无感知;
    数据库访问、资源异常无感知;
    业务进程异常无感知;

  • 检测频率:每分钟。

  • 告警阈值:根据不同监控项设置不同告警阈值(支持紧急告警、重要告警、一般告警、警告等级别),如:

  • 告警方式:邮件、短信。

  • 实战:2018 年 3 月 2 日 10:53,监控发现用户中心节点物理内存使用超过紧急告警阈值(80%)。

华为云门户的六维系统监控(二)
登录主机节点发现,内存占用确实较高,进一步分析发现,用户中心当前 8 个微服务合设,每个微服务都占用了 1G 左右的物理内存,导致整体占用偏高,与 SE 确认,计划修改微服务启动时的物理内存分配,来降低整体内存的消耗。

  • 准确度:CPU 可能会由于业务正常占用而误报,其他资源告警不会误报。

四、EchoTest

  • 介绍:在线测试工具 EchoTest 无缝迁移 API、Web 测试能力至现网,可定时、定频率、多地域的发起自动化用例测试,支持站内告警,站外邮件、短信告警。
  • 监控点:由业务自身梳理出关键特性用例,自动化后在线进行定时拨测。如:
    华为云门户的六维系统监控(二)
  • 解决问题:业务功能使用异常无感知;用户可能已经找到客服,而业务方对问题还无感知;
  • 检测频率:可配置,最短 5 分钟,当前一级用例(检测业务可用性)为 5 分钟,二级用例(涉及用户交互功能)为 1 小时。
  • 告警阈值:用例执行失败立即告警(用例级)。
  • 告警方式:邮件、短信。
  • 实战:2018 年 02 月 14 日 20:54 收到拨测告警,经过排查确认为一例现网问题,后紧急投入修复,半小时内解决问题。
    华为云门户的六维系统监控(二)
  • 历史报告:可以从历史报告中看出系统近期的一个整体运行情况。
    华为云门户的六维系统监控(二)
    * 准确度:可模拟用户的真实行为,直击具体问题,针对性强。需要随版本不断更新执行用例库。用例正确的前提下,不会出现误报。
    华为云门户的六维系统监控(二)

五、ELK

介绍:ELK 是一个开源实时日志分析平台,由 ElasticSearch、Logstash 和 Kiabana 三个开源工具组成,通过 logstash 在业务节点采集所需的日志,处理、汇聚录入 ElasticSearch,并由 Kiabana 通过 ElasticSearch 提供的接口进行数据查询,最终在 kibana 上进行日志的查看。Kibana 除了日志查看,还提供了视图配置以及看板配置的方式,方便对 ES 中的日志数据进行统计分析以及展示。

  • 监控点:日志中打印的信息,如接口调用次数 / 成功率、关键错误日志出现次数、关键接口的处理时延等。

  • 解决问题:业务功能正常但存在隐患、系统被频繁调用攻击、业务功能出现异常时业务无感知。

  • 检测频率:支持配置(目前考虑性能,配置为每小时检测一次)。

  • 告警阈值:根据不同监控项设置不同告警阈值(邮件告警阈值和短信告警阈值区分开),如:
    华为云门户的六维系统监控(二)

  • 告警方式:邮件、短信。

  • 实战: Marketplace 偶现告警,显示查询订单号请求失败:

    复制代码
    经分析,该请求处理失败,是由于请求参数错误导致,业务逻辑为正常处理,针对该部分告警,计划梳理出正常的错误场景,并从告警判断范围中剔除。

准确度:和配置相关,配置准确的情况下,不会误报。如果误报,需要逐步完善告警场景。

六、CDN

  • 介绍:统计经过 CDN 的访问情况,使用量以及相关错误等,出现访问问题时,会进行相关告警。
  • 监控点:静态域名命中率和回源成功率。
  • 解决问题:静态资源 CDN 命中率低或者回源成功率低时业务无感知。
  • 检测频率:可配置,最短 5 分钟。
  • 告警阈值:命中率和回源成功率低于某个阈值(可配置),即产生告警。
  • 告警方式:邮件。
  • 实战:2017 年 12 月日收到 CDN 命中率低告警,经过排查为 CDN 某区域网络不稳定,通过给 CDN 提工单,由 CDN 侧排查解决。
  • 准确度:专注于静态资源加载情况进行监控,和 CDN 自身的稳定性存在关联,可能存在误报。

七、总结:

复制代码
以上六大监控告警渠道,覆盖了从主机资源、网络、业务进程、关键功能特性、用户体验等各个监控点,不仅解决了系统异常业务不能及时感知的痛点,也为后续系统优化提供了历史监控数据,优化效果亦可通过一个时间段内的数据对比来确认。当前各大监控告警系统虽已对接使用,从历史事件来看也确实起到了关键的监控告警作用,但随着业务的不断成熟,监控告警系统还需要不断的调优,如减少不必要的误报、完善更多的拨测用例、关键特性提高告警敏感度等,整体目标是异常及时发现,缩短业务异常时间,减少对华为云品牌的影响。

本文转载自 Think 体验设计公众号。

原文链接: https://mp.weixin.qq.com/s/oZ-VCAXsboTx5cph4oAMVw

评论

发布