Haystack:GitHub 的异常监控工具

  • 孙镜涛

2015 年 7 月 31 日

话题:GitHub语言 & 开发架构

对于 GitHub 而言稳定性和性能是非常重要的,但是和其他大部分软件应用程序一样,它也会产生异常,从 Git 超时这种系统级的错误到 JavaScript 错误这种应用级的错误都会发生,这就需要一种方式能够在错误发生的时候尽快地识别它们,然后寻找最合适的团队或者个人去处理,最终实现错误的快速响应。而Haystack就是 GitHub 应对这一问题的钥匙。

Haystack 是 GitHub 内部的一个开发了 6 年的异常追踪程序,它能够持续地监控所有应用程序的健康状况,同时具备异常探测功能,GitHub 使用它来监控几乎所有的面向用户的特性,包括桌面应用程序。下面是 Haystack 的一个典型应用场景:

首先,当某个工程师通过 chatops 部署了新程序的时候,Hubot 就会向其推送一条包含异常流水(firehose)链接的消息,通过该链接工程师能够查看新程序部署之后产生的异常信息。

之后,Haystack 会通过一些简单的规则进行异常探测,防止不当部署和典型错误行为的发生。通过获取最后一个小时异常数的直方图 Haystack 能够判定最后时刻的异常数是否超出了配置的标准分数(z-score)。

如果发现异常数有提高,Hubot 就会发送一个消息通知最后一个部署程序的工程师进行处理。

在发送的消息中还会包含一些对应用程序当前状态的简要分析,工程师可以通过 Haystack 的仪表盘查看与每条分析内容相关的详细信息,进而不断追溯并定位问题出现的原因。

最后,如果工程师能够解决问题,他们可以创建一个拉请求(Pull Request)或者问题,并将链接拖放到 Haystack 让其自动地创建问题与追踪信息之间的交叉引用,以便于工程师之后在这些信息之间来回跳转。另外,如果将来类似的问题再次发生,那么工程师能够通过 Haystack 查看之前对该问题的讨论以及解决的方法。

总的来说,GitHub 能够通过 Haystack 了解系统发生了什么事情,什么时候发生的,应该通知哪个团队,应该从哪入手解决问题。该系统从 2009 年开始就已经存在了,在最近几年里 GitHub 又对其做了大量的改进,但是由于很多改进与一些其他的内部应用程序紧密相关,所以到目前为止 Haystack 依然无法开源,即便如此 GitHub 的这种问题处理模式依然有值得借鉴和思考的地方。如果你想了解更多与 Haystack 相关的信息,请点击这里


感谢郭蕾对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

GitHub语言 & 开发架构