50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Sean Lynch 谈 Facebook Claspin 监控工具的由来

  • 2012-09-26
  • 本文字数:2353 字

    阅读完需:约 8 分钟

InfoQ 中文站曾经报道过 Facebook 的工具文化,Claspin 就是该文化的产物,形象来说,Claspin 就是 Cache 的健康热图。该工具的创始人 Sean Lynch 在一篇博客中分析了它的由来。

Sean Lynch 在 Facebook 担任应用运维工程师,他加入的是产品工程部门新成立的缓存性能团队。Sean 在一篇博客中提到该团队的目标:

处理多种缓存系统的健康问题,同时加快问题处理和解决过程,该过程要先回答这个问题:“这个问题是缓存引起的么?”

最后,Sean 所在的团队开发了一个监控工具 Claspin,使用易于解读的热度图展示缓存系统情况。接下来,Sean 先深入介绍了 Facebook 的缓存工作机制。

Facebook 有两个主要的缓存系统:Memcache,该系统相对简单,复杂度都在客户端;TAO,缓存图数据库,自己完成对 MySQL 的查询。在这两个系统之间,我们有几千个图标,有些将数据收集到 Dashboard 中,展示客户端和服务器收集到的不同的延迟、请求率、错误率统计数据。这些图表和 Dashboard 的大多数都由 Facebook 的“Operations Data Store”支撑,简称为 ODS。一开始,这种机制没有问题,但随着 Facebook 在规模和复杂度方面的不断增加,想知道哪里出了问题变得越来越困难。因此,我开始想:如何把这些已经积累下来的数据、经验和知识用起来,辅助解决问题,让人们只要卡看一眼,就知道缓存现在的状态。

Sean 想到的方法,是把问题可视化。他一开始本打算用类似于交通信号灯的方法,但没多久他就意识到:这种简单的双向工具不能完全确定某些东西是否出了问题。

因此,我开始想如何同时把所有相关数据放在一个图表里面,同时我们还要根据经验知道:当前这些指标的值是否需要我们担心。首先,尝试着写一个命令行工具,列出所有的主机和关键指标数据,以“糟糕程度”排序。我对于“糟糕程度”的定义是:根据每个指标各自的值给主机排定顺序,然后,根据元组(by tuple)排定次序和主机。比如,某台主机在超时和 TCP 重新传输方面排第一,但在请求率方面拍第十,它的排序主键就是(1,1,10)。同时也要展示主机所在的机架,这样当某个机架中的一些主机出问题时,很快就能发现问题。这么做的输出是很多文本,而且需要了解内情的人解读。虽然这让我的工作变得更容易,但这并不是我想要的。

最终,Sean 打算使用热图(Heatmap),不过他一开始并不清楚:以这样二维的方式展示数据对于用户是否有意义。

很明显,我们希望热图中每个像素代表一台主机,机架们能组合在一起。然而,我们的机架中的主机数目并不一样,当每台主机中的指标有十来个时,也不清楚如何为各个主机标示颜色。当时,我们内部已经使用了热图,展示一组主机中的单个统计数据,这些主机组织成集群和机架,不过布局很松散,而且那么多服务器也无法放到同一个页面中。由于已有的热图是通用工具,而且颜色基于现有的统计数据,无法区别何为“好坏”。最后,我认识到:我们真正关心的,是某台主机是否出现问题。所以我决定,用一台主机“最热”的统计数据来标示它的颜色,热度来自于对预先定义的阈值的计算。做法很简单,但是让我们能把以前的经验和知识中关于什么是不好的数值编码到这个视图中。缺少某个统计数据的主机被标示为黑色,说明主机可能宕掉了。尝试过多种安排、聆听多人反馈后,我决定为每个集群绘制一张独立的热图,用机架数字排序,每个机架用类似“贪吃蛇”的样子绘制成垂直的方式,这样机架的展示就是连续的,即使他们可能在上面或者下面弯转。机架的名字按照数据中心、集群、行这样的方式自然排序,哪个层次上出了问题,就很明显了。

在一个朋友的建议下,Sean 使用“Claspin”作为这个工具的名字,Claspin 是一种蛋白质,监控细胞中的 DNA 损伤。

我们用 Claspin 可以立即把海量信息可视化,让我们更容易发现问题和模式。在一个 30 寸的屏幕上,我们可以同时放下 1 万台主机的信息,它们的颜色由 30 多个状态数据决定,并在秒级或分钟级实时更新。这个数据量很大,Claspin 使用了标准的 Facebook 组件来处理,收集所有服务器端状态,并把它们发送到浏览器,颜色的判定通过 JavaScript 完成,热图的绘制用 SVG。即使出现一个问题,也很容易发现,因为特定的问题会在屏幕上有特定模式。

Sean 接下来在博客中展示了一些图片:

上面的标签页包括不同视图,大多数是 Claspin 监控的不同服务。下面的蓝色按钮让用户可以用单一状态来给主机上色。

鼠标箭头放在某个主机上,就会展示出该主机所属机架,并弹出关于主机名、机架号码、以及所有 Claspin 对该主机监控的数据,同时数值文本的颜色也会根据 Claspin 对该状态的阈值设置有所不同。上图中,你可以看到下面被包起来的一个机架,展示出不同的方向。没有阈值定义的状态是灰色,但是是放在一起的,这样就可以知道为什么某个主机有很高的超时等等。

此后,Sean 其他成员改进了 Claspin,加入了对更多后端和自定义调色板的支持。这对于无法区分红绿颜色的人很有帮助,对无所谓好坏的值也是有帮助的。

他们还把配置文件放到版本控制文本文件中,而且可以同时传播更新。配置变得更为用户友好后,使用 Claspin 监控服务的团队数目翻了一番还要多。

最后,Sean 提到了 Claspin 带来的好处:

当我刚刚部署 Claspin 时,上面的图中有很多红色。Claspin 帮助很多人更易于发现问题,从而让我们发现“黄色”预警,并阻止更多“红色”出现。在我看来,验证统计数据和阈值选择是否正确的最好方法,就是当红色出现之后,通过改善服务,全部变成绿色。

微博上,有人分享了 Pinterest 创始人本·西尔伯曼在光速创投夏令营分享的创业经验:

雇请优秀的人,即便还没有明确定义好的工作(Hire Great People, regardless of if you have a defined role for them):他对优秀的人的定义是,可以在不同角色上有附加价值、能在你现在和今后遇到问题时提供解决方案。

毫无疑问,Sean Lynch 就是一位优秀的人。

2012-09-26 01:083372
用户头像

发布了 479 篇内容, 共 178.3 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

优秀的代码的分层结构

xcbeyond

架构 28天写作 12月日更

SD-WAN、SASE 和多云空间的未来趋势

devpoint

5G SD-WAN sase 12月日更

RingCentral铃盛技术干货精选合集

RingCentral铃盛

敏捷 前端 框架 技术专题合集

百度王海峰:深耕自然语言处理近30年,推进AI融合创新

百度开发者中心

自然语言处理

【Spring Boot 快速入门】一、周末建立了Spring Boot专栏,欢迎学习交流

小阿杰

SpringBoot 2 spring Boot Starter 内容合集 签约计划第二季

国产分布式数据库StarDB核心技术大揭秘二:智能运维管控

京东科技开发者

Android C++系列:Linux Socket编程(三)CS模型示例

轻口味

28天写作 12月日更

行业分析| 泛娱乐应用出海探索

anyRTC开发者

音视频 语音通话 视频直播 视频通话 泛娱乐

国产分布式数据库StarDB核心技术大揭秘一:内核分解之数据分片

京东科技开发者

一周信创舆情观察(12.6~12.12)

统小信uos

多点 DMALL x StarRocks:实现存储引擎的收敛,保障高查询并发及低延迟要求

StarRocks

数据库 数据分析 高并发 StarRocks

潮玩盲盒一番赏盲盒星球app专业源码搭建

风行无疆

Apache Log4j 2 安全漏洞扫描及启示录

极狐GitLab

gitlab 安全 供应链 漏洞扫描 Apache Log4j 2

Go 语言快速入门指南:第一篇 介绍

宇宙之一粟

Go golang 编程入门 签约计划第二季 12月日更

ClickHouse在工业互联网场景的OLAP平台建设实践

京东科技开发者

【Spring Boot 快速入门】二、Spring Boot集成MyBatis可以连接数据库啦!

小阿杰

SpringBoot 2 mybatis配置 内容合集 签约计划第二季

京东云ClickHouse和ES双引擎设计在零售选品中的应用实践

京东科技开发者

完善跨境金融区块链服务平台,支持区域开放创新和特殊区域建设

CECBC

滨海中小企业协会参加新区工商联(总商会)第四次代表大会

InfoQ 天津

一篇教你代码同步 Github 和 Gitee

冴羽

JavaScript GitHub 自己搭建博客网站 GitHub Pages vuepress

记录我开发工作中遇到HTTP跨域和OPTION请求的一个坑

汪子熙

JavaScript ajax 跨域 28天写作 12月日更

Explore the Sky丨来 TiDB Hackathon 2021 探索无限可能

PingCAP

Go 数据库 hackathon TiDB database

【Spring Boot 快速入门】三、Spring Boot集成JUnit

小阿杰

SpringBoot 2 JUnit 内容合集 签约计划第二季

【Spring Boot 快速入门】五、Spring Boot集成Lombok

小阿杰

SpringBoot 2 lombok 内容合集 签约计划第二季

京东云PostgreSQL在GIS场景的应用分享

京东科技开发者

【Spring Boot 快速入门】四、Spring Boot集成Swagger UI

小阿杰

SpringBoot 2 swagger 内容合集 签约计划第二季

Istio在Rainbond Service Mesh体系下的落地实践

北京好雨科技有限公司

istio PaaS rainbond

最好用的七大顶级 API 接口测试工具

蒋川

API 测试工具

探探的IM长连接技术实践:技术选型、架构设计、性能优化

JackJiang

网络编程 websocket 即时通讯 IM

分布式架构与性能优化

高性能架构探索

分布式 微服务 性能优化 内容合集 签约计划第二季

点击下载 | 世界经济论坛全新推出深度AI洞察报告

澳鹏Appen

人工智能 机器学习 深度学习

Sean Lynch谈Facebook Claspin监控工具的由来_Meta_郑柯_InfoQ精选文章