阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Robinhood 工程团队是如何实现度量的收集和监控的

  • 2017-05-25
  • 本文字数:1977 字

    阅读完需:约 6 分钟

Robinhood 服务器运营团队发表一系列文章,详细阐述了公司所采用的度量采集、监控和报警的架构。根据文章介绍, OpenTSDB Grafana Kafka Riemann 构成了其技术栈的核心。其中 Kafka 作为代理层,实现将度量流数据推送给 Riemann 处理,并推送到 OpenTSDB 存储。

Robinhood 的技术栈主要由 Python 构成,还有部分 Golang。生产服务器的调试和监控,很大程度上依赖于度量。度量汇集数据库 OpenTSDB 是实现度量收集的主要手段,它不仅针对各类软件栈分别提供了多种标准度量收集器(称为 tcollectors ),而且还支持自定义的收集器。自定义收集器可使用 OpenTSDB 的 telnet 或 HTTP 访问接口收集度量,并将收集到的数据推送到 OpenTSDB 中。对于 Robinhood 应用,度量数据首先被发送到 Kafka 代理。

对于各个服务器,可以使用标准的或自定义的 tcolloctor 发送度量数据给 Kafka。对于应用的性能监测,使用了 statsd 库。应用度量发送到在各服务器本地运行的 statsd 进程。statsd 服务器的实现采用了 C 语言编写的 statsite 。在转化 statsd 度量为本地 tcollector 度量时,采用了自定义的适配器。此后,本地 tcollector 度量由 Kafka 发送给 OpenTSDB。tcollector 进程将度量输出在标准输出上,并调用一个 Python 脚本将输出推送给 Kafka。

作为度量采集系统的中枢,OpenTSDB 需为高可用的。InfoQ 咨询了 Robinhood 的运营工程师 Aravind Gottipati,对此他做了深入的解释:

Robinhood 运行多个独立的 OpenTSDB 实例,各个实例所消费的都是来自于 Kafka 的同一度量流。因为这些实例是相同的,我们可以请求任一 OpenTSDB 实例进行负载均衡,由此轻松实现了高可用。我们并不需要运行整个 HBase 集群,而是对每个实例运行一个单节点的本地 HBase 服务器(也是 Master)。

鉴于 Kafka 以中介方式使用,各消费者(Consumer)可以采用不同的数据处理方式。一种方式是将度量转换后,推送到 OpenTSDB。当需要处理不断增加的数据量时,还可以按需将数据分片到多个 OpenTSDB 服务器。以 Kafka 为代理,在需要维护时可以暂停并恢复消费者。连接 Kafka 和 OpenTSDB 间的桥梁,是一个基于控制台并输出到标准输出的消费者。输出使用 netcat 推送到 OpenTSDB 的 telnet 监听器。

Grafana 是一个可视化的度量查看工具,它支持 Graphite、InfluxDB 和 OpenTSDB 后端。还可以在仪表盘中插入 CloudWatch 度量。

Robinhood 监控和报警工作流的关键组成称为 Riemann。Robinhood 还使用了 Sensu 这样的传统报警系统,传统的报警系统依赖于指定时间点(point in time)查看度量,这并不适合于展示历史数据,原因包括难以编写查询,以及系统运行时存在高延迟。一些度量系统可能还不支持历史记录,因为对缺失数据必须支持插值操作。既然部分问题能被 OpenTSDB 较好地解决,那为什么 Robinhood 还要使用 Riemann?对此问题,Gottipati 给出了解释:“OpenTSDB 依赖于 HBase。HBase 适用于对指定范围内全部数据的访问,并不擅长于获取某个具体时间点上的单个度量数据。如果在报警系统中使用 HBase,需要 HBase 支持查看用户所选定某个具体时间点上的度量数据。在查询通常采用的是一种权宜之计,即为了获取单个数据点,依然必须扫描整个键值范围。”

在度量流的处理中,还需要定义一些规则和过滤器。数据流经时,一旦过滤器或规则得到匹配,就会触发报警。Riemann 可以聚合来自多种数据源的度量流,并提交给一种流处理语言进行处理。整个度量收集系统是绑定到 Riemann 的,使用的是推送数据到 Riemann 的 Kafka 消费者。度量的命名转换受 OpenTSDB 的影响,即每个度量具有一个类型,键值对标记由关联到每个事件的主机和角色构成。其中所使用的 netcat 也会推送数据到 Riemann,这时由起始 tcollector 对每个事件标记的角色(例如 Web 服务器、数据库)要被转化为 Riemann 标记。这使得 Riemann 内建的过滤器功能易于使用。Robinhood 内部对 Riemann 原语开发了一个包装 DSL ,简化了开发人员的使用。这一系统对 DevOps 协作发挥了关键作用。那么在 Robinhood 企业中,什么是 DevOps 文化创立的关键里程碑?Gottipati 是如此答复的:

我们构建了一些仪表盘样板,可以展示我们所采集的各种系统度量以及应用的度量仪表盘(来自于 statsd 度量)。作为对各用户疑问请求的响应,我们着手使用并共享这些仪表盘,让一些老用户开始使用它们。一段时间后,我们帮助这些用户添加更多的应用特定仪表盘,并继续这一过程。我们的后台 / 应用团队构建和维护了一系列的仪表盘,其中一些甚至不为运营人员所知。他们会培训新加入的工程师,如何去查阅并使用这些仪表盘。

在 Riemann 中查看事件时使用的是 Elasticsearch(ELS)实例,而非默认的 Riemann 仪表盘。大约 50% 来自 Kafka 的事件被推送到 ELS,峰值时可达每秒约 20,000 次事件。

查看英文原文: Metrics Collection and Monitoring at Robinhood Engineering

2017-05-25 19:001924
用户头像

发布了 227 篇内容, 共 71.4 次阅读, 收获喜欢 27 次。

关注

评论

发布
暂无评论
发现更多内容

工作中养成的工作习惯与给老板的汇报

松子(李博源)

大数据 个人成长 高效 高效率 工作总结

wallys/DR8072V01/IPQ8072A networking SBC supports dual 10GbE, WiFi 6

wallys-wifi6

让智慧物联赋能高效生产, AIRIOT助力数字化油田转型升级

AIRIOT

低代码 物联网 低代码,项目开发

oa办公系统都有哪家?

优秀

OA oa办公系统

TDengine 如何进行数据建模?

TDengine

数据库 tdengine 开源

App Store 的 App 迁移

贾献华

7月月更

一体化实时HTAP数据库StoneDB,如何替换MySQL并实现近百倍分析性能的提升

StoneDB

云原生 #数据库 HTAP 大数据 开源 #开源

RadonDB MySQL Kubernetes 2.2.0 发布!

RadonDB

MySQL Kubernetes 云原生 容器化 RadonDB

【Unity】绘制阿基米德螺旋线

萧然🐳

Unity 7月月更

Java 缩小字符串( Compact String)和 压缩字符串(Compressed String)

HoneyMoose

小白 0-1 学习 app 开发,从配置到 helloword

YonBuilder低代码开发平台

跨平台 安卓 低代码开发 多端开发

GQM 概述:构建研发效能度量体系的根本方法

思码逸研发效能

研发效能 创新方法 效能度量

编写Dockerfile,让你的程序一键部署

技术小生

Dockerfile 7月月更

开源代码难阅读?几位研发的“妙招”帮你解决

TDengine

数据库 tdengine 开源

面向商业市场,华为式“抢滩登陆”

脑极体

4种Kafka网络中断和网络分区场景分析

华为云开发者联盟

后端 开发 网络 网络中断

升哲科技入选《中国企业家》2022年度“新锐100”企业

SENSORO

构建工业软件开源工具链,2022 开放原子全球开源峰会开源工业软件论坛即将开幕

kk-OSC

开源 开放原子全球开源峰会 开源工业软件

建木持续集成平台v2.5.1发布-全面拥抱云原生架构

Jianmu

云原生 k8s 持续集成 CI/CD

共建开源人才生态,2022 开放原子全球开源峰会聚焦 “产学研用”

kk-OSC

开源 数字化 产学研用 开放原子全球开源峰会

让预训练语言模型读懂数字:超对称技术发布 10 亿参数 BigBang Transformer [乾元]金融大规模预训练语言模型

亚马逊云科技 (Amazon Web Services)

架构 数据 模型

阿里云架构师唐风:生命科学产业现状及发展趋势分享

阿里云弹性计算

高性能计算 生命科学 AI制药

复杂查询so easy ,GaussDB(for Cassandra)推Lucene引擎全新解决方案

华为云开发者联盟

数据库 后端

2种数据库覆盖式数据导入方法介绍

华为云开发者联盟

数据库 大数据 后端

砥砺十年,“信”创未来!亚信科技AntDB数据库产品发布会即将启幕

亚信AntDB数据库

AntDB 国产数据库 亚信科技 产品发布会 数据库·

Golang生成OpenAPI接口文档

百家饭隐私计算平台创业者

Go OpenAPI

云原生时代,金融企业如何完成全栈信创改造?

MIAOYUN

云原生 信创 国产化 金融信创 全栈改造

SpringBootAdmin 2.5.5 发布,支持在线重启服务

冉然学Java

编程 springboot 构架 Java’

企业自己如何快速开发一个简单实用的CRM客户管理系统?

优秀

CRM系统

推理实践丨如何使用MindStudio进行Pytorch模型离线推理

华为云开发者联盟

人工智能

清源(CleanSource) SCA推出容器镜像扫描功能

安势信息

容器 安全 SCA 容器镜像 容器镜像Docker

Robinhood工程团队是如何实现度量的收集和监控的_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章