10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

Robinhood 工程团队是如何实现度量的收集和监控的

  • 2017-05-25
  • 本文字数:1977 字

    阅读完需:约 6 分钟

Robinhood 服务器运营团队发表一系列文章,详细阐述了公司所采用的度量采集、监控和报警的架构。根据文章介绍, OpenTSDB Grafana Kafka Riemann 构成了其技术栈的核心。其中 Kafka 作为代理层,实现将度量流数据推送给 Riemann 处理,并推送到 OpenTSDB 存储。

Robinhood 的技术栈主要由 Python 构成,还有部分 Golang。生产服务器的调试和监控,很大程度上依赖于度量。度量汇集数据库 OpenTSDB 是实现度量收集的主要手段,它不仅针对各类软件栈分别提供了多种标准度量收集器(称为 tcollectors ),而且还支持自定义的收集器。自定义收集器可使用 OpenTSDB 的 telnet 或 HTTP 访问接口收集度量,并将收集到的数据推送到 OpenTSDB 中。对于 Robinhood 应用,度量数据首先被发送到 Kafka 代理。

对于各个服务器,可以使用标准的或自定义的 tcolloctor 发送度量数据给 Kafka。对于应用的性能监测,使用了 statsd 库。应用度量发送到在各服务器本地运行的 statsd 进程。statsd 服务器的实现采用了 C 语言编写的 statsite 。在转化 statsd 度量为本地 tcollector 度量时,采用了自定义的适配器。此后,本地 tcollector 度量由 Kafka 发送给 OpenTSDB。tcollector 进程将度量输出在标准输出上,并调用一个 Python 脚本将输出推送给 Kafka。

作为度量采集系统的中枢,OpenTSDB 需为高可用的。InfoQ 咨询了 Robinhood 的运营工程师 Aravind Gottipati,对此他做了深入的解释:

Robinhood 运行多个独立的 OpenTSDB 实例,各个实例所消费的都是来自于 Kafka 的同一度量流。因为这些实例是相同的,我们可以请求任一 OpenTSDB 实例进行负载均衡,由此轻松实现了高可用。我们并不需要运行整个 HBase 集群,而是对每个实例运行一个单节点的本地 HBase 服务器(也是 Master)。

鉴于 Kafka 以中介方式使用,各消费者(Consumer)可以采用不同的数据处理方式。一种方式是将度量转换后,推送到 OpenTSDB。当需要处理不断增加的数据量时,还可以按需将数据分片到多个 OpenTSDB 服务器。以 Kafka 为代理,在需要维护时可以暂停并恢复消费者。连接 Kafka 和 OpenTSDB 间的桥梁,是一个基于控制台并输出到标准输出的消费者。输出使用 netcat 推送到 OpenTSDB 的 telnet 监听器。

Grafana 是一个可视化的度量查看工具,它支持 Graphite、InfluxDB 和 OpenTSDB 后端。还可以在仪表盘中插入 CloudWatch 度量。

Robinhood 监控和报警工作流的关键组成称为 Riemann。Robinhood 还使用了 Sensu 这样的传统报警系统,传统的报警系统依赖于指定时间点(point in time)查看度量,这并不适合于展示历史数据,原因包括难以编写查询,以及系统运行时存在高延迟。一些度量系统可能还不支持历史记录,因为对缺失数据必须支持插值操作。既然部分问题能被 OpenTSDB 较好地解决,那为什么 Robinhood 还要使用 Riemann?对此问题,Gottipati 给出了解释:“OpenTSDB 依赖于 HBase。HBase 适用于对指定范围内全部数据的访问,并不擅长于获取某个具体时间点上的单个度量数据。如果在报警系统中使用 HBase,需要 HBase 支持查看用户所选定某个具体时间点上的度量数据。在查询通常采用的是一种权宜之计,即为了获取单个数据点,依然必须扫描整个键值范围。”

在度量流的处理中,还需要定义一些规则和过滤器。数据流经时,一旦过滤器或规则得到匹配,就会触发报警。Riemann 可以聚合来自多种数据源的度量流,并提交给一种流处理语言进行处理。整个度量收集系统是绑定到 Riemann 的,使用的是推送数据到 Riemann 的 Kafka 消费者。度量的命名转换受 OpenTSDB 的影响,即每个度量具有一个类型,键值对标记由关联到每个事件的主机和角色构成。其中所使用的 netcat 也会推送数据到 Riemann,这时由起始 tcollector 对每个事件标记的角色(例如 Web 服务器、数据库)要被转化为 Riemann 标记。这使得 Riemann 内建的过滤器功能易于使用。Robinhood 内部对 Riemann 原语开发了一个包装 DSL ,简化了开发人员的使用。这一系统对 DevOps 协作发挥了关键作用。那么在 Robinhood 企业中,什么是 DevOps 文化创立的关键里程碑?Gottipati 是如此答复的:

我们构建了一些仪表盘样板,可以展示我们所采集的各种系统度量以及应用的度量仪表盘(来自于 statsd 度量)。作为对各用户疑问请求的响应,我们着手使用并共享这些仪表盘,让一些老用户开始使用它们。一段时间后,我们帮助这些用户添加更多的应用特定仪表盘,并继续这一过程。我们的后台 / 应用团队构建和维护了一系列的仪表盘,其中一些甚至不为运营人员所知。他们会培训新加入的工程师,如何去查阅并使用这些仪表盘。

在 Riemann 中查看事件时使用的是 Elasticsearch(ELS)实例,而非默认的 Riemann 仪表盘。大约 50% 来自 Kafka 的事件被推送到 ELS,峰值时可达每秒约 20,000 次事件。

查看英文原文: Metrics Collection and Monitoring at Robinhood Engineering

2017-05-25 19:002591
用户头像

发布了 227 篇内容, 共 82.7 次阅读, 收获喜欢 28 次。

关注

评论

发布
暂无评论
发现更多内容

地表最强:iOS安全黑宝书中文版来袭

博文视点Broadview

带你破解DDOS攻击的原理

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

一文了解全球主要经济体对区块链技术的采纳情况和监管政策

CECBC

基于java springboot vue uniapp商城源码(毕设)

清风

Java uniapp 商城项目 毕业设计

☕【Java技术指南】「开发实战专题」Lombok插件开发实践必知必会操作!

码界西柚

Java 编译 lombok 8月日更

面试侃集合 | ArrayBlockingQueue篇

码农参上

队列 8月日更

腾讯T8面试官纯手打总结Java888道高频面试真题笔记+Java面试金典

Java~~~

Java 架构 面试 算法 JVM

【从零开始学爬虫】采集当当网图书商品信息

前嗅大数据

大数据 爬虫 数据采集

React Native 页面浏览事件采集方案 | 数据采集

神策技术社区

大前端 后端 代码 数据采集

如何做上线前的实操演练?

boshi

项目管理

为什么代码会有好坏?

鉴释

程序员 代码 代码规范

“古老”茶产业碰上“年轻”区块链,能否擦出新火花?

旺链科技

区块链 产业 茶叶

Swift 与 Objective-C:您应该为下一个 iOS 移动应用选择哪个语言?

iOSer

ios objective-c swift ios开发

数字货币量化交易平台源码搭建|量化交易所自动交易软件开发

Geek_23f0c3

去中心化交易所系统开发 量化跟单 合约量化

数字人民币银银合作以及平台接入的模式分析

CECBC

菜谱系统小成阶段,Python Web 领域终于攻占一个小山头

梦想橡皮擦

8月日更

【架构实战营】模块五作业

Abner S.

#架构实战营

如何动手做出一个 CPU

Java 编程 架构 cpu 电脑

MySQL 系列教程之(八)DQL:子查询与表连接

若尘

MySQL 数据库 8月日更

Python代码阅读(第13篇):检测列表中的元素是否都一样

Felix

Python 编程 Code Programing 阅读代码

网络安全产品之堡垒机介绍以及应用案例

行云管家

网络安全 数据安全 堡垒机 成功案例

阿里技术大牛终于分享出了解决我多年困扰的微服务开发架构文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

那些年用星环产品解决的业务难点…

星环科技

征文 星环科技

智能CRM销氪强势崛起, CRM赛道变数几何?

ToB行业头条

CRM

短视频go研发框架实践

百度Geek说

百度 架构 后端 短视频 hulk

【墨天轮专访第一期】人大金仓:国产数据库的竞争本质就是人才的竞争

墨天轮

数据库 国产数据库 KingBase 人大金仓

智能量化交易系统搭建|量化交易APP系统源码开发

量化系统19942438797

量化交易 智能量化

5秒到1秒,记一次效果“非常”显著的性能优化

Java 编程 架构 性能优化 计算机

实时数据引擎系列(一): 新鲜的数据流

tapdata

数据库 hadoop Tapdata 实时数据引擎 OLTP

赋能智慧社区,多维度提升管理质效

CECBC

四十四本iOS开发书籍资料,务必赶紧保存!

iOSer

微信公众号 ios开发 iOS书籍 iOS公众号

Robinhood工程团队是如何实现度量的收集和监控的_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章