写点什么

Pinterest 开源 Kafka 集群自愈和工作负载均衡工具:DoctorKafka

2017 年 9 月 03 日

Pinterest 是一个进行图片分享的社交站点。他们使用 Kafka 作为中心化的消息传输工具,用于数据摄取、流处理等场景。随着用户数量的增加,Kafka 集群也越来越庞大,对它的管理日趋复杂,并变成了运维团队的沉重负担,因此他们研发了 Kafka 集群自愈和工作负载均衡工具 DoctorKafka,最近他们已经在 GitHub 上将该项目开源。

根据 Pinterest 的数据工程师 Yu Yang 的博客文章介绍,该网站已经有1.75 亿以上的用户,Pin 图片的数量超过了1000 亿,目前,他们在云端运行了1000 个以上的Kafka broker。

在这样的规模下,每周他们都会遇到Kafka broker 的故障,有时候一天之内就会遇到好几次。当broker 出现故障时,待命的工程师需要及时将已经处于死亡状态的broker 替换掉,从而尽可能减少数据丢失的风险。他们有时候还需要在broker 之间转移工作负载,以保证整体负载的均衡。在替换broker 和重新平衡工作负载时,需要非常小心地创建和编辑分区重分配文件(partition reassignment file)并手动执行Kafka 脚本命令。这些操作会明显增加团队的负担。

为了扩展Kafka 服务的运维规模,Pinterest 构建了DoctorKafka,这是一项Kafka 集群自愈和工作负载均衡的服务。DoctorKafka 能够探测到Kafka broker 的故障并自动将故障broker 的负载转移给健康的broker。现在,Pinterest 已经在 GitHub 上将该项目开源。

高层架构

DoctorKafka 由三部分组成,如下图所示:

图 1 DoctorKafka 的高层架构

  • 部署在每个 broker 上的指标收集器(metrics collector),它会定期收集 Kafka 进程和主机的指标,并将其发布到一个 Kafka 主题上。在这里,使用了 Kafka 作为 broker 的状态存储,这样的话,能够简化 DoctorKafka 的搭建过程并减少对其他系统的依赖;
  • 中心化的 DoctorKafka 服务会管理多个集群,分析 broker 的状态指标以探测 broker 的故障,执行集群自愈和负载均衡的命令。DoctorKafka 会将执行的命令记录在另外一个名为“Action Log”主题上;
  • 用于浏览 Kafka 集群状态和执行流程的 Web UI 页面。图 2 展现了两个测试集群的管理界面,图 3 展现了其中一个集群的详细视图。

图 2 DoctorKafka 的前端页面

图 3 DoctorKafka 的集群视图

需要注意的是,DoctorKafka 只会采取有把握的操作,对于不确定的情况,它会给出告警。

DoctorKafka 的实际运行过程

每个 broker 上都会运行一个指标收集器,它会收集 Kafka broker 输入和输出的网络流量指标以及每个副本(replica)的状态。图 4 展现了指标收集器所收集的 broker 的部分状态。即便采用副本配额配置(replication quota setting,在 Kafka 0.10.1 之后可用的特性),主题分区的重分配通常也会带来额外的网络流量并且会影响到指标,因此,指标收集器在收集指标时会明确报告某个主题分区正在进行重分配。

图 4 指标收集器所收集到的 broker 状态

DoctorKafka 服务启动之后,它会首先读取 broker 最近 24 到 48 小时的状态,基于此,DoctorKafka 会推断每个副本工作负载所需的资源。因为 Kafka 工作负载主要是网络密集型的,DoctorKafka 主要关注副本的网络带宽使用情况。

DoctorKafka 在启动之后,会阶段性地检查每个集群的状态。当探测到 broker 出现故障时,它会将故障 broker 的工作负载转移给有足够带宽的 broker。如果在集群中没有足够的资源进行重分配的话,它会发出告警。与之类似,当 DoctorKafka 进行工作负载平衡时,它会识别出网络流量超出配置的 broker,并将工作负载转移给流量更少的 broker,或者是执行更优的领导者选举(leader election)方案来转移流量。

DoctorKafka 已经在 Pinterest 运行了数月之久,并帮助其运维人员管理着 1000 个以上的集群。现在,他们将其开源,对于 Pinterest 的工程师来说,开源是非常重要的事情。读者可以访问该项目的 GitHub 地址获取源码和相关文档。


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017 年 9 月 03 日 19:001679

评论

发布
暂无评论
发现更多内容

IM即时通讯实现的原理

v16629866266

COCO聊天挖矿系统开发|COCO聊天挖矿软件APP开发

开發I852946OIIO

系统开发

2020中国ToB独角兽:估值逆势起飞,寡头效应加剧

ToB行业头条

《我想进大厂》之分布式事务篇

艾小仙

Java 面试 后端

作业1

瑾瑾呀

源中瑞情报智能研判预警平台开发,合成作战系统建设方案

WX13823153201

QA为什么转换角色

BY林子

软件测试 QA 职业发展

Soul网关源码阅读番外篇(一) HTTP参数请求错误

Java 源码阅读 网关

惊喜来袭!253页全彩免费电子书《Python 编程参考》正式上线发布

Python编程参考官方账号

Python go redis 程序设计

iOS音视频--视频合集

程序员 音视频 OpenGL ES GPUImage Metal

iTerm2 实现 ssh 自动登录,并使用 Zmodem 实现快速传输文件

米开朗基杨

iterm2

《2020年微信视频号研究报告》 | 视频号 28 天 (11)

赵新龙

28天写作

TarsBenchmark | 服务性能压测利器

TARS基金会

微服务 压力测试 TARS

redis持久化怎么选?成年人从来不做选择...

moon聊技术

我所认为的产品经理能力模型

day day up

阿里架构师深入讲解Android开发!教你一种更清晰的Android架构!BAT大厂面试总结

欢喜学安卓

android 程序员 面试 移动开发

合约跟单交易软件系统开发|合约跟单交易APP开发

开發I852946OIIO

系统开发

Java 程序经验小结:返回零长度的数组或集合,而不是null

后台技术汇

28天写作

案例加源码:万字长文带你彻底搞懂MySQL的索引优化

程序员小毕

MySQL sql 源码 性能优化 索引

热情空前,家长纷纷变身“寒假规划师”,如何抓住这波热潮?

ZEGO即构

AI 在线教育 在线课堂

【有奖调研】中国人工智能开发者调研

百度大脑

简化业务代码开发:看Lambda表达式如何将代码封装为数据

华为云开发者社区

函数式接口 数据 代码 函数 lambad

SpringCloud 从入门到精通 11---Nacos负载均衡

Felix

使用Apollo升级一下yml文件管理和发布

Sky彬

springboo

WebRTC 的现状和未来:专访 W3C WebRTC Chair Bernard Aboba

阿里云视频云

WebRTC

Elastic search 单节点、两节点、三节点环境

escray

elasticsearch elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

阿里巴巴2021年最新开源十亿级Java高并发系统设计手册

Java架构追梦

Java 阿里巴巴 架构 并发 系统架构设计手册

阿里架构师经验分享!Android面试知识点总结宝典助你通关!顺利通过阿里Android岗面试

欢喜学安卓

android 程序员 面试 移动开发

架构师系列 14 PageRank算法

桃花原记

架构师 3 期 3 班 -week8- 作业

zbest

作业 week8

是找茬?还是装B?阿里面试每轮必问的“Spring Boot”意义何在?

比伯

Java 编程 架构 面试 计算机

4月17日 HarmonyOS 开发者日·上海站

4月17日 HarmonyOS 开发者日·上海站

Pinterest开源Kafka集群自愈和工作负载均衡工具:DoctorKafka-InfoQ