写点什么

MeilleursAgents 是如何监控分布式任务队列的

  • 2018-03-04
  • 本文字数:1106 字

    阅读完需:约 4 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

MeilleursAgents 网站能够列出资产卖家的资产及其评估的价格,该网站分享了他们基于Celery 的分布式任务队列是如何监控的。由Python、StatsD、Bucky、Graphite 和Grafana 联合组成的管道能够监控任务的生命周期和执行率。

该文主要关注他们是如何监控Celery 运行的。 Celery 是一个由 Python 编写的分布式任务队列,它使用 broker- 客户端模式来分配任务给工作者(worker)。监控分布式任务队列是非常困难的,因为工作者节点是分布式的,很难跟踪特定请求的状态,如果跨多个系统的话,则会更加困难。但是,这种情况下的监控是关于整体成功 / 失败以及执行率的。每个阶段任务的累积数量,即已接收的(received)、已处理的(processed),也能反映出任务队列是否有速度减缓的情况。InfoQ 联系到了 MeilleursAgents 的工程主管 Pierre Boeuf 来学习这一话题。

指标收集管道包含 Python 客户端,它会监听 Celery 事件并使用 StatsD API 将数据推送至 StatsD 。然后,数据会被发送至 Bucky,Bucky 会将数据写入到 Graphite 中。 Bucky 会运行一个服务器,将传入的指标数据进行处理并转换成 Graphite 能够理解的格式。Bucky 所接收的指标可以是 StatsD 或 Collectd 这种指标工具所收集到的原始数据,如果 Graphite 无法理解传入的指标格式的话,那么 Bucky 就派上用场了。在 MeilleursAgents,Graphite 安装时使用了 Whisper 作为后端数据库。Boeuf 说团队在使用 Graphite 中还没有遇到扩展性方面的问题:

我们遇到的唯一扩展性相关的问题是因为将 StatsD 和 Graphite 放到了同一台服务器上。随着请求的增加,它出现了过载,所以我们现在在每台机器上都有本地 Bucky,它会推送指标数据。

Grafana 用来作为查询指标的前端。监控项包括任务、broker 以及工作者。按照 Boeuf 的说法,Web 和数据团队会使用仪表盘。

图片来源: https://medium.com/meilleursagents-engineering/how-we-monitor-asynchronous-tasks-da25728173d6?__s=6cjguhzuufdark8he4bm

他们组合使用 diffseries (在 Graphite 中,抽取时间序列的方式)和 Grafana着色(coloring)相关的配置可视化高亮显示可能存在的问题,比如红色背景代表某个应该为零的指标出现了非零的状况。 NewRelic Google Cloud Monitoring ,前者是一个外部工具,后者是产品所部署的云环境的一部分,这两个工具会负责告警部分。另外,NewRelic 还会监控 Celery 进程本身,确保它们处于运行状态。Grafana 也有内置的告警支持以及像 Pagerduty OpsGenie 这样的集成服务,但是团队并没有采用它们。

查看英文原文 Monitoring Distributed Task Queues at MeilleursAgents

2018-03-04 18:001742

评论

发布
暂无评论
发现更多内容

EMQX Platform & Snowflake:构建可再生分布式能源的智慧未来

EMQ映云科技

分布式 emqx 可再生能源

NFTScan 正式上线 AI Search 浏览器!

NFT Research

NFT

MES系统怎么解决企业车间生产管理难题

万界星空科技

工业互联网 制造业 生产管理系统 mes 万界星空科技

inBuilder低代码平台新特性推荐-第二十三期

inBuilder低代码平台

淘宝商品描述API返回值中的HTML格式内容解析技巧

技术冰糖葫芦

API Explorer api 货币化 API 接口 API 测试

玩转生产环境全链路压测

数新网络官方账号

生产环境全链路压测

一文教会你如何集成百川大模型官网API

幂简集成

人工智能 API

Spring Cloud Alibaba 集成分布式定时任务调度功能

阿里巴巴云原生

阿里云 云原生 spring cloud alibaba

直播预约丨《指标体系建设实战》第五期:指标体系构建方法与案例分享

袋鼠云数栈

大数据 数据指标

SD-WAN助力在线教育教学的发展

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

Prometheus 标签全揭秘:从数据源到仪表盘

腾讯云可观测平台

两分钟“熟读”《国史大纲》,大模型的下一个爆点是“书童”?

Alter

java浅拷贝BeanUtils.copyProperties引发的RPC异常

京东科技开发者

chatglm2-6b在P40上做LORA微调

京东科技开发者

一文带你深度解析MySQL 8.0事务提交原理

华为云开发者联盟

数据库 企业号 8 月 PK 榜 企业号2024年8月PK榜

做了六年多技术管理,聊一些经验总结

Keegan小钢

技术管理 职场发展 #程序员

“AI能不能代替某某职业”,到底谁在破防?

禅道项目管理

人工智能 程序员 AI IT 项目经理

Python数据分析:Numpy、Pandas高级

我再BUG界嘎嘎乱杀

Python 编程 数据分析 后端 开发语言

借你慧眼,把 StarRocks Compaction 看得明明白白

Ding_Kai

数据仓库 LakeHouse StarRocks

Python数据分析:Numpy、Pandas基础

我再BUG界嘎嘎乱杀

Python 编程 数据分析 后端 软件开发

Go 语言中的 MySQL 事务操作

左诗右码

Go 语言

「免费领票」从云计算到生成式AI,2024云栖大会等你来。

阿里云CloudImagine

云计算 音视频 视频云 云栖大会 生成式AI

终身受益的AI自动化创收计划

测试人

淘宝商品详情API:从ID到详细信息的全面获取

技术冰糖葫芦

API Explorer api 货币化 API 接口 API 测试

工业边缘网关软件 NeuronEX 中基于角色的访问控制功能

EMQ映云科技

大数据 边缘计算 访问控制 工业边缘网关

【原创】【深入浅出系列】之代码可读性

京东科技开发者

chatglm2-6b在P40上做LORA微调

京东科技开发者

MeilleursAgents是如何监控分布式任务队列的_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章