写点什么

MeilleursAgents 是如何监控分布式任务队列的

  • 2018-03-04
  • 本文字数:1106 字

    阅读完需:约 4 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

MeilleursAgents 网站能够列出资产卖家的资产及其评估的价格,该网站分享了他们基于Celery 的分布式任务队列是如何监控的。由Python、StatsD、Bucky、Graphite 和Grafana 联合组成的管道能够监控任务的生命周期和执行率。

该文主要关注他们是如何监控Celery 运行的。 Celery 是一个由 Python 编写的分布式任务队列,它使用 broker- 客户端模式来分配任务给工作者(worker)。监控分布式任务队列是非常困难的,因为工作者节点是分布式的,很难跟踪特定请求的状态,如果跨多个系统的话,则会更加困难。但是,这种情况下的监控是关于整体成功 / 失败以及执行率的。每个阶段任务的累积数量,即已接收的(received)、已处理的(processed),也能反映出任务队列是否有速度减缓的情况。InfoQ 联系到了 MeilleursAgents 的工程主管 Pierre Boeuf 来学习这一话题。

指标收集管道包含 Python 客户端,它会监听 Celery 事件并使用 StatsD API 将数据推送至 StatsD 。然后,数据会被发送至 Bucky,Bucky 会将数据写入到 Graphite 中。 Bucky 会运行一个服务器,将传入的指标数据进行处理并转换成 Graphite 能够理解的格式。Bucky 所接收的指标可以是 StatsD 或 Collectd 这种指标工具所收集到的原始数据,如果 Graphite 无法理解传入的指标格式的话,那么 Bucky 就派上用场了。在 MeilleursAgents,Graphite 安装时使用了 Whisper 作为后端数据库。Boeuf 说团队在使用 Graphite 中还没有遇到扩展性方面的问题:

我们遇到的唯一扩展性相关的问题是因为将 StatsD 和 Graphite 放到了同一台服务器上。随着请求的增加,它出现了过载,所以我们现在在每台机器上都有本地 Bucky,它会推送指标数据。

Grafana 用来作为查询指标的前端。监控项包括任务、broker 以及工作者。按照 Boeuf 的说法,Web 和数据团队会使用仪表盘。

图片来源: https://medium.com/meilleursagents-engineering/how-we-monitor-asynchronous-tasks-da25728173d6?__s=6cjguhzuufdark8he4bm

他们组合使用 diffseries (在 Graphite 中,抽取时间序列的方式)和 Grafana着色(coloring)相关的配置可视化高亮显示可能存在的问题,比如红色背景代表某个应该为零的指标出现了非零的状况。 NewRelic Google Cloud Monitoring ,前者是一个外部工具,后者是产品所部署的云环境的一部分,这两个工具会负责告警部分。另外,NewRelic 还会监控 Celery 进程本身,确保它们处于运行状态。Grafana 也有内置的告警支持以及像 Pagerduty OpsGenie 这样的集成服务,但是团队并没有采用它们。

查看英文原文 Monitoring Distributed Task Queues at MeilleursAgents

2018-03-04 18:001772

评论

发布
暂无评论
发现更多内容

产品动态 | 重磅发布!秒验全面支持香港移动号码认证,助力移动互联网企业跨境出海

MobTech袤博科技

低代码5大实用模块实操指南:收藏/公告/消息/统计/服务器信息

引迈信息

阿里云发布《AI 原生应用架构白皮书》

阿里巴巴云原生

阿里云 云原生

Qoder 负责人揭秘:Qoder 产品背后的思考与未来发展

阿里巴巴云原生

阿里云 云原生 Qoder

京东正式开源基于国产芯片自研的xLLM大模型推理引擎

京东零售技术

基于YashanDB数据库构建实时监控系统的实施步骤

数据库砖家

结合AI技术提升YashanDB数据库智能运维能力

数据库砖家

揭示YashanDB数据库在大数据时代的价值

数据库砖家

阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”

阿里巴巴云原生

阿里云 RocketMQ 云原生

除了Nano banana,还有哪些AI工具可以生成手办模型图?

职场工具箱

AIGC 通义千问 Ai绘图 Qwen AI生图

TapTalk | 圆桌实录:澳门综合度假村敏捷转型之旅,MongoDB + TapData 赋能酒店业卓越实践

tapdata

客户数据平台 CDP 敏捷转型 CDC 实时数据平台

VEX生态重磅孵化STC:打造Web3 ESG碳资产RWA第一标杆

科技汇

结合YashanDB其功能可以有效提升企业的数据洞察力

数据库砖家

从“看得见”到“能决策”:Operation Intelligence 重构企业智能运维新范式

阿里巴巴云原生

阿里云 云原生 可观测

网易雷火胡志鹏:AI驱动未来,游戏科技重塑虚拟创造力与现实生产力

网易伏羲

人工智能 网易伏羲 具身智能 网易雷火 游戏科技

解读YashanDB的并发处理能力:推动业务增长的关键

数据库砖家

公众号文章中插入外部网页链接教程(2026 最新版)

Ceelog

公众号

智源 RoboBrain-X0 开源,打破机器人跨本体泛化困境

智源研究院

文心快码已接入GLM-4.6模型

Comate编码助手

AI编程 文心快码 AI编程助手 GLM-4.6

节省成本提升效率:YashanDB数据库云端部署策略详解

数据库砖家

YashanDB 对云环境适配能力

数据库砖家

网易伏羲受邀亮相2025云栖大会,展示AI领域前沿创新成果

网易伏羲

网易伏羲 游戏AI 具身智能 群体智能 网易雷火

百度电商MultiAgent视频生成系统

百度Geek说

视频创作 AIGC

数造科技于2025全球数据管理峰会斩获多项殊荣

数造万象

数据治理 DataOps 数据管理 AI 人工智能 科技、

两项世界第一!阿里云EMR登顶全球数据仓库性能及性价比排行榜

阿里云大数据AI技术

spark 阿里云 数据仓库 StarRocks EMR

RestCloud iPaaS与MQ消息集成如何重塑企业集成韧性

谷云科技RestCloud

数据传输 数据同步 集成平台 ipaas MQ消息

ETL参数化技巧:如何避免写一堆重复任务?

谷云科技RestCloud

数据处理 数据传输 ETL 数据集成平台 参数传递

招聘效率坍塌?AI+真人面试已成主流,你还在用石器时代的方法选人?

AI得贤招聘官

一键登录技术横评:MobTech秒验如何提升APP转化率35%?

MobTech袤博科技

MeilleursAgents是如何监控分布式任务队列的_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章