写点什么

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

作者:Rafal Gancarz

  • 2024-12-09
    北京
  • 本文字数:981 字

    阅读完需:约 3 分钟

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

Allegro 设法显著节约了 GCP Big Data 上运行的一条数据流管道的成本。该公司继续致力于通过评估资源利用率、增强管道配置、优化输入和输出数据集以及改进存储策略来提高其数据工作流的成本效益。


Allegro 在 Google Cloud Dataflow 处理引擎上运行许多数据管道,并找出了许多优化这些管道以节省成本的方法。Allegro 高级软件工程师 Jakub Demianowski 分享了一个案例研究,详细介绍了优化单个管道以将成本降低约 60% 所采取的步骤。


CPU 利用率统计(来源:Allegro 技术博客)


成本优化工作集中在三个关键领域,并涉及一些对导致运行管道总成本的潜在低效率的假设的测试。要探索的第一个假设是计算资源可能利用不足。对 CPU 利用率指标的分析显示,平均 CPU 利用率为 85%,使用率降低的原因是数据混洗,这表明 CPU 并未被充分利用。


内存利用率统计(来源:Allegro 技术博客)


通过查看内存利用率指标,Demianowski 得出结论,只有 50% 的可用内存被使用。他选择更改计算实例类型以调整 CPU 与内存的比率,从而节省了 10% 的成本。


作者考虑的第二个假设是,原有虚拟机类型的性价比不是最优的。根据 Google Cloud 提供的 CoreMark 分数,t2d-standard-8 VM 类型提供了最佳的成本效益。他使用 3% 的原始数据集运行数据管道并实现了 32% 的成本降低,进一步证实了这一点。第三个假设侧重于 VM 存储类型。Demianowski 对比了使用 HDD 或 SSD 磁盘的不同 VM 系列,结果表明使用 SSD 更便宜。


最后一个假设涉及作业配置中可能的成本效率低下因素。一个特别令人担忧的领域是 Dataflow Shuffle 服务的成本过高。作者评估了使用和不使用 Shuffle 服务运行该作业的情况,并得出结论,关闭 Shuffle 服务可大大降低成本,此外还可使 worker 节点充分利用可用内存。


在实施博客文章中描述的步骤后,Demianowski 估计运行该管道的年成本从 12.7 万美元降低至约 4.8 万美元。他总结了提高运行管道成本效益的各项努力:


我们甚至无需接触处理代码就取得了出色的成果。推测方法提供了良好的结果。可能仍有一些优化空间,但在给我的时间约束内,我认为这些结果是一流的,并且没有发现任何进一步优化 Dataflow 作业的环境和配置的理由。


作者强调,每个数据管道都是不同的,工程师需要有条不紊地查看和运用不同的途径来降低运营成本并实证评估相关成本。


查看原文链接:

https://www.infoq.com/news/2024/11/allegro-dataflow-cost-savings/

2024-12-09 08:049849

评论

发布
暂无评论
发现更多内容

如何查询外贸网站是否被Google收录?

九凌网络

外贸网站收录的概念与网站不收录原因

九凌网络

掌握Nginx的高级用法,构建高性能Web应用

树上有只程序猿

nginx

KaiwuDB 亮相第四届跨国公司领导人青岛峰会

KaiwuDB

DAPP丨OP链区块链技术质押挖矿系统开发

l8l259l3365

OpenHarmony设备环境查询:Environment

OpenHarmony开发者

OpenHarmony

用低代码平台代替Excel搭建进销存管理系统

互联网工科生

Excel 低代码平台

谷歌优化没头绪,关注这两个重要指标!

九凌网络

谷歌SEO的含义:如何实现SEO策略和技巧?

九凌网络

语音识别技术在智能家居领域的应用与前景

数据堂

语音识别技术在在线教育领域的应用与挑战

数据堂

文心一言 VS 讯飞星火 VS chatgpt (121)-- 算法导论10.4 2题

福大大架构师每日一题

福大大架构师每日一题

第12期 | GPTSecurity周报

云起无垠

产品经理如何快速提升工作效率?这10款工具助你一臂之力!

彭宏豪95

产品经理 产品管理 在线白板 办公软件 在线协作

HarmonyOS音频通话开发指导

HarmonyOS开发者

HarmonyOS

Java爬虫实战:API商品数据接口调用

Noah

数字化践行程果 | 砥砺前行,程果创新,共启全球新篇章

携程商旅

HarmonyOS自定义抽奖转盘开发(ArkTS)

HarmonyOS开发者

HarmonyOS

DeepSpeed: 大模型训练框架 | 京东云技术团队

京东科技开发者

人工智能 大模型 DeepSpeed 企业号10月PK榜

九凌网络分享做谷歌seo优化,技术主要在做什么?

九凌网络

Generative AI 新世界 | Falcon 40B 开源大模型的部署方式分析

亚马逊云科技 (Amazon Web Services)

Python 机器学习 容器 ;开源 生成式人工智能

语音识别技术在安全领域的应用与挑战

数据堂

服务器常见问题排查(一)——CPU占用高、上下文频繁切换、频繁GC

遥遥知识库

后端 服务器 性能调优 问题定位 线上环境问题

美国服务器租用:加速你的网站速度和全球可及性

一只扑棱蛾子

美国服务器 美国服务器租用

Allegro 如何将运行 GCP 数据流管道的成本降低 60%_架构_InfoQ精选文章