写点什么

降本增效:Grab 如何在亚马逊云科技上将 Kafka 消费者流量成本降到零

  • 2023-09-07
    北京
  • 本文字数:1076 字

    阅读完需:约 4 分钟

大小:597.00K时长:03:23
降本增效:Grab如何在亚马逊云科技上将Kafka消费者流量成本降到零

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

Kafka 2.3 引入了将 Apache Kafka 消费者连接到相同可用区域(AZ)代理节点的能力,Grab 利用这一能力重新配置了消费者,将亚马逊云科技上的流量成本降低为零。这一更改大大降低了在亚马逊云科技上运行 Apache Kafka 的基础设施总成本。

 

Grab 以 Apache Kafka 为中心创建了一个流数据平台,支撑公司所有的产品。遵循 Kafka 最佳实践,他们的初始配置为每个 Kafka 分区三个副本,横跨亚马逊云科技区域中三个不同的可用区。负责该平台的团队观察到,跨 AZ 流量占了他们 Kafka 平台一半的成本,因为亚马逊云科技对跨AZ数据传输收费

 

对于初始设置的成本,Fabrice HarbulotQuang Minh Tran的看法如下:

这种设计的问题在于,它会产生惊人的跨 AZ 网络流量。这是因为,在默认情况下,Kafka 客户端只与分区 leader 通信,而分区 leader 有 67%的概率驻留在不同的 AZ 中。

 

跨 AZ 流量包括新发布的消息、代理之间的数据复制和消费者获取的消息。



默认消费者配置,消费者从分区 leader 获取数据(图片来源:Grab工程博客

 

Apache Kafka 2.3开始,可以将消费者配置为从分区副本中获取数据了。这样,如果消费者只从同一 AZ 中的代理获取消息,就不会产生数据传输成本了。

 

这个特性要求 Kafka 代理和消费者都知道其所在的 AZ。对于 Kafka 代理,团队会使用 AZ ID(az1、az2、az3 等)配置broker.rack 。AZ ID 与 AZ 名称(1a、1b、1c 等)不同,因为AZ名称在亚马逊云科技账户间不一致。他们还将参数replica.selector.class的值设置为org.apache.kafka.common.replica.RackAwareReplicaSelector

 

在消费者端,团队更新了内部 Kafka SDK,基于 EC2 主机元数据用 AZ ID 配置client.rack 参数,为的是应用程序团队可以通过导出环境变量来启用该功能。



自定义消费者配置,消费者从最近的副本获取数据(图片来源:Grab工程博客

 

在某些服务上应用新设置后,团队观察发现,跨 AZ 流量成本下降,并且有一些值得注意的副作用。首先,端到端延迟最多增加了 500 毫秒。考虑到大多数消费者从副本获取消息,这也是意料之中的。延迟增加是由复制时间导致的。理论上,任何对延迟敏感的数据流都应该始终从分区 leader 获取数据,即使那样会产生额外的成本。

 

其次,在代理维护(停机)时,直接从副本获取消息的消费者可能会遇到代理不可用的情况,因此,它们应该等待/重试,直到同一 AZ 中的代理恢复在线。最后,团队观察到,代理的负载与跨 AZ 的消费者数量有关。这意味着,消费者的均匀分布对于确保代理的负载平衡至关重要。

 

原文链接:

https://www.infoq.com/news/2023/07/grab-apache-kafka-aws-cost/


相关阅读:

Cloudflare的Kafka之旅:万亿级消息处理实践

使用Strimzi提高Kafka集群的安全性


2023-09-07 08:002286

评论

发布
暂无评论
发现更多内容

ViewPager2重大更新,支持offscreenPageLimit,kotlin动态语言

android 程序员 移动开发

OOM问题原理解析(二),android开发教程pdf

android 程序员 移动开发

UI组件化--干掉shape终极一战,android模块化框架

android 程序员 移动开发

[Android-Gradle]-搞定Groovy闭包这一篇就够了,小程序开发步骤

android 程序员 移动开发

Python代码阅读(第50篇):对列表间隔取元素

Felix

Python 编程 Code Programing 阅读代码

OkHttp踩坑记:为何 response,androidui设计

android 程序员 移动开发

Okio—— 更加高效易用的IO库,一线互联网架构师Android框架体系架构

android 程序员 移动开发

RecyclerView 是 “何方神圣“,农民工看完都学会了

android 程序员 移动开发

RxJava 沉思录(三),微信小程序的事件处理

android 程序员 移动开发

RxJava-2-0还没熟悉,RxJava-3-0说来就来了!,安卓开发工具

android 程序员 移动开发

Toolbar在Android中的使用,2021大厂面试合集

android 程序员 移动开发

Aeron中这么多空闲策略选哪个?

BUG侦探

Aeron 开发技能

WMS-是如何拿到-Token-的?,flutter屏幕旋转监听

android 程序员 移动开发

Xposed简介以及小米去桌面广告的简单实现,五步搞定Android开发环境部署

android 程序员 移动开发

RecyclerView-的复用机制,Android开发面试技能介绍

android 程序员 移动开发

RadonDB MySQL on K8s 2.1.0 发布!

RadonDB

MySQL 数据库 Kubernetes

View 事件分发机制,看这一篇就够了,flutter登录注册

android 程序员 移动开发

ViewPage实现一屏多页面显示(进阶版),简直无敌

android 程序员 移动开发

合同管理系统主要增加了安全性,对于大型企业作用重大

低代码小观

企业管理 管理系统 管理工具 合同管理系统 企业合同管理

static修饰符学习汇总,android系统软件开发

android 程序员 移动开发

超牛无损图片放大神器PhotoZoom,你值得拥有!

淋雨

PhotoZoom

RxJava-不是上帝,真不推荐再用了,移动混合开发框架

android 程序员 移动开发

STM32~配置时钟频率[一文带你解决STM32主频配置],flutter跳转到系统设置

android 程序员 移动开发

Windows安装repo的真正解决方案,移动终端软件开发颜色演示

android 程序员 移动开发

WorkManager完全解析+重构轮询系统,大厂面试题汇总

android 程序员 移动开发

Probe:Android线上OOM问题定位组件,移动互联网app检测取证系统

android 程序员 移动开发

TT语音线程优化,Android开发快速学习

android 程序员 移动开发

WebView开源库终极学习方案,android开发艺术探索pdf

android 程序员 移动开发

WMRouter:美团外卖Android开源路由框架(1),看完老板哭着让我留下来

android 程序员 移动开发

网盘数据要搬家?焱融 SaaS 数据服务平台教你这么干

焱融科技

云计算 分布式 高性能 文件存储 SaaS平台

zookeeper使用篇-Zookeeper Api实践,flutter下拉刷新上拉加载更多

android 程序员 移动开发

降本增效:Grab如何在亚马逊云科技上将Kafka消费者流量成本降到零_云端开发_Rafal Gancarz_InfoQ精选文章