写点什么

Canva 选择 Amazon KDS 而非 SNS+SQS,每天处理 250 亿个事件,节省了 85% 的成本

作者:Rafal Gancarz

  • 2024-09-05
    北京
  • 本文字数:1274 字

    阅读完需:约 4 分钟

Canva 选择 Amazon KDS 而非 SNS+SQS,每天处理 250 亿个事件,节省了 85%的成本

Canva 对其产品分析平台评估了多种不同的数据处理解决方案,包括 AWS SNS 和 SQS 的组合、MKS 以及 Amazon KDS,最终选择了后者,主要是因为其成本要低得多。该公司比较了这些解决方案的许多方面,比如性能、维护工作量以及成本等。


Canva 每天处理约 250 亿个产品分析事件,以支持许多面向用户的功能,如个性化及推荐、使用统计及见解。所捕获的数据也是支持任意新产品特性 A/B 测试的关键。


收集和分发产品分析事件的数据管道不仅需要支持非常高的吞吐量,还需要支持高可用性(99.999% 的正常运行时间),并且还要具有成本效益、可靠性和用户友好性。负责为产品分析提供事件驱动架构(EDA)的团队在 MVP 的早期阶段使用了 AWS SQS 和 SNS 的组合。这些服务易于设置,并提供了出色的弹性和可扩展性,但它们的成本占了运行架构的 80%。



使用 Amazon KDS 的产品分析数据管道(来源:Canva 工程博客)


基于最初的 MVP 经验,该团队决定寻找能够以较低成本满足性能要求的替代方案,并考虑了另外两种 AWS 服务:Amazon Managed Streaming for Apache Kafka (MSK) 和 Amazon Kinesis Data Stream(KDS)。工程师们比较了这些服务的成本、性能和可维护性,最终选择了 KDS,因为它本身的成本低(比 SQS+SNS 便宜 85%),而且维护的成本也极低,尽管与 MSK 相比延迟更高(高 10-20 毫秒,但可以接受)。


为了提高基于 KDS 的解决方案的成本效益,该团队使用了事件批处理和 zstd 压缩,压缩比为 10 倍,每批压缩延迟为 100 毫秒。工程师估算,使用压缩技术每年可节省 60 万美元。


使用 KDS 时需要特别注意的一个方面是尾部延迟高(超过 500 毫秒),并且当吞吐量峰值超过每个分片 1MB/s 的硬限制阈值时会进行限流。工程师们实现了一种利用 SQS 队列的回退逻辑,结果实现了低于 20 毫秒的 p99 延迟,同时每月为 SQS 支付的费用不到 100 美元。回退选项还兼作了故障转移机制,以防 KDS 遇到严重的服务降级或中断。



在 KDS 限流情况下,回退到 SQS(来源:Canva 工程博客)


该团队使用 Protocol Buffers 来确保架构的可描述性以及随着时间推移来演进事件定义。Canva 已经在使用 Protocol Buffers 来定义微服务之间的契约,但对于事件定义,它还需要完全的向后和向前兼容性。工程师们还在 protoc 之上创建了一个自主研发的代码生成工具。


Datumgen 用于验证兼容性要求并生成多种语言的代码。此外,该工具从事件定义中提取元数据,以增强事件目录数据,其中包含有关技术和业务所有者的详细信息以及字段描述。文档完备且最新的事件模式有助于 Canva 保持数据质量,避免运行时因模式不兼容而导致的代价高昂的问题,并使工程师能够发现可用的产品分析事件。


作者介绍


Rafal Gancarz 是一位经验丰富的技术领导者和专家。他目前正在帮助星巴克打造可扩展、弹性和成本效益高的商务平台。此前,Rafal 曾为思科、埃森哲、凯德、ICE、Callsign 等公司设计和构建大规模、分布式和基于云的系统。他的兴趣涵盖了架构与设计、持续交付、可观测性和可维护性,以及软件交付的社会技术和组织方面。


原文链接:

https://www.infoq.com/news/2024/08/canva-amazon-kinesis-data-stream/


2024-09-05 08:008725

评论

发布
暂无评论
发现更多内容

使用Langflow和AstraDB构建AI助手:从架构设计到与NocoBase的集成

NocoBase

开源 AI 低代码 #LangChain AI 助手

AI搜索,难分胜负

趣解商业

百度 科技 AI搜索 腾讯元宝

ETL与ELT核心技术解析:如何选择最优数据集成方案

谷云科技RestCloud

数字化转型 ETL ELT 数据集成工具

网易伏羲人工智能实验室技术创新再突破!前馈捏脸等3篇论文入选CVPR 2025

网易伏羲

人工智能 论文 网易伏羲

Cartesia 升级 TTS 模型,可在音频中无缝填充内容;索尼 AI 游戏角色原型:结合语音与动画,与玩家实时对话丨日报

声网

95后程序员靠飞算JavaAI副业月入过万:他的接单秘籍全公开

飞算JavaAI开发助手

区块链资产交易所开发:从零到一构建币币交易平台

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

macOS Sequoia 15.3.2 (24D81) Boot ISO 原版可引导镜像下载

sysin

macos

场景题:线上接口响应慢,应该如何排查问题?

卷福同学

Java 面试 接口 场景题

Java 开发者必备工具清单:提升效率的 10 款神器

飞算JavaAI开发助手

日志易SPL高效进阶:语法编辑器的妙用

日志易

编辑器 日志易SPL

SelectDB 实时分析性能突出,宝舵成本锐减与性能显著提升的双赢之旅

SelectDB

大数据 数据仓库 数据分析 电商 实时分析

[大厂实践] Pinterest Ray 基础设施实践

俞凡

人工智能 大厂实践

NocoBase vs OutSystems:低代码平台,开源还是闭源?

NocoBase

开源 开发者 低代码 开发工具 无代码

SD-WAN:为企业打造低成本高性能组网

Ogcloud

SD-WAN 企业组网 SD-WAN组网 sd-wan专线 SD-WAN厂家

AI 时代必备技能:如何巧用大模型实现工作效率与质量的双重飞跃?

Techinsight

流程自动化 #大模型 RPA Agent Agent智能体

故障测试——微软工程手册

FunTester

.NET Core 中如何实现缓存的预热?

不在线第一只蜗牛

.net spring 缓存

大模型叙事下的百度智能云:比创新更重要的,是创新的扩散

Alter

一文看懂!大模型、超大模型和 Foundation Model 有何区别?

Techinsight

#大模型

【限时福利】参与炫技赛,免费解锁AI工具高级版!速领→

飞算JavaAI开发助手

【技术实战】会员商城任务成就系统:从需求分析到代码实现的完整指南

飞算JavaAI开发助手

SpringBoot + 微服务开发太难?AI 工具自动生成脚手架代码!

飞算JavaAI开发助手

Solr 可观测性最佳实践

观测云

solr

人工智能引发就业变革:热门职业面临淘汰危机!

Techinsight

人工智能

ChatGPT 与 AGI:人工智能的当下与未来走向全解析

Techinsight

Vue3组合式API终极指南:从原理到实战,彻底掌握高效开发!

不在线第一只蜗牛

vue.js 前端

[大厂实践] Pinterest 基于 Ray 的机器学习数据处理

俞凡

人工智能 大厂实践

Canva 选择 Amazon KDS 而非 SNS+SQS,每天处理 250 亿个事件,节省了 85%的成本_云计算_InfoQ精选文章