2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

使用 Kafka Streams 构建事件溯源系统的经验分享

  • 2018-07-09
  • 本文字数:1546 字

    阅读完需:约 5 分钟

近期在乌克兰基辅举行的 JEEConf 大会上, Amitay Horwitz 介绍了他的团队是如何实现一个事件溯源的发票系统、系统两年半生产环境运行期间所遇到的挑战,以及团队是如何使用 Kafka Streams 实现新的设计。

Horwitz 是 Wix 的一位软件工程师,他与团队一起在 2015 年着手实现一种新的发票服务,帮助客户在线管理发票并接收付款。在设计新服务时,他们设想能创建一种小规模的简单软件库,具有非侵入式的、能维护数据的完整性、易于添加客户视图等能力。为实现上述目标,团队决定使用事件溯源架构实现服务。

尽管团队努力实现一种简单的设计,但最终软件库还是变得相当庞大。团队在此过程中也碰上了问题,由于读写最终一致性的问题,客户时常无法看到新建立的发票。虽然创建发票的请求更新写模型加入了新发票信息,但此后的请求是从尚未更新的写模型中读取的,因此并未包括新发票信息。

其中最主要的问题在于如何重构视图。在添加新事件处理器时,需确保对传递而来数据的处理要先于对新事件的处理,并在没有事件进入的情况下触发重构。该机制的实现已被证实要比团队先前的设想更为复杂,尤其对于团队所面对的分布式环境,其中的事件来自于各个服务器。这些问题促使Horwitz 考虑寻求采用另一种能保持事件溯源优点的替代架构。

在Horwitz 看来, Kafka 是一种有副本的、容错的、分布式的只添加日志,常用于“发布者 - 订阅者”模式,或是作为队列使用,他指出 Kafka 还可以实现更多的功能。Kafka 的基本结构称为主题(Topic),它是一种分区的逻辑队列。发布者根据消息中的键值将消息推送到各个分区,进而消费者可以消费这些消息。事件溯源系统具有两个重要关键特性,分别是使用单一分区维护消息的顺序,以及消息可在被消费后得到存储。

Kafka Streams 为 Kafka 添加了流处理能力。它提供了两种抽象:

  • 数据流( Streams ):Horwitz 认为数据流是流动的数据,是一种无限有序并可重放的不可变数据序列,适用于事件源系统。
  • 表( Tables ):Horwitz 认为表是静止的数据。表存储了聚合数据在某个时间点的视图,并在接收到新消息时更新。

在使用 Kafka 的发票系统新设计中,团队实现了一个快照状态存储,用于保存每个聚合的当前状态。当从命令流中接收到一个命令后,命令处理器从状态存储中读取相应聚合的当前状态。进而处理器可以决定命令状态是成功还是失败,并通过结果流返回结果。如果命令处理成功,那么系统将创建事件,推送到事件存储并读取新事件的数据流,然后更新状态存储中的聚合状态为新状态。Horwitz 指出,可以使用非常精确和声明式方式编写命令处理器逻辑。在他给出的例子中,仅使用了 60 行的 Scala 代码。

Kafka 是新架构的核心,其中微服务与 Kafka 通信,而且微服务间也是通过 Kafka 通信的。系统还可推送信息到 Kafka,或是在创建分析报告实例时从 Kafka 获取信息。Horwitz 总结了新设计的多个优点:

  • 简单的声明式系统;
  • 考虑并很好地实现了最终一致性;
  • 易于添加或更改视图;
  • 通过使用 Kafka,增强了系统的扩展性和容错性。

InfoQ 的一次采访中,Horwitz 提及尽管他们已在生产中大量地使用了 Kafka,但是新设计依然处于评估阶段。他指出,有人认为 Kafka 并不适用于 CQRS 和事件溯源系统,但是他认为可在明确权衡考虑的情况下充分使用 Kafka。如果用户希望能保存具有客户各种属性的页面浏览事件,那么就可以轻易地根据这些信息创建聚合。Horwitz 认为这符合事件溯源的形式,Kafka 非常适用于此。

如果以聚合标识作为分区键值,那么同一聚合的所有命令最终将位于同一命令主题分区中,并将使用单线程按序处理。这种方式确保了在如果没有处理生成所有下游(downstream)事件的前一个命令,当前命令不会得到处理。Horwitz 指出,该方式建立了强一致性保证。

查看英文原文: Experiences from Building an Event-Sourced System with Kafka Streams

2018-07-09 08:523651
用户头像

发布了 391 篇内容, 共 146.8 次阅读, 收获喜欢 257 次。

关注

评论

发布
暂无评论
发现更多内容

事件分发机制Android,熬夜整理Android面试笔试题,精心整理

欢喜学安卓

android 程序员 面试 移动开发

【转载】提高系统开发效率的“银弹”——X-series可视化大规模应用开发工具集

赫杰辉

Android实现文档在线预览功能

寻找生命中的美好

android pdf预览 文档预览

分布式锁之Redis实现

Sakura

4月日更

纳尼?就凭这拿到了阿里巴巴50K的开发岗offer?

Java架构师迁哥

百度大脑开放日福州站-智能制造与安全生产专场报名啦

百度大脑

百度大脑 开放日

没想到【成功的计算机视觉应用】居然是这样部署的!

澳鹏Appen

人工智能 自动驾驶 机器学习 大数据 计算机视觉

亮相 LiveVideoStackCon,透析阿里云窄带高清的现在与未来

阿里云CloudImagine

视频编解码 视频处理

anyHouse - Android 仿写 ClubHouse

anyRTC开发者

android 音视频 WebRTC RTC 语音社交

网易有道 ASR 团队斩获 Interspeech 2021 算法竞赛两项冠军

有道技术团队

AI 算法竞赛

4行指令解决pip下载Python第三方库太慢问题(pip更换国内下载源)

不脱发的程序猿

Python pip 4月日更 Python库安装

20 图 |6 千字|缓存实战(上篇)

悟空聊架构

redis 缓存 缓存穿透 缓存击穿 缓存雪崩

谈谈中台架构之交易中台

艾小仙

Kubernetes入门——Kubernetes应用部署

百度开发者中心

Kubernetes #技术课程#

事件分发源码,Android事件分发机制收藏这一篇就够了,威力加强版

欢喜学安卓

android 程序员 面试 移动开发

手把手教你从数据预处理开始体验图数据库

NebulaGraph

数据库 数据预处理

python 内置数据结构list、set、dict、tuple(三)

若尘

List 数据结构 set 元组 Python编程

yarn 集群的架构和工作原理

五分钟学大数据

hadoop YARN 4月日更

飞桨分布式训练又推新品,4D混合并行可训千亿级AI模型

百度大脑

百度 AI 飞桨

Flink + Hudi 在 Linkflow 构建实时数据湖的生产实践

Apache Flink

flink

5个超好用的Instagram图片下载工具推荐

科技猫

分享 下载 教程 图片 Instagram

尴尬!看完阿里P7大佬自爆的Java面试复盘笔记,才知道自己才是井底之蛙

Java架构师迁哥

实践案例丨Pt-osc工具连接rds for mysql 数据库失败

华为云开发者联盟

MySQL 数据库 pt-osc工具 rds for mysql

想要做网页游戏怎么办 ?PixiJs 篇(二)

空城机

JavaScript 大前端 游戏 4月日更 pixi

nginx 搭建简单图片服务器实现负载均衡

Java小咖秀

nginx 服务器 图片

2021年IT行业八大趋势预测

禅道项目管理

自动化 数字化 技术债 行业趋势

微服务的演化

箭上有毒

4月日更

三步法助你快速定位网站性能问题

华为云开发者联盟

html 网站 网站优化 Performance面板 瀑布图

GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理

不脱发的程序猿

人工智能 GitHub 开源 OCR 4月日更

「 社区建设功勋奖名单公布」—— InfoQ 写作平台【 1 周年盛典 】

InfoQ写作社区官方

1 周年盛典 热门活动

云管平台如何纳管多云资源?

嘉为蓝鲸

云计算 运维自动化 cmp 混合云 多云管理平台

使用Kafka Streams构建事件溯源系统的经验分享_语言 & 开发_Jan Stenberg_InfoQ精选文章