使用Akka来优化Spark+ElasticSearch的准实时系统_语言 & 开发_孙镜涛

假如有这样一个场景：系统每秒钟都会收到大量的事件，每个事件又包含很多参数，用户不仅需要准实时地还需要定期地判断每一种事件、事件的每一种参数值的组合是否超过了系统设定的阈值。面对这一场景，用户应该采用什么样的方案呢？最近，来自于 Premium Minds 的软件架构师 André Camilo 在博客上发表了一篇文章，介绍了他们是如何使用 Akka 解决这一棘手问题的。

在该文章中 André Camilo 首先介绍了他们的应用场景：

我们的系统每秒钟最多会收到几百个事件，有些事件有 8 个参数，有些事件有超过 240,000 个参数值的组合（* 假如有一个 PhoneCall(phoneNumber, countryCode, geoZone) 事件，该事件有三个参数，其中 phoneNumber 有 4,000 个值, countryCode 有 5 个值，geoZone 有 10 个值，那么可能的参数值组合约为 (4000+1)(5+1)(10+1)=240k 个 *），我们不仅需要实时地判断这些事件以及参数值的组合是否超过了系统设定的阀值，还要保留最近 30 分钟的数据，以便于判断在这段时间内它们出现的频率是否也超过了阀值。

处理该问题最简单的方式或许就是将这些数据都存起来，然后每隔一秒钟就去计算每一种组合出现的频率，但是事实上这是无法实现的，因为这样每秒钟会有超过 240,000 个查询，系统是无法承受的。 André Camilo 给出的第一种方案是使用 Spark 和 ElasticSearch：

我们创建了一个 Spark Streaming 的数据流管道，该管道首先从 JMS 队列中读取消息并将其转换成 PhoneCall 事件，然后根据事件的参数值将一个事件分离成多个事件，之后再使用 countByWindow 函数计算每一种事件组合的频率，最后检查每种组合的平均频率是否超过了阈值。在使用 countByWindow 计算时，每秒钟都会设置一个 30 分钟的窗口，同时函数输出值会除以 1800 秒以得到每个窗口的平均频率，最终结果使用 ElasticSearch 集群存储。

该方案的流程如下：

这一方案虽然可行，但是并没有解决 André Camilo 的问题，不是因为 Spark 不行，而是因为虽然 Spark Streaming 能够处理大量的实时数据，但是却无法处理大量的窗口。在 André Camilo 的实验中，如果组合数低于 1000，那么这种方案能够工作的很好，但是如果超出了这一数量，那么就会导致内存溢出问题。

André Camilo 给出的第二种方案是使用 Akka ：

对每一种参数值的组合创建一个组合 Actor
创建一个负责接收所有事件的 Actor，该 Actor 根据事件的参数值将一个事件分离成多个事件，并根据参数组合的对应关系将分离后的事件发送到步骤 1 创建的组合 Actor
每一个组合 Actor 通过环形缓冲区存储最近 30 分钟的事件数（单位为秒），每过一秒，该缓冲区就滚动一个位置，同时该 Actor 会计算事件的频率，检查该频率是否超过了系统设定的阈值，并将结果发送到 ElasticSearch Actor
ElasticSearch Actor 仅仅是一个 ActorPublisher，负责将数据发送到 ElasticSearch 流驱动

第二种方案的流程如下：

环形缓冲区的结构如下：

你可能会问，为每一种组合创建一个 Actor 会不会导致 Actor 太多？André Camilo 告诉我们，对 Akka 这个超轻量级的事件驱动框架来说这都不是问题。使用该方案 André Camilo 在一个 i7 4GB 的笔记本上轻松解决了 800 个事件的分离处理。更为重要的是，Akka 支持水平扩展，如果系统有更多的参数值组合，或者需要更大的吞吐量，那么只需要增加更多的机器即可。

最后，André Camilo 的结论是：Spark 有非常好的特性，它的解决方案更简单、更直观，但不太适合这个场景。Akka 非常适合处理 CPU 敏感的问题，Actor 模型更适合处理高并发的问题。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群（已满），InfoQ 读者交流群（#2））。

发布

暂无评论

创作场景

使用 Akka 来优化 Spark+ElasticSearch 的准实时系统

评论

支持神经滤镜Photoshop 2023 (ps 2023)Mac v24.5/24.6b中文激活

探索云原生技术发展与应用实践，赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

开源赋能普惠未来｜中软国际寄语2023开放原子全球开源峰会

火山引擎DataLeap的Catalog系统搜索实践（二）：整体架构

英特尔持续耕耘锐炫显卡：累计21次驱动更新，支持XeSS游戏达50+

百度商业AI技术创新大赛火热进行中，携手专家大咖一起创新为更好！

Flink CEP 在抖音电商的业务实践｜电商行业实践专栏上线

SeaTunnel毕业！首个国人主导的数据集成项目成为Apache顶级项目

六一新玩法！AI涂鸦秒变精美艺术画

Tomcat 安装与启动

RustChinaConf 2023官网上线，精彩议题早知道

2天时间3个面试，百度进了3面！

开源赋能普惠未来｜TKEStack诚邀您参与2023开放原子全球开源峰会

华秋硬创 | 全国科技工作者日，致敬每一位科技创新者！

云原生数据库厂商拓数派加入龙蜥社区，打造多样化的数据底座

速来！TDengine 六周年线上生日趴，“送”周边大礼包啦

海量数据运维要给力，GaussDB(for Cassandra)来助力

从Google、创业再到字节跳动，我在开源领域的实践与思考

软件测试/测试开发丨学习笔记之Allure2测试报告

OpenMLDB v0.8 新功能：离线引擎数据源支持 Amazon S3

UniFi USW-Flex 室内-室外 POE 交换机

M2M场景之客户端凭证模式｜OIDC & OAuth2.0 认证协议最佳实践系列【4】

Arm NN 成功适配 openEuler Embedded，提供高性能神经网络推理能力

软件测试/测试开发丨Web自动化测试常见控件交互方法

索信达“数据资产管理解决方案”全解析

波司登云原生微服务治理探索

创作场景

使用 Akka 来优化 Spark+ElasticSearch 的准实时系统

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载