DataTorrent 1.0每秒处理超过10亿个实时事件_架构_Abel Avram



 写点什么

DataTorrent 是一个实时的流式处理和分析平台，它每秒可以处理超过 10 亿个实时事件。

与 Twitter 平均每秒大约 6000 条微博相比，最近发布的 DataTorrent 1.0 似乎已经超出了需求，它每秒可以处理超过 10 亿个实时事件。他们在一个包含37 个节点的集群上进行了测试，每个节点256GB 内存、12 核超线程CPU。在CPU 达到饱和之前，DataTorrent 声称已经实现了线性扩展，而CPU 达到饱和时处理速度为每秒16 亿个事件。Phu Hoang 是DataTorrent 的联合创始人和CEO，他告诉InfoQ，在同样的硬件上，他们的解决方案在性能上比Apache Spark 要高“好几个数量级”。

DataTorrent 基于 Hadoop 2.x 构建，是一个实时的、有容错能力的数据流式处理和分析平台，它使用本地 Hadoop 应用程序，而这些应用程序可以与执行其它任务，如批处理，的应用程序共存。该平台的架构如下图所示：

StrAM（Streaming Application Master）是一个本地的 YARN Application Master，负责管理将要在 Hadoop 集群上执行的逻辑 DAG（Directed Acyclic Graph），包括资源分配、分区、扩展、调度、Web 服务、运行时更改、统计、SLA 执行、安全等等。

在架构示意图的上层，用户应用程序作为已连接的算子和 / 或应用程序模板存在。算子的示例有 InputReceiver（模拟接收输入数据）、Average（针对指定维度的键计算数据平均值）、RedisAverageOutput（将计算好的平均值写入 Redis 数据存储）、SmtpAvgOperator（发送电子邮件警报）。这些算子是 Malhar 库的一部分，该库包含了超过 400 个这样的算子，并在 GitHub 上开源。用户可以根据需要编写其它算子。

我们问 Hoang，是什么使 DataTorrent 比 Spark 更快：

PH：DataTorrent 侧重于使企业能够通过流式处理实时采取行动，而 Spark 希望使 Spark 引擎适用于处理连续事件流，这就在架构上产生了两个重要的区别。性能和有状态的容错能力是两个重点关注的方面。

性能——作为一个本地 Hadoop 2.0 产品，DataTorrent RTS 从头开始设计和构建，它关注性能和高可用性，并最终实现了以亚秒级延时逐个处理事件。DataTorrent RTS 在启动时就将应用程序调度到 Hadoop 容器中，如果应用程序不需要更改，映射就固定不变，这样就不会引入任何调度开销。另一方面，Spark 基于 Hadoop 2.0 之前的版本构建，它利用 Spark 引擎以小批量或“迷你批量”高效地运行许多“map reduce”作业。这种设计策略要求现在的 Spark（通过 Application Master）必须将每个最小批调度到集群上，这意味着巨大的开销，降低了系统速度。

有状态的容错能力——按照设计，DataTorrent RTS 能够进行复杂的、有状态的高性能计算，并具有容错能力。这是企业的一项关键需求，在不丢失任何数据、任何状态的情况下从故障中恢复，这是一项必备的能力。这里，DataTorrent RTS 的设计中心是使用 Java 编程以及为企业开发人员 /ISV 解除容错能力设计的“负担”（也就是说，由 DataTorrent RTS 为开发人员处理）。Spark 确实也提供了容错能力，但只针对无状态处理。Spark 的设计中心是使用函数式语言 Scala，处理连续事件流的算子是无状态的。如果企业想向 Spark 添加有状态的处理，他们需要将那部分代码作为应用程序的一部分进行编写，这很难，而且会影响性能。

据 Hoang 说，经验证，DataTorrent 适用于“所有主要的 Hadoop 分发，既包括本地部署，也包括基于云的部署（前者如 Cloudera、Hortonworks、MapR，后者如 Amazon AWS 和 Google Cloud），这赋予了企业灵活性，使他们既可以更换 Hadoop 供应商，也可以无障碍地更改部署选项。”

虽然 DataTorrent 是一款商业应用程序，但它也带来了一个包含所有功能的免费层级，可以用于中小型应用程序。

查看英文原文：**** DataTorrent 1.0 Handles >1B Real-time Events/sec

发布

暂无评论

创作场景

DataTorrent 1.0 每秒处理超过 10 亿个实时事件

评论

高防服务器选择注意的三大方面

258W 字 Java 全栈面试题！实锤：阿里架构师耗时半年整合而来！

面试官：你说说一条查询SQL的执行过程

Cocos Creator v3.2 正式支持 HarmonyOS 多设备协同能力

阿里P8架构师又传喜讯！最新产出 Java 架构师 1575 道“完美圣经”，汇总十家互联网大厂面试题！

LeetCode题解：173. 二叉搜索树迭代器，递归，JavaScript，详细注释

Lucene 倒排索引原理

高防云服务器 VS 云服务器

外包三年经验，耗时半年进大厂，整合出 25W 字 Java 全栈面试题，把初心分享出来！

AudioTracker实用封装

架构学习总结

香港服务器流量选择，该如何选择?高防服务器租用防御多少G合适呢？

百度大脑FaceID人脸识别模型量化技术，确保算法精度无损加速一倍

万字深入HarmonyOS ACE UI框架解析，带你看懂UI渲染流程

科技融合：Hightopo受邀参加厦门公安科技活动周

2021Java春招面试真题：记一次蚂蚁金服Java研发岗的面试经历

面试官：你了解Java中的锁优化吗？

Springboot 配置文件、隐私数据脱敏的最佳实践（原理+源码）

译文 | 四种产品经理成长框架，你是哪一种？

图分析在吴亦凡事件中的应用场景

高亮的架构毕业总结

【Vue2.x 源码学习】第二十四篇 - 异步更新流程

应对极端天气，百度智能云推出城市内涝智能监测预警系统

鬼知道我这一年是怎么过来的？Java 开发从二面被拒到收割阿里架构 offer！

体验百度EasyEdge，畅快部署超多AI芯片

【LeetCode】加一Java题解

1个月学会Java开发！2021年最新Java面试点梳理

2021 年最全Java架构面试点+技术点标准手册：完全对准一线大厂，猛攻！

IM开发干货分享：网易云信IM客户端的聊天消息全文检索技术实践

知道ThreadLocal吗？一起聊聊到底有啥用

创作场景

DataTorrent 1.0 每秒处理超过 10 亿个实时事件

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载