《HarmonyOS:领航者说》技术公开课来啦,大咖分享、实战解码,不容错过 了解详情
写点什么

Apache Spark 和 Apache Flink,如何选择?

  • 2016-03-29
  • 本文字数:940 字

    阅读完需:约 3 分钟

Spark Streaming 和 Flink 都能提供恰好一次的保证,即每条记录都仅处理一次。与其他处理系统(比如 Storm)相比,它们都能提供一个非常高的吞吐量。它们的容错开销也都非常低。之前,Spark 提供了可配置的内存管理,而 Flink 提供了自动内存管理,但从 1.6 版本开始,Spark 也提供了自动内存管理。这两个流处理引擎确实有许多相似之处,但它们也有着巨大的差异。近日, MapR Technologies 产品经理 Balaji Mohanam 在公司内部的白板演示中比较 Apache Spark Apache Flink 的不同之处,用户可以参考这种比较做出选择。

为了方便说明,Mohanam 首先对批处理、微批处理和连续流操作符等三种计算模式进行了解释。批处理基本上处理静态数据,一次读入大量数据进行处理并生成输出。微批处理结合了批处理和连续流操作符,将输入分成多个微批次进行处理。从根本上讲,微批处理是一个“收集然后处理”的计算模型。连续流操作符则在数据到达时进行处理,没有任何数据收集或处理延迟。

Apache Spark 和 Apache Flink 的主要差别就在于计算模型不同。Spark 采用了微批处理模型,而 Flink 采用了基于操作符的连续流模型。因此,对 Apache Spark 和 Apache Flink 的选择实际上变成了计算模型的选择,而这种选择需要在延迟、吞吐量和可靠性等多个方面进行权衡。

随着数据处理能力的提高,企业开始认识到,信息的价值在数据产生的时候最高。他们希望在数据产生时处理数据,这就是说需要一个实时处理系统。但也不是所有情况都需要实时系统。Mohanam 分别例举了一些适合微批处理或实时流处理的场景。比如有两个广告科技行业的场景:一个是聚合来自不同 IP 地址的不同 IP 请求,将 IP 归入黑名单或白名单;另一个是设法阻止一个黑名单 IP 的特定请求。前者使用微批处理就可以,而后者就需要实时流处理。再比如,在电信行业,统计特定用户使用的带宽,微批处理可能是一个更高效的方案,而网络异常检测就需要实时流处理了。也有一些场景,微批处理和实时流处理都适用,如在 IoT 行业查看特定工业设备的使用情况。

要了解更多内容,可以观看 Mohanam 的演示视频


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-03-29 19:004996
用户头像

发布了 1008 篇内容, 共 423.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

Spring中依赖倒置原则的理解

极客李

架构师训练营第二周作业(1)

烟雨濛濛

手撕设计原则:接口隔离

JefferLiu

面向对象 架构师 面向对象设计 面向对象设计原则

【架构师训练营】第2周作业

花生无翼

极客大学架构师训练营

依赖倒置原则

Z冰红茶

架构师训练营第二周作业

子豪sirius

面向对象设计原则课后作业

周冬辉

重拾依赖倒置原则(训练营第二课)

看山是山

oop 极客大学架构师训练营 依赖倒置原则 DIP

第二周作业

赵龙

第二周作业

Dark

依赖倒置 接口隔离原则

软件设计原理

Dark

专栏

2020/6/16 架构学习心得

架构5班杨娟Jessie

极客大学架构师训练营

架构师训练营第二周感悟

张锐

极客大学架构师训练营

架构师训练营:第二周 作业

Bruce Xiong

架构师训练营:第二周学习总结

Bruce Xiong

架构师训练营第二周作业(2)

烟雨濛濛

docker-mcr 助您全速下载 dotnet 镜像

newbe36524

Docker netcore

极客时间架构课 Week02- 作业一:命题作业

yulyulcl

SharePoint 往事之:使用Bootstrap定制SharePoint网站页面

手艺人杨柳

SharePoint

week02 小结

Geek_196d0f

架构师训练营第二周作业

张锐

极客大学 极客大学架构师训练营

架构师训练营第二周作业

olderwei

极客大学架构师训练营

第二周学习总结

赵龙

架构师实现自己架构目标工具手段-软件设计

WulalaOlala

极客大学架构师训练营

架构师训练营第二周总结

olderwei

北京疫情反弹 区块链怎样破解食品溯源难题?

CECBC

区块链技术 商品溯源 上链

区块链在农业领域能有什么用武之地?

CECBC

区块链技术 上链 农业链 三农

架构师训练营第0期第二周作业

无名氏

依赖倒置原则 DIP 依赖反转原则

依赖倒置及Cache重构设计

架构5班杨娟Jessie

极客大学架构师训练营

Week 02 学习总结 框架 设计原则

Z冰红茶

week02 作业

Geek_196d0f

Apache Spark和Apache Flink,如何选择?_语言 & 开发_谢丽_InfoQ精选文章