写点什么

Spark 生态顶级项目汇总

  • 2016-03-06
  • 本文字数:1203 字

    阅读完需:约 4 分钟

现在 Apache Spark 已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出 5 个使用广泛的第三方项目。

Spark 官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是 Spark 官方给出的生态系统组件(引自 Spark 官方文档)。

  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。
  2. Spark SQL:可以执行 SQL 查询,包括基本的 SQL 语法和 HiveQL 语法。读取的数据源包括 Hive 表、Parquent 文件、JSON 数据、关系数据库(MySQL 等)等。
  3. Spark Streaming:Spark Streaming 是 Spark 核心 API,易扩展、高吞吐量、流式数据容错。
  4. MLlib:Spark 的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。
  5. GraphX:Spark GraphX 是一个分布式图处理框架,基于 Spark 平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。
  6. Spark Core API:Spark 提供多种语言的 API,包括 R、SQL、Python、Scala 和 Java。

除了上述官方的 Spark 组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

  1. Mesos
    Mesos 是开源的资源统一管理和调度平台。抽象物理机的 CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
    Mesos 是 Master/Slave 结构,由 Mesos-master,Mesos-slave,Framework 和 executor 四个组件构成。
    为什么官方选用 Mesos,而不是 Spark standalone 模式或者基于 Yarn 框架?由 Spark 开发者所写的书《Learning Spark》:Mesos 优于其它两个资源框架是因为 Mesos 的细粒度调度,这样可让多用户运行 Spark shell 占有更少的 CPU。
  2. Spark Cassandra Connector
    Cassandra 是一个易扩展、高性能的数据库。 Spark Cassandra Connector 现在是 Spark 和 Cassandra 表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector 库让你读 Cassandra 表就如同 Spark RDD 一样,同样可以写 Spark RDD 到 Cassandra 表,并可以在 Spark 程序中执行 CQL 语句。
  3. Zepellin
    Zepellin 是一个集成 IPythoon notebook 风格的 Spark 应用。Zepellin 可以基于 Spark 和 Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。
    Zepellin 也支持其它语言插件,包括 Scala 和 Spark,Python 和 Spark,SparkSQL,HIve,Markdown 和 Shell。
  4. Spark Job Server
    Spark Job Server 提供 RESTful 接口来提交和管理 Spark jobs,jar 包和 job 上下文。Spark Job Server 提供 Spark 任务相关的运行健康信息。
  5. Alluxio
    Alluxio 是一个分布式内存文件系统,它在减轻 Spark 内存压力的同时,也赋予 Spark 内存快速读写海量数据的能力。Alluxio 以前叫做 Tachyon,即钨丝。Spark jobs 可以不做任何改变即可运行在 Alluxio 上,并能得到极大的性能优化。Alluxio 宣称:“百度使用 Alluxio 可以提高 30 倍多数据处理能力”。
2016-03-06 19:247279
用户头像

发布了 43 篇内容, 共 31.0 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

快递帮小二微信小程序管理系统:高效解决寄取件需求,赋能校园与物流场景

微擎应用市场

YOLOv7安全评估揭示11个漏洞:RCE攻击与模型差异风险

qife122

计算机视觉 机器学习安全

智源发布具身智能能力基座,共筑全球具身新生态

智源研究院

人工智能

技术解读 | OceanBase 数据库诊断与调优的关键技术与方法

老纪的技术唠嗑局

运维 调优 oceanbase 诊断

MyEMS:解码工业文明的"能量语言",让能源管理从粗放走向精益

开源能源管理系统

开源 能源管理系统

工业 / 商业 / 园区通用:MyEMS 的定制化能源优化方案与实践

开源能源管理系统

开源 能源管理系统

鸿蒙应用开发——AppStorageV2和PersistenceV2的使用

高心星

鸿蒙 HarmonyOS5.0 AppstorageV2 PersistenceV2

和鲸助力 2025 中国高校计算机大赛——大数据挑战赛全国总决赛圆满举行!

ModelWhale

清华大学 大数据挑战赛 大数据比赛 计算机比赛

大河抽奖盲盒运营版微信小程序管理系统 :助力商家实现 “玩法自由” 的盲盒营销利器

微擎应用市场

从Win到鸿蒙:ToDesk、Splashtop、TeamViewer、向日葵,跨平台远控谁更强?

小喵子

远程办公 向日葵 ToDesk TeamViewer 远控

AI 应用落地谈起 ,免费试用 Amazon Bedrock 的最佳时机

掘金安东尼

从“被动监控”到“主动优化”:MyEMS 重构能源管理价值的路径

开源能源管理系统

开源 开源能源管理系统

2025智源学者资助计划启动

智源研究院

人工智能 资助项目

华为云:做厚算力“黑土地”,成就行业AI先锋

华为云开发者联盟

大模型 华为云开发者联盟 AI Agent 具身智能 AI云服务

ROMA-iOS适配深色模式总结

京东科技开发者

百度秒哒黑客松大赛:迎接无代码时代,让技术回归人本,开发走向普惠

科技热闻

浙江省经信厅庞为兴处长一行莅临中昊芯英调研指导,将多维度支持企业发展

科技热闻

测吧爱测智能测试平台 | 用例生成、自动执行、智能遍历图谱构建

测试人

人工智能 软件测试

喜报 | 博睿数据Bonree ONE 荣登中国信通院"铸基计划"三大权威名录!

博睿数据

博通订阅制压顶,企业如何破局?云易捷超融合成高性价比出口

智驱前线

本地(或自下载)浏览器插件 安装指南

京东科技开发者

某大型银行跨区域 Pulsar 集群网络问题分析报告

AscentStream

消息队列 pulsar

中昊芯英斩获第七届硬核芯生态大会“2025 年度创业团队奖”成唯一获此殊荣企业

科技热闻

鸿蒙应用开发——Repeat组件的使用

高心星

缓存 鸿蒙 懒加载 HarmonyOS5.0 Repeat

多商家智慧新零售小程序管理系统:助力本地商家实现线上线下双增长

微擎应用市场

接龙大师微信小程序管理系统:一站式社群信息收集与活动管理解决方案

微擎应用市场

Amazon Lambda + API Gateway 实战,无服务器架构入门

掘金安东尼

万字长文,手把手教你2小时实现鸿蒙版视频播放器(附源码),建议先收藏

程序员潘Sir

鸿蒙 HarmonyOS

博睿数据携手华为共筑智能未来,深度参与HUAWEI CONNECT 2025并发表主题演讲

博睿数据

火爆交车!100台HOWO轻卡新能源签约郑州大客户!

科技热闻

ClkLog埋点与用户行为分析系统:架构升级与性能全面提升

ClkLog

开源 用户画像 优化架构 #数据分析 埋点分析

Spark生态顶级项目汇总_DevOps & 平台工程_侠天_InfoQ精选文章