把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

Spark 生态顶级项目汇总

  • 2016-03-06
  • 本文字数:1203 字

    阅读完需:约 4 分钟

现在 Apache Spark 已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出 5 个使用广泛的第三方项目。

Spark 官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是 Spark 官方给出的生态系统组件(引自 Spark 官方文档)。

  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。
  2. Spark SQL:可以执行 SQL 查询,包括基本的 SQL 语法和 HiveQL 语法。读取的数据源包括 Hive 表、Parquent 文件、JSON 数据、关系数据库(MySQL 等)等。
  3. Spark Streaming:Spark Streaming 是 Spark 核心 API,易扩展、高吞吐量、流式数据容错。
  4. MLlib:Spark 的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。
  5. GraphX:Spark GraphX 是一个分布式图处理框架,基于 Spark 平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。
  6. Spark Core API:Spark 提供多种语言的 API,包括 R、SQL、Python、Scala 和 Java。

除了上述官方的 Spark 组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

  1. Mesos
    Mesos 是开源的资源统一管理和调度平台。抽象物理机的 CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
    Mesos 是 Master/Slave 结构,由 Mesos-master,Mesos-slave,Framework 和 executor 四个组件构成。
    为什么官方选用 Mesos,而不是 Spark standalone 模式或者基于 Yarn 框架?由 Spark 开发者所写的书《Learning Spark》:Mesos 优于其它两个资源框架是因为 Mesos 的细粒度调度,这样可让多用户运行 Spark shell 占有更少的 CPU。
  2. Spark Cassandra Connector
    Cassandra 是一个易扩展、高性能的数据库。 Spark Cassandra Connector 现在是 Spark 和 Cassandra 表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector 库让你读 Cassandra 表就如同 Spark RDD 一样,同样可以写 Spark RDD 到 Cassandra 表,并可以在 Spark 程序中执行 CQL 语句。
  3. Zepellin
    Zepellin 是一个集成 IPythoon notebook 风格的 Spark 应用。Zepellin 可以基于 Spark 和 Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。
    Zepellin 也支持其它语言插件,包括 Scala 和 Spark,Python 和 Spark,SparkSQL,HIve,Markdown 和 Shell。
  4. Spark Job Server
    Spark Job Server 提供 RESTful 接口来提交和管理 Spark jobs,jar 包和 job 上下文。Spark Job Server 提供 Spark 任务相关的运行健康信息。
  5. Alluxio
    Alluxio 是一个分布式内存文件系统,它在减轻 Spark 内存压力的同时,也赋予 Spark 内存快速读写海量数据的能力。Alluxio 以前叫做 Tachyon,即钨丝。Spark jobs 可以不做任何改变即可运行在 Alluxio 上,并能得到极大的性能优化。Alluxio 宣称:“百度使用 Alluxio 可以提高 30 倍多数据处理能力”。
2016-03-06 19:247360
用户头像

发布了 43 篇内容, 共 31.3 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

社招前端一面经典手写面试题集锦

helloworld1024fd

JavaScript 前端

Kubernetes 网络排查骨灰级

CTO技术共享

Java程序员:为了跳槽刷完1000道真题,没想到老板直接给我升职了!

收到请回复

Java 云计算 开源 架构 编程语言

无限道具教程最新版9.17——大熊G

大熊G

羊了个羊

npm,pnpm,yarn,npx的那些事儿

Java-fenn

Java

整理的5种Linux 安装包管理工具

CTO技术共享

腾讯云数据库自研内核全新升级 新架构比原先性能提升20%

Java-fenn

Java

终于懂了,RPC和OpenApi的区别

知识浅谈

RPC OpenAPI 9月月更

羊了个羊”通关修改思路

Java-fenn

Java

边缘计算技术及其安全

阿泽🧸

边缘计算 9月月更

Elasticsearch聚合学习之四:结果排序

程序员欣宸

elasticsearch 9月月更

【C语言】自定义类型(结构体类型+枚举类型+联合体类型)[进阶篇_ 复习专用]

Dream-Y.ocean

c 结构体 9月月更

《Java面试考点大全》全网首发,带你摸熟20+互联网公司的面试考点!

收到请回复

Java 云计算 开源 架构 编程语言

一个不错的开源项目风控引擎(Radar)

Java-fenn

Java

pod(一):Kubernetes(k8s)创建pod的两种方式

Java-fenn

Java

算法、算力、数据,AI落地现在还需要AI工程化

Java-fenn

Java

【MySQL 进阶】事务二

六月暴雪飞梨花

MySQL 事务 9月月更 InnoDB存储引擎

大数据ELK(三):Lucene全文检索库介绍

Lansonli

9月月更 EKL

阿里、字节、美团我都面了,offer也拿到了,全靠这份Java面试题!

收到请回复

Java 云计算 开源 架构 编程语言

从 ABAP Netweaver 到 ABAP Platform,我们一直在努力

汪子熙

SAP abap Netweaver 企业级应用 9月月更

Cryptocell-712安全引擎概述

Java-fenn

Java

第四章 C语言之牛客网刷题📖笔记

Dream-Y.ocean

c 算法 9月月更

COSI:使用 Kubernetes API 管理对象存储

Java-fenn

Java

向量数据库入坑:入门向量数据库 Milvus 的 Docker 工具镜像

Java-fenn

Java

Java进阶(二十三)java中long类型转换为int类型

No Silver Bullet

Java 类型转换 9月月更

MyBatis-Plus(三、增删改查)

MySQL MyBatisPlus 9月月更

Java 多线程:并发编程的三大特性

Java快了!

Java多线程

继GitHub的Copilot收费后,亚马逊推出了 CodeWhisperer,感觉不错哟!

Python猫

Python

高级前端手写面试题

helloworld1024fd

JavaScript 前端

基于.NET6的简单三层管理系统

Java-fenn

Java

MySQL 如何查找删除重复行

CTO技术共享

Spark生态顶级项目汇总_DevOps & 平台工程_侠天_InfoQ精选文章