【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Spark 生态顶级项目汇总

  • 2016-03-06
  • 本文字数:1203 字

    阅读完需:约 4 分钟

现在 Apache Spark 已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出 5 个使用广泛的第三方项目。

Spark 官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是 Spark 官方给出的生态系统组件(引自 Spark 官方文档)。

  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。
  2. Spark SQL:可以执行 SQL 查询,包括基本的 SQL 语法和 HiveQL 语法。读取的数据源包括 Hive 表、Parquent 文件、JSON 数据、关系数据库(MySQL 等)等。
  3. Spark Streaming:Spark Streaming 是 Spark 核心 API,易扩展、高吞吐量、流式数据容错。
  4. MLlib:Spark 的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。
  5. GraphX:Spark GraphX 是一个分布式图处理框架,基于 Spark 平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。
  6. Spark Core API:Spark 提供多种语言的 API,包括 R、SQL、Python、Scala 和 Java。

除了上述官方的 Spark 组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

  1. Mesos
    Mesos 是开源的资源统一管理和调度平台。抽象物理机的 CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
    Mesos 是 Master/Slave 结构,由 Mesos-master,Mesos-slave,Framework 和 executor 四个组件构成。
    为什么官方选用 Mesos,而不是 Spark standalone 模式或者基于 Yarn 框架?由 Spark 开发者所写的书《Learning Spark》:Mesos 优于其它两个资源框架是因为 Mesos 的细粒度调度,这样可让多用户运行 Spark shell 占有更少的 CPU。
  2. Spark Cassandra Connector
    Cassandra 是一个易扩展、高性能的数据库。 Spark Cassandra Connector 现在是 Spark 和 Cassandra 表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector 库让你读 Cassandra 表就如同 Spark RDD 一样,同样可以写 Spark RDD 到 Cassandra 表,并可以在 Spark 程序中执行 CQL 语句。
  3. Zepellin
    Zepellin 是一个集成 IPythoon notebook 风格的 Spark 应用。Zepellin 可以基于 Spark 和 Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。
    Zepellin 也支持其它语言插件,包括 Scala 和 Spark,Python 和 Spark,SparkSQL,HIve,Markdown 和 Shell。
  4. Spark Job Server
    Spark Job Server 提供 RESTful 接口来提交和管理 Spark jobs,jar 包和 job 上下文。Spark Job Server 提供 Spark 任务相关的运行健康信息。
  5. Alluxio
    Alluxio 是一个分布式内存文件系统,它在减轻 Spark 内存压力的同时,也赋予 Spark 内存快速读写海量数据的能力。Alluxio 以前叫做 Tachyon,即钨丝。Spark jobs 可以不做任何改变即可运行在 Alluxio 上,并能得到极大的性能优化。Alluxio 宣称:“百度使用 Alluxio 可以提高 30 倍多数据处理能力”。
2016-03-06 19:246656
用户头像

发布了 43 篇内容, 共 27.7 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

机器学习之PyTorch和Scikit-Learn第3章 使用Scikit-Learn的机器学习分类器之旅Part 1

Alan

人工智能 机器学习 PyTorch scikit-learn

基础设施SIG月度动态:龙蜥官网新增CSDN第三方账号登录,内核CI新增测试任务停止功能

OpenAnolis小助手

开源 基础设施 内核 abs 龙蜥sig

10大功能特性,助力开发者玩转华为云API Explorer

华为云PaaS服务小智

API 华为云 华为开发者大会2023

手把手教你落地大模型应用创意!全新AI达人创造营限时招募

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

ES 数据太敏感不让看,怎么办?

极限实验室

ES hash 数据脱敏; 敏感数据 正则脱敏

保险企业如何做好数据安全合规与敏感数据保护

原点安全

数据安全 保险科技 敏感信息 敏感数据保护 个保

火山引擎 DataLeap 构建Data Catalog系统的实践(三):关键技术与总结

字节跳动数据平台

企业号 7 月 PK 榜

袋鼠云产品功能更新报告06期|数栈产品功能升级,做产品我们是认真的!

袋鼠云数栈

大数据 产品 数据中台

如何写好代码

阿里技术

代码 如何写好代码

[低代码平台、国产化]基于JPA的简易伪低代码模块

alexgaoyh

jpa 国产化 低代码开发平台 QUERYDS 动态列搜索

达观曹植大模型正式对外公测!专注于长文本、多语言、垂直化发展

NLP资深玩家

大模型 达观数据 曹植大语言模型

【会议】《卧龙:苍天陨落》制作人山际真晃与总监平山正和将联袂出席 2023 中国游戏开发者大会(CGDC)

CGDC中国游戏开发者大会

设计 开发 游戏开发 ChinaJoy

一文帮你搞定H5、小程序、Taro长列表曝光埋点 | 京东云技术团队

京东科技开发者

小程序 taro 前端 曝光埋点 企业号 7 月 PK 榜

如何有效检测、识别和管理 Terraform 配置漂移?

SEAL安全

Web前端常用的组态软件工具(可视化)

2D3D前端可视化开发

JavaScript web前端 组态软件 前端可视化 组态工具

长达 1.7 万字的 explain 关键字指南!

不在线第一只蜗牛

sql 关键字 教程

Netty入门之可写事件以及多线程版的通信

派大星

如何用java校验SQL语句的合法性?(提供五种解决方案)

EquatorCoco

Java 教程 SQL语句

1W+规则,20W+字段,某城商行数据分类分级有多卷?

极盾科技

数据安全 数据分类分级

Spark生态顶级项目汇总_DevOps & 平台工程_侠天_InfoQ精选文章