NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Spark 从 Apache 孵化器正式毕业

  • 2014-03-11
  • 本文字数:889 字

    阅读完需:约 3 分钟

近日,Spark 从 Apache 孵化器毕业。Spark 声称,与Apache Hadoop 相比,它在内存数据集上的性能提升了高达100 倍,而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来,Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言,它可以将自身的 DSL SQL 相结合。Spark 的基本 API 是一种 Scala DSL,围绕名为弹性分布式数据集( RDD )的分布式项集合构建。利用分布式执行,RDD 可以支持批量和聚集操作,如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用,共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能,而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API,允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外,R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark 可以部署在Apache YARN 上,易于与异构系统集成和共存。它还是由 Cloudera Databricks 支持的 Cloudera 企业数据中心版的一部分,其中 Databricks 是 Spark 商业化的推动者。最后, Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文:**** Spark Officially Graduates From Apache Incubator

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-03-11 05:483742
用户头像

发布了 256 篇内容, 共 81.8 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

穷人也能建个人博客了——阿里云函数计算体验

KAMI

阿里云 云服务 Faas WordPress

坚持新媒体写作第21天了,聊聊我为什么喜欢写作

老胡爱分享

学习 写作 习惯养成 坚持 随笔杂谈 讨论写作

架构师训练营第八周作业

叶鹏

从零开始搭建完整的电影全栈系统(五)——WEB网站、Api以及爬虫的部署

刘强西

爬虫 网站搭建 部署与维护

Spring 5 中文解析数据存储篇-编程式事物管理

青年IT男

Spring5

用户密码验证函数

叶鹏

关于Java调用类的main方法

谷鱼

Java 包位置

Springboot 定时任务

hepingfly

定时任务 springboot 注解

阿里面试,让我说说ThreadLocal,我一口气说了四种

java金融

Java 多线程 ThreadLocal

微服务的框架(Dubbo)架构

叶鹏

简述 CAP 原理

叶鹏

常用设计模式

叶鹏

架构师训练营12周作业

叶鹏

ECMAScript 6新特性简介

程序那些事

nodejs ES6 ECMAScript 6

HashMap的7种循环姿势你都掌握了吗?

java金融

hashmap 循环效率 JDK1.8

【性能优化】面试官:Java中的对象都是在堆上分配的吗?

冰河

面试 性能优化 JVM 性能调优 逃逸分析

两天,我把分布式事务搞完了

yes

分布式事务 seata

一个草根的日常杂碎(9月21日)

刘新吾

生活 现实纪录 随笔

Python 中 \x00 和空字符串的区别,以及在 Django 中的坑

AlwaysBeta

Python django 编程

食堂卡就餐卡系统

叶鹏

一文学懂递归和动态规划!

小齐本齐

算法 数据结构和算法

前端如何优雅处理类数组对象?

pingan8787

Java 大前端

Spring 5 中文解析数据存储篇-@Transactional使用

青年IT男

spring

简述JVM垃圾回收

叶鹏

架构师训练营第四周作业

叶鹏

小白理财先转变思维理念

boshi

理财 收入 财富自由

高难度对话读书笔记—情绪篇

wo是一棵草

架构师第1课作业及学习总结

小诗

架构师训练营第7周作业

叶鹏

被我玩坏的git:除了之前的工作、当网盘用,还能这么玩

小Q

Java git 程序员 架构 开发

oeasy 教您玩转linux 010304 图形界面 xfce

o

Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章