生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

Spark 从 Apache 孵化器正式毕业

  • 2014-03-11
  • 本文字数:889 字

    阅读完需:约 3 分钟

近日,Spark 从 Apache 孵化器毕业。Spark 声称,与Apache Hadoop 相比,它在内存数据集上的性能提升了高达100 倍,而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来,Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言,它可以将自身的 DSL SQL 相结合。Spark 的基本 API 是一种 Scala DSL,围绕名为弹性分布式数据集( RDD )的分布式项集合构建。利用分布式执行,RDD 可以支持批量和聚集操作,如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用,共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能,而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API,允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外,R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark 可以部署在Apache YARN 上,易于与异构系统集成和共存。它还是由 Cloudera Databricks 支持的 Cloudera 企业数据中心版的一部分,其中 Databricks 是 Spark 商业化的推动者。最后, Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文:**** Spark Officially Graduates From Apache Incubator

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-03-11 05:483738
用户头像

发布了 256 篇内容, 共 81.4 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

用友陈强兵:企业数智化进入“加速期”

ToB行业头条

Redis开源协议调整,我们怎么办?

华为云PaaS服务小智

redis 华为云

Topaz Video AI 下载 Mac电脑视频修复增强工具

iMac小白

base链市值机器人

区块链技术

科技改变财务规划:提升企业对自动化技术的管理

智达方通

企业管理 财务分析 财务规划与分析

玩转云端| AccessOne实用窍门之三步搞定门户网站防护与加速

天翼云开发者社区

云计算 网络安全 云服务

上云有道 | 一图读懂天翼云边缘安全加速平台AccessOne!

天翼云开发者社区

边缘计算 云服务 云平台 边缘安全

揭秘高级控件技巧:让您的App与众不同

测试人

软件测试

Mac全面战争:罗马重制版 Total War ROME REMASTERED 2.0.5中文版

iMac小白

了解 Websocket 断连技巧:易懂的实战指导

Apifox

程序员 后端 网络协议 websocket 网络通信

为什么选择霍格沃兹测试开发学社Python全栈开发与测试班?

霍格沃兹测试开发学社

Flink Checkpoint 机制深度解析:原理、注意事项与最佳实践

木南曌

flink 实时计算

探索GaussDB(DWS)湖仓融合:Hudi与元数据打通的深度解析

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

测试要失业了?

禅道项目管理

团队管理 软件测试 测试 项目管理软件

吴晓波频道:构建知识付费领域的数据飞轮

字节跳动数据平台

大数据 企业号2024年4月PK榜 #数据飞轮

Studies for Mac 1.8.7激活版 学习卡工具

iMac小白

Studies for Mac下载 Studies for Mac激活版

xz工具供应链后门事件 紧急处理

徐凌云

玩转云端| 如何防爬虫?天翼云边缘安全加速平台AccessOne带你涨姿势!

天翼云开发者社区

云计算 网络安全 云服务 云平台

制造业工厂为什么需要生产管理MES系统

万界星空科技

制造业 智能制造 mes 万界星空科技

实例演示如何使用CCE XGPU虚拟化

华为云开发者联盟

开发 华为云 华为云开发者联盟 华为云CCE 企业号2024年4月PK榜

SpringBoot多环境配置

EquatorCoco

Java 数据库 Spring Boot

揭秘高级控件技巧:让您的App与众不同

测吧(北京)科技有限公司

测试

又双叒叕获奖!天翼云推动算力服务便捷普惠泛在!

天翼云开发者社区

云计算 网络安全 云服务

MegaSeg Pro for Mac v6.3.1注册激活版 音视频DJ混音工具

iMac小白

Valentina Studio Pro for Mac v13.9.1激活版 专业数据库管理软件

iMac小白

NFTScan | 03.25~03.31 NFT 市场热点汇总

NFT Research

NFT\ NFTScan nft工具

飞天发布时刻丨阿里云 ApsaraMQ 全面升级,携手 Confluent 发布全新产品

阿里巴巴云原生

阿里云 云原生 Confluent ApsaraMQ

企业号 4月 PK 榜,火热开启!

极客时间

热门活动 企业号 4 月 PK 榜

「天工大模型3.0」将于4月17日发布 同步开源4000亿参数MoE超级模型

新消费日报

App自动化测试:高级控件交互方法

霍格沃兹测试开发学社

离散型工厂生产制造MES管理系统解决方案

万界星空科技

数字化 制造业 mes 万界星空科技 离散型制造业

Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章