Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章

AICon 上海站｜日程100%上线，解锁Al未来！了解详情 



 写点什么

登录/注册

近日，Spark 从 Apache 孵化器毕业。Spark 声称，与Apache Hadoop 相比，它在内存数据集上的性能提升了高达100 倍，而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来，Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言，它可以将自身的 DSL 与 SQL 相结合。Spark 的基本 API 是一种 Scala DSL，围绕名为弹性分布式数据集（ RDD ）的分布式项集合构建。利用分布式执行，RDD 可以支持批量和聚集操作，如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用，共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法，涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统，旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统，并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似，并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现，后者结合了数据并行和“图并行（graph-parallel）”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能，而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API，允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外，R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题，但有限制，它只对像梯度下降法这种本来就并行的算法才有效。

Spark 可以部署在Apache YARN 上，易于与异构系统集成和共存。它还是由 Cloudera 和 Databricks 支持的 Cloudera 企业数据中心版的一部分，其中 Databricks 是 Spark 商业化的推动者。最后， Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文：**** Spark Officially Graduates From Apache Incubator

评论

发布

暂无评论

缩容 TiKV 原理及常见问题

TiDB 社区干货传送门

集群管理扩/缩容 7.x 实践

【喜讯】数业智能当选“广东省卫生信息网络协会”理事单位

心大陆多智能体

智能体 AI大模型心理健康数字心理

从Oracle到TiDB，全链路数据迁移平台核心能力和杭州银行迁移实践

TiDB 社区干货传送门

TiKV 副本搬迁原理及常见问题

TiDB 社区干货传送门

扩/缩容 7.x 实践

国产RPA软件的优势：企业数字化转型中的关键作用详解

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

KubeCon China 2024全球大会在香港举行，京东云受邀参加探讨云原生、开源及 AI

京东科技开发者

TiKV Raft 快照全流程丨TiKV 源码解读（二十二）

TiDB 社区干货传送门

RPA机器人流程自动化的5个必知关键点

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

RPA技术：基本概念和应用场景的全面指南

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

分布式数据库系统环境的“无感”升级

TiDB 社区干货传送门

聊聊TiCDC

TiDB 社区干货传送门

京东小程序折叠屏适配探索

京东科技开发者

扩容过程中 PD 生成调度的原理及常见问题

TiDB 社区干货传送门

监控故障排查/诊断扩/缩容 7.x 实践

唐刘：当 SaaS 爱上 TiDB（一）- 行业挑战与 TiDB 的应对之道

TiDB 社区干货传送门

基于资源管控+TiCDC实现多业务融合容灾测试

TiDB 社区干货传送门

实践案例 7.x 实践

脉讯在线：核心TiDB 从 5.4 升级到 7.1 集群 CDC 性能翻倍

TiDB 社区干货传送门

实践案例版本升级性能测评

SHOPLINE x TiDB丨集群成本降低 50%！跨境电商 SHOPLINE 交易、商品管理等核心业务的数据库升级之路

TiDB 社区干货传送门

竞技世界 x TiDB丨注册用户超 5 亿，大规模数据及高并发场景下分布式数据库从 1 到 N 的演进

TiDB 社区干货传送门

RPA行业发展前景：2023-2026年5大预测

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

Elasticsearch 8 RAG 技术分享

阿里云大数据AI技术

人工智能 elasticsearch 数据仓库数据分析

亿玛科技：TiDB 6.1.5 升级到 7.5.1 经验分享

TiDB 社区干货传送门

版本升级 7.x 实践

作业帮 & TiDB 7.5.x 使用经验

TiDB 社区干货传送门

金融企业区域集中库的设计构想和测试验证

TiDB 社区干货传送门

一起单测引起的项目加载失败惨案

京东科技开发者

关于 TiDB 升级后结果不一致问题

TiDB 社区干货传送门

管理与运维故障排查/诊断新版本/特性解读应用适配 6.x 实践

社区版 2024.8 | CloudQuery社区版取消可创建用户数限制！！

BinTools图尔兹

数据脱敏数据库管控数据库安全 CloudQuery

Apache Paimon V0.9最新进展

大数据 flink 实时计算湖仓一体 paimon

杭州百腾教育科技 TiDB 6.5 to 7.5 升级记录

TiDB 社区干货传送门

版本升级 7.x 实践

Titan 引擎：通过从 LSM-Tree 中分离大值，实现 6 倍的写入性能的提升

TiDB 社区干货传送门

TiDB 扩缩容原理及常见问题

TiDB 社区干货传送门

管理与运维故障排查/诊断扩/缩容 TiKV 底层架构 7.x 实践