Apache Spark 1.3发布，新增Data Frames API，改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun

【AICon】如何构建高效的 RAG 系统？RAG 技术在实际应用中遇到的挑战及应对策略？>>> 了解详情 



 写点什么

Apache Spark 项目刚刚发布了1.3 版本。该版本主要的功能改进包括新增DataFrames API，更加成熟的Spark SQL，机器学习库MLlib 中新增的大量方法以及更好地整合Spark Streaming 与Apache Kafka。

这一版本主要的功能改进之一就是新增的 DataFrames API 。效仿同名的 R 语言数据结构，其目标是为列表数据处理提供更好的支持。每个 DataFrame 包含一个表，该表中包含带有类型和名称的列，此外，DataFrame 还提供与 SQL 中的查询类似的过滤、分组或计算聚合等操作。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 结合紧密。可以通过 SQL 查询结果集或 RDD 构建 DataFrames，也可以从 Parquet 格式的文件中加载 DataFrames。目前来说，Spark 中主流的分布式数据集合类型是 RDD（弹性分布式数据集），不过 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 一部分的机器学习库 Spark MLlib 新增了大量的学习算法，如用于识别文档中的主题并根据主题对文档进行聚类的概率统计方法——隐含狄利克雷分布（ Latent Dirichlet Allocation ），或用于多级预测任务的多项式逻辑斯蒂回归（ multinomial logistic regression ）。此外实现了对分布式线性代数的初步支持，其中矩阵块是以分布式的方式存储的。这一功能对更多复杂数据分析的任务来说非常有意义，例如矩阵因子分解由于矩阵过大而经常会出现无法装载到主内存中的情况。

在这些算法之上，Spark 还为数据分析增加了更高级的功能，如导入导出已掌握的预测模型以及在 1.2 版本中引入的以高级方式指定数据传输管道的 Pipeline API 。在数据科学中，这种管道经常用于从原始数据中提取相关特征。

此外，Spark 已经直接与 Apache Kafka 集成，可以接入实时事件数据。

Apache Spark 最初于 2009 年源自 UC Berkeley AMPLab。Spark 可以独立运行，也可以运行在已经安装的 Hadoop 之上，并提供比原始 Hadoop 中的 MapReduce 处理模型更大的操作集合。Spark 会尽可能的将数据保留在内存中，与更加依赖磁盘的 MapReduce 相比，在性能上有进一步的提升。另外，通过将数据采集到缓存中然后定期小批量地进行处理，Spark 可以接近实时地完成事件数据处理。与 Spark 类似的项目还有包含类似功能集合及查询优化和持续流数据处理引擎的 Apache Flink ，以及运行于 MapReduce 处理模型之上，并提供类似的高级操作集合的 Cascading 和 Scalding 。

查看英文原文： Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
北京 · QCon全球软件开发大会 2024.4.18-20
北京 · AICon 全球人工智能与大模型应用峰会 2024.5.17-18
深圳 · ArchSummit全球架构师峰会 2024.6.14-15
上海 · FCon全球金融科技大会 2024.8.16-17
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景

Apache Spark 1.3 发布，新增 Data Frames API，改进 Spark SQL 和 MLlib

评论

【盲盒APP】开发功能版块及功能介绍

使用 TensorFlow 和 Express.js 实现AI图像识别

Squarespace 和 WordPress 的区别

《WebRTC源码深入剖析》总结

数据库每日一题---第3天：大的国家

学生管理系统架构文档

Fabric.js 居中元素 🎗️

Kubernetes社区发行版:开源容器云OpenShift Origin(OKD)认知

C#入门系列(五) -- 运算符

关于 SAP Commerce Cloud 的 Sample Setup Github 仓库

模块3作业（外包学生管理系统架构文档）

Linux驱动开发_数码相册项目、360WIFI驱动移植介绍

Flink 通过 State Processor API 实现状态的读取和写入

700行无用纯 CSS 祝考生金榜高粽《1_bit 的无用 CSS 代码》

支付系统安全设计思维导图

【LeetCode】数组中第 K 个独一无二的字符串Java题解

Web Service进阶(三)HTTP-GET, HTTP-POST and SOAP的比较

区块链mass哈希競猜dapp游戏开发源代码（多游戏）

等你加入｜建木开源社区团队成员招募

Web Service进阶(一)运行原理

以购物清单为例讲述 Redux 的状态如何在 Flutter 多个组件间共享

【Spring 学习笔记(四)】Spring Bean 集合注入和自动装配

LabVIEW控制Arduino采集多路模拟量、数字量（进阶篇—1）

Flink on yarn 远程调试源码

抖音大举进军电商领域：这步棋应该如何下

【腾讯云代码分析】五月上新+新功能前瞻

JavaScript迭代器

Sentinel与OpenFeign 服务熔断那些事

java构造器（构造方法、构造函数）

Python环境搭建

外包学生管理系统

创作场景

Apache Spark 1.3 发布，新增 Data Frames API，改进 Spark SQL 和 MLlib

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载