Apache Spark发布1.3版本，引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章



 写点什么

登录/注册

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API，更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外，新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模，目的是为列表数据提供更好的支持。DataFrame 包含一张表，表中的列是有类型和命名的，可以提供过滤、分组或计算聚集等操作，类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集，或者从 Parquet 格式的文件中加载。到目前为止，RDDS（弹性分布式数据集）是 Spark 中主要的分布式数据采集类型，但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分，机器学习库 Spark MLlib 已经实现了一些新的的学习算法，例如隐含狄利克雷分布，这是一种确定文件主题、聚集相关文件的概率方法；又如多项逻辑递归，用于多类预测任务。MLlib 开始部分支持分布式线性代数，包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的，包括矩阵分解，这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上，Spark 还增加了更高级功能，为数据分析，增加导入和导出学习过的预测模型，还有在1.2 版本引入的管道API ，使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外，Spark 现在已经与 Apache Kafka 直接集成，可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年，源自加州大学伯克利分校的 AMPLab。它可以独立运行，或者安装在现有的 Hadoop 上运行，它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据，因此相对于主要基于磁盘的 MapReduce，它的性能得到了进一步改进。另外，通过收集缓冲区中的数据，然后周期性地处理这些小型的批处理，Spark 具备了处理接近实时的事件数据的能力。在类似的项目中， Apache Flink 不但有类似的功能集合，还包括查询优化和连续数据流处理引擎， Cascading 和 Scalding 项目，提供了一组类似的高级操作，但运行在 MapReduce 处理模型之上。

查看英文原文： Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements

感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流。

评论

发布

暂无评论

数字馆藏电子商务平台开发：如何发展数字藏品？

开源直播系统源码

软件开发区块链技术 NFT 数字藏品数字藏品开发

倒计时1天！计算巢软件免费试用中心发布，即刻报名！

阿里云弹性计算

计算巢试用中心

如何学习一项新技术？

Go-Excelize API源码阅读（二十）——SetDefinedName

Go 开源源码阅读 8月日更 8月月更

云原生（二十五） | Kubernetes篇之Kubernetes（k8s）临时存储

云原生 k8s 8月月更

精细化资产管理

IT资讯搬运工

数字化转型别着急，先看看如何打通数据孤岛吧

数字化转型打通数据孤岛

Http缓存原来如此,牛波牛波

HTTP缓存 8月月更

开源一夏 | Python 并发编程之死锁

宇宙之一粟

Python 开源并发编程死锁 8月月更

Dockerfile 定制专属镜像

CTO技术共享

开源一夏 | Python 对象的序列和反序列化

宇宙之一粟

Python 开源序列化 8月月更

未来，人人都是创造者

开源未来技术趋势 8月月更

Java并发面试常见考点

Java 面试线程并发 8月月更

Docker 已运行端口映射怎么破

CTO技术共享

Docker下Prometheus和Grafana三部曲之二：细说Docker编排

程序员欣宸

Grafana Prometheus 8月月更

解决在 Spring Boot 中运行 JUnit 测试遇到的 NoSuchMethodError 错误

开源一夏 | Qiankun框架对于微前端的解耦和沙盒与实战探索心得

恒山其若陋兮

开源 8月月更

【CSS】字体样式，包括字体系列、大小、修饰、粗细、简写...

CSS 编程语言 8月月更

Linux 黑客命令装逼小助手

CTO技术共享

leetcode 594. Longest Harmonious Subsequence 最长和谐子序列(简单).md

LeetCode 算法与数据结构

【Java·访问修饰符】：default、public、protected、private

Java 学习编程语言 8月月更

iofod——WeUI基础组件解析

前端低代码开发工具 weui iofod

《合成大西瓜》重制版！（联机版在做了）

CSS JavaScript html 前端 8月月更

java的可变参数

用两个栈实现队列

掘金安东尼

算法前端 8月月更

基于SpringBoot的SSMP整合

SpringBoot 2 Mybatis-Plus 8月月更

豆瓣 TOP3 的 Python 书，千万别错过

【数据结构实践】手把手带你实现 Python 自定义数组

开源数据结构面向对象数组操作 8月月更

【JavaScript】：有关js类型转换的那些事...

JavaScript 编程语言、 8月月更学习分享

Linux热潮下，来呆猫云工作站玩转云上部署Linux工作流新思路

面试中常用消息中间件对比

kafka RocketMQ 消息中间件 Rabbit MQ 8月月更