写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:112130

评论

发布
暂无评论
发现更多内容

是什么奠定了架构师的职场地位?

刁架构

极客大学架构师训练营

程序猿邂逅相亲妹,默默无语两行泪

码农神说

程序员 相亲

云上基础产品之对象存储

韩超

对象存储 公有云 S3

直面一个复杂世界

史方远

读书笔记 个人成长 随笔杂谈

Prometheus 2.18.0 新特性

耳东@Erdong

Prometheus

Go: 使用GODEBUG改善Goroutine的使用

陈思敏捷

debug 协程 Go 语言

云上基础产品之虚拟私有云

韩超

公有云 VPC 虚拟私有云

一款霸榜 GitHub 的开源 Linux 资源监视器!

JackTian

GitHub Linux 开源 bashtop 资源监视器

你想活出怎样的人生

Janenesome

读书笔记 思考

N皇后问题

孙苏勇

算法 DFS 深度优先搜索

用大数据分析了一线城市1000多份岗位招聘需求,告诉你如何科学找工作

程序员柠檬

Python 数据分析

JMM的前世今生

fkc_zyk

重排序 volatile happens-before JMM cpu

云上基础产品之内容分发网络

韩超

CDN 公有云 内容分发网络

关于 Windows 10 2020 年 5 月更新

FeiLong

架构之路

强哥

极客大学架构师训练营

带你学够浪:Go语言基础系列 - 8分钟学基础语法

程序员柠檬

程序员 后台开发 Go 语言

谈谈控制感(12):选择什么样的工作

史方远

读书笔记 个人成长 随笔杂谈

Python 进阶与核心技术 dict & set

Bonaparte

Python 极客时间

【摘】Git-从零单排 02期

卡尔

git 原理 开发工具 工具链

戒掉手机吧

鼎玉谷

人生 手机 时间 浪费 控制

带你学够浪:Go语言基础系列-环境配置和 Hello world

程序员柠檬

后台开发 Go 语言

ARTS|Week 01 (2020第22周)

MiracleWong

算法 写作 ARTS 打卡计划

浅说Docker基础知识与核心原理

岿然独存5

Docker 软件 Go 语言

RocketMQ - 如何实现事务消息

Java收录阁

RocketMQ

程序员的晚餐 | 5 月 30 日 入梅天,来一盆小龙虾

清远

美食

云上基础产品之负载均衡

韩超

负载均衡 公有云

工作那么久,你还具备学习能力么?

punkboy

学习 程序员

除了直接看余额,谁更有钱还能怎么比(二)

石君

去中心 零知识证明

ARTS Week2

丽子

遇事不决,请先 「搜索」

小匚

个人成长 职场 随笔杂谈

Linux命令-df

一周思进

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章