10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:112202

评论

发布
暂无评论
发现更多内容

【等保知识】过等保单位如何选择备案地?新政策依据是什么?

行云管家

等保 等级保护 等保测评

国产CPU品牌汇总以及作用简单介绍

行云管家

信创 国产化

嘉为蓝鲸 WeOpsV5.22&V4.22 接入大模型:打造 AI 创新运维场景

嘉为蓝鲸

智能运维 #WeOps

webgl技术在3D展示中的应用

北京木奇移动技术有限公司

软件外包公司 webgl技术 3D展示

《算法导论(第4版)》阅读笔记:p134-p155

codists

算法

区块链ETF软件系统的开发

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

智能运维平台 OpsPilot:Jenkins 流水线全链路优化实践

嘉为蓝鲸

智能运维 #WeOps OpsPilot

深入解析:AI 智能体的八个关键概念

测试人

人工智能

宫格导航--纯血鸿蒙组件库AUI

华哥的全栈次元舱

AIGC低代码平台 纯血鸿蒙组件库 宫格导航 AI 极客 免费体验

MCP+A2A协议如何推动AI智能体进化为超级分布式网络

测试人

人工智能 软件测试

案例解读:CST如何直接导入弯折后的PCB

思茂信息

cst CST软件 CST Studio Suite

HarmonyOS运动开发:如何绘制运动速度轨迹

王二蛋和他的张大花

鸿蒙

【融麟科技】WeOps赋能CMDB与自动化管控驱动企业IT资源高效管理!

嘉为蓝鲸

CMDB 智能运维 #WeOps

淘宝天猫店铺商品API接口全方位接入指南

tbapi

淘宝API 天猫API 天猫店铺所有商品接口 淘宝店铺所有商品接口

开源鸿蒙智能手表生态暨新品发布:开启穿戴产业新纪元

极客天地

Amoro + Flink CDC 数据融合入湖新体验

Apache Flink

大数据 flink 实时计算 Flink CDC

备份历史可查 + 元数据留存,助力制品版本追溯与合规审计

嘉为蓝鲸

DevOps 智能运维 制品库

小程序容器技术驱动SuperApp生态重构:前端框架新范式

xuyinyin

Taro on Harmony C-API 版本正式开源

京东零售技术

区块链ETF软件系统的核心功能

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

有哪些类似于jobleap.cn的职业发展相关平台

安全乐谷

求职 找工作 就业 失业

系统人看过来!六大要点助你搞懂进销存系统!

积木链小链

数字化 智能制造 进销存系统

“深时数字地球”国际大科学计划系列工作坊持续开放!专业友好可复现,赋能科学智能生态合作(2)

ModelWhale

科学智能 DDE 深时数字地球 AI4S

SpringBoot性能优化的12个小技巧

电子尖叫食人鱼

spring

大神4000字带你深入Activiti流程引擎,Github标星66.3K!

程序员高级码农

Java 程序员 计算机

客户案例| DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

阿里云大数据AI技术

人工智能 云计算 数据分析 #大数据 Dataworks

【FAQ】HarmonyOS SDK 闭源开放能力 —Account Kit(4)

HarmonyOS SDK

harmoyos

【HarmonyOS 5】多目标产物构建实践

深海的鲸同学 luvi

鸿蒙 HarmonyOS DevEco Studio HarmonyOS SDK应用服务

提供真实场景需求,全球DePIN项目总链上市值已达71亿美元

PowerVerse

区块链ETF软件系统的维护

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

“深时数字地球”国际大科学计划系列工作坊持续开放!专业友好可复现,赋能科学智能生态合作(3)

ModelWhale

科学智能 DDE 深时数字地球 AI4S

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章