写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:112254

评论

发布
暂无评论
发现更多内容

文献解读-多组学-第十七期|《基于多组学分析和综合模型的三阴性乳腺癌腋窝淋巴结转移预测》

INSVAST

基因数据分析 生信服务 多组学

中国标网正式公布BizDevSecOps能力成熟度模型标准,嘉为科技参编

嘉为蓝鲸

DevOps BizDevOps

客户在哪儿AI告诉你,与什么样的平台合作才是ToB企业的最优选

客户在哪儿AI

ToB营销 ToB获客 ToB增长 ToB企业

客户在哪儿AI:新媒体时代ToB企业做传播该如何选择媒体

客户在哪儿AI

内容营销 ToB营销 ToB获客 ToB增长

教你基于MindSpore用DCGAN生成漫画头像

华为云开发者联盟

人工智能 模型训练 华为云 华为云开发者联盟 企业号2024年7月PK榜

透视开源生态,OSGraph——GitHub全域数据图谱的智能洞察工具

汀丶人工智能

人工智能

软件测试学习笔记丨Allure2报告中添加附件-html

测试人

软件测试 测试开发

数据为王!深度挖掘天猫商品详情接口,赋能电商运营新策略

tbapi

天猫 天猫商品详情数据接口 天猫API接口 天猫商品数据采集

ITSM流程落地经验之请求管理

嘉为蓝鲸

ITSM 流程管理 请求管理

客户在哪儿AI助力ToB销售精准混圈子

客户在哪儿AI

ToB营销 ToB获客 ToB增长 ToB销售 大客户销售

《第一章、HarmonyOS介绍》01-HarmonyOS简介

清风论

华为 前端 HarmonyOS 鸿蒙开发

成功登上主要中心化交易所 (CEX) 的终极指南:从准备到上市的全面策略

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

基于51单片机设计的红外遥控器

DS小龙哥

7月月更

嘉为蓝鲸WeOps智能化模块:专属于运维的智能助手正式面世!

嘉为蓝鲸

运维 大模型 weops

企业的分层运维对象监控指标体系建设

嘉为蓝鲸

可观测 指标管理 指标建设

开通GPT4.0、GPT-4o的方法,门槛超低,三分钟学会

蓉蓉

GPT-4 gpt4o

优画质低功耗,空域GPU超分技术引领图像渲染新体验

HarmonyOS SDK

HarmonyOS

自媒体时代ToB企业该选哪些媒体做传播?

客户在哪儿AI

内容营销 ToB营销 ToB增长

Sentieon快速入门指南

INSVAST

软件 基因数据分析 生信服务

证券行业采购堡垒机的六大必要性看这里!

行云管家

网络安全 金融 证券 数据安全 堡垒机

24年开封有资质等保机构叫什么名字?电话多少?

行云管家

等保 等保测评 开封

AI 应用实战营 - 作业 四 - 文生图

德拉古蒂洛维奇

重磅来袭!MoneyPrinterPlus一键发布短视频到视频号,抖音,快手,小红书上线了

程序那些事

工具 程序那些事 AIGC

精简库存,避免售罄 零售商常见错误及策略

第七在线

【论文速读】| 用于安全漏洞防范的人工智能技术

云起无垠

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章