写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:112280

评论

发布
暂无评论
发现更多内容

Mac GIT客户端 SourceTree激活码 免登陆版

Rose

七牛云与 openEuler 完成兼容互认证

七牛云

产品经理如何做好产品和需求管理

易成研发中心

产品经理 需求管理 需求管理工具

探索淘宝天猫API接口:揭秘商品详情与评论的深度获取

代码忍者

API 接口 pinduoduo API

AI浪潮下,从英伟达GPU看全球芯片市场能否撬动黄金和石油的传统地位?

GPU算力

gpu 芯片 英特尔 GPU 集群 gpu 算力

mac电池健康守护者:coconutBattery Plus,精准监控您的设备电量!

Rose

智慧厕所系统的核心特点、应用场景和未来趋势

光明源智慧厕所

智慧厕所系统,现代化便民服务的新标杆

光明源智慧厕所

质量度量落地的注意事项和思考

老张

软件测试 质量保障 质量度量

打造梦想花园,Garden Planner助你一臂之力!

Rose

测试外包服务 | 从人员外包到测试工具、测试平台,提供全方位的测试解决方案~

测吧(北京)科技有限公司

测试

优化数据库管理,Navicat for MySQL助你一臂之力

Rose

精益研发管理:如何用工具助力制造业IPD

axe

敏捷 精益 IPD 制造业 项目管理工具

杰邦网络-安徽芜湖联通DC安全基地:网络安全的坚固堡垒,为企业发展保驾护航

江湖老铁

七牛云荣登 36 氪「WISE2024 商业之王年度最具商业价值企业」榜单

七牛云

CAD建模软件BricsCAD 24:性能升级,设计无界

Rose

2024“创客中国”国际中小企业创新创业大赛决赛即将在南沙开启→

新消费日报

KAG 技术与实践分享|基于 KAG 框架自主完成领域图谱构建和知识问答

可信AI进展

StarRocks存算分离在得物的降本增效实践

得物技术

数据库 开源 后端 OLAP

AutoCAD 2019中文版(附cad2019安装教程图解)

Rose

一文详解阿里云可观测体系下标签最佳实践

阿里巴巴云原生

阿里云 云原生 可观测

淘宝天猫API接口:关键字搜索商品列表与详情图的创新应用

代码忍者

API 接口 pinduoduo API

XLD音频无损解码 X Lossless Decoder for mac中文直装版

Rose

AI工具百宝箱|GenFM on ElevenReader,支持32种语言的AI播客,等你来体验

可信AI进展

突破传统开发瓶颈:AI赋能下的低代码平台如何助力业务创新?

天津汇柏科技有限公司

低代码平台 AI 人工智能

KG+RAG 系列范式对比及 KAG 框架再思考:兼看大模型增强 KBQA 问答竞赛方案

可信AI进展

Sketch中文版 v101是一款专为设计师打造的矢量绘图设计工具

Rose

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章