Linux 之父出席、干货分享、圆桌讨论,精彩尽在 OpenCloudOS 社区开放日,报名戳 了解详情
写点什么

Spark 1.2 版本发布: MLlib 支持工作流,SQL 支持源数据筛选

  • 2014 年 12 月 24 日
  • 本文字数:1282 字

    阅读完需:约 4 分钟

12 月 18 日,Spark 宣布发布 1.2 版本,和以往发布的版本相比,1.2 版本算得上是最大的一次改进,代码来自 172 个开发者的多达一千次提交。更新内容涵盖核心性能改进、MLlib 的新 API、Streaming 的 H/A 模式、GraphX 相关等等。更多细节可以在下载页查看。在本次的发布中,主要改进包括下面几个方面:

  • Spark Core:对操作和性能方面做了改进,更新了两个主要的子系统,来针对大规模 shuffle 的情况。第一个改进的是通信管理系统,升级使用了基于 Netty 的实现。第二个改进是 shuffle 的机制,升级使用了基于 sort 的实现。这两个改进,都对大规模 shuffle 情况下的性能和稳定性做出了贡献。除此之外,Spark 还增加了一个弹性机制,用于增强那些长时间运行的 ETL 任务对集群的利用率。目前这种机制在 YARN 上已经支持了,后续版本发布的时候应该会覆盖到其他管理平台。最后,核心功能还添加了对 Scala 2.11 版本的支持。
  • Spark Streaming:本次升级对 Streaming 部分来讲包括了两个主要特性,一个是 Python 的 API,可以调用 DStream 和输出操作几乎全部的功能。目前输入来源支持文本文件和 socket 传递过来的文本。预计下一个版本发布的时候会添加 Kafka 和 Flume 的输入支持。另一个是 WAL(write ahead log)机制下的全 H/A 模式,在此之前的版本,如果硬盘出了问题,一些尚在缓存区还没有来得及被处理的数据会丢失,该改进可以有效地防止硬盘出问题时的数据丢失问题。
  • MLLib:最大的改进应该是发布了称为 spark.ml 的机器学习工具包,支持了 pipeline 的学习模式,即多个算法可以用不同参数以流水线的形式运行。在工业界的机器学习应用部署过程中,pipeline 的工作模式是很常见的。新的 ML 工具包使用 Spark 的 SchemaRDD 来表示机器学习的数据集合,提供了 Spark SQL 直接访问的接口。此外,在机器学习的算法方面,增加了两个基于树的方法,随机森林和梯度增强树。
  • Spark SQL:增加了对外部数据来源的支持。可以将外部数据来源作为临时表挂在的文件系统之中,减少了全部加载数据过来的种种纠结。为了做到这一点,Spark 重写了 Parquet 和 JSON 绑定。后续应该会有更多的对其他系统和数据格式的支持发布出来。此外,对于 Hive 的支持也增加了定点数类型以及动态划分的插入。
  • GraphX:终于在这个版本里,Spark 将 GraphX 从一个 alpha 初级开发版本更换到了稳定版本。这意味着目前用 GraphX 开发的代码将来移植到 Spark 新版本的时候,也不用做太多的代码改动了。另外 mapReduceTriplet 接口被新的 aggreateMessages 替换。
  • 其他细节升级包括 PySpark 支持大数据集、一些 UI 上的改动以及可以读取二进制图像等内容。

12 月 16 日的 Spark 的社区聚会上,作者 Andrew 和 Aaron Davidson 向前来的热心开发者详细讲解了此次升级的情况(Youtube 视频)。另外,明年1 月13 日,Databricks 的Patrick Wendell 也会以Webcast 的形式来分享Spark 1.2 的更多细节


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014 年 12 月 24 日 07:512356
用户头像

发布了 268 篇内容, 共 108.5 次阅读, 收获喜欢 23 次。

关注

评论

发布
暂无评论
发现更多内容

2021年一起努力应对互联网寒冬吧,字节跳动Java高级工程师

Java 面试 后端

IT运维和自动化运维以及运维开发有啥不同?能解释下吗?

行云管家

互联网 运维 IT运维 自动化运维 云运维

2021年Java面经分享,程序员必备技能:时间复杂度与空间复杂度的计算

Java 面试 后端

2021年华为Java面试真题解析,大厂面试必问

Java 面试 后端

2021年抓住金三银四涨薪好时机,腾讯Java社招面试流程

Java 面试 后端

阿里巴巴首发:Java核心框架指导手册,1小时点击量破千万!

Java 程序员 架构 面试 计算机

2021年京东Java岗面试必问,我在华为做Java外包的真实经历

Java 面试 后端

2021年大厂Java高级面试题分享,程序员Java基础入门

Java 面试 后端

设计 | ClickHouse 分布式表实现数据同步

RadonDB

数据库 Clickhouse

好看视频Android重构——围绕于播放器的重构实践

百度Geek说

性能优化 大前端 好看视频 播放器

2021年互联网大厂Java笔经,Java自学宝典电子书下载

Java 面试 后端

2021年你与字节跳动只差这份笔记,大神码了2000页Spring全家桶笔记

Java 面试 后端

2021年Java高级面试题总结,2021最新大厂高频微服务面试总结

Java 面试 后端

2021年一起努力应对互联网寒冬吧,Java程序员面试笔试宝典答案

Java 面试 后端

2021年哔哩哔哩Java高级面试题及答案,大牛手把手教你

Java 面试 后端

一个简单的产品分析模型

石云升

产品经理 产品思维 9月日更 产品分析

2021年春招Java面试题,大厂Java核心面试题出炉

Java 面试 后端

2021年是意义非凡的一年,2021阿里+头条+腾讯等大厂Java笔试题分享

Java 面试 后端

2021年互联网大厂Java笔经,Java重点知识大全

Java 面试 后端

如何画UML,几种简单的模型分析

编程 架构 面试 后端

2021年抓住金三银四涨薪好时机,借花献佛

Java 面试 后端

2021年Java面试心得,整理出这份8万字Java性能优化实战解析

Java 面试 后端

2021年冲刺年薪40w,Java从基础到高级知识点汇总

Java 面试 后端

2021年互联网大厂Java笔经,Java程序员如何有效提升学习效率

Java 面试 后端

Android音频架构| 社区征文

轻口味

android 音视频 新春征文

2021年哔哩哔哩Java高级面试题及答案,Java实战视频下载

Java 面试 后端

2021年字节跳动、阿里等大厂最全Java面试题,1个月学会Java开发

Java 面试 后端

2021年最新Java大厂面试笔试题分享,Java入门教程免费视频

Java 面试 后端

【等保知识】十个等保常见问题解答汇总

行云管家

网络安全 信息安全 等级保护 过等保 数据审计

谁是中国最受赞赏的创投机构?

创业邦

GPU容器虚拟化:用户态和内核态的技术和实践详解

GPU容器虚拟化:用户态和内核态的技术和实践详解

Spark 1.2版本发布: MLlib支持工作流,SQL支持源数据筛选_语言 & 开发_张天雷_InfoQ精选文章