Spark 1.2版本发布： MLlib支持工作流，SQL支持源数据筛选_语言 & 开发_张天雷

Linux 之父出席、干货分享、圆桌讨论，精彩尽在 OpenCloudOS 社区开放日，报名戳了解详情 



 写点什么

12 月 18 日，Spark 宣布发布 1.2 版本，和以往发布的版本相比，1.2 版本算得上是最大的一次改进，代码来自 172 个开发者的多达一千次提交。更新内容涵盖核心性能改进、MLlib 的新 API、Streaming 的 H/A 模式、GraphX 相关等等。更多细节可以在下载页查看。在本次的发布中，主要改进包括下面几个方面：

Spark Core：对操作和性能方面做了改进，更新了两个主要的子系统，来针对大规模 shuffle 的情况。第一个改进的是通信管理系统，升级使用了基于 Netty 的实现。第二个改进是 shuffle 的机制，升级使用了基于 sort 的实现。这两个改进，都对大规模 shuffle 情况下的性能和稳定性做出了贡献。除此之外，Spark 还增加了一个弹性机制，用于增强那些长时间运行的 ETL 任务对集群的利用率。目前这种机制在 YARN 上已经支持了，后续版本发布的时候应该会覆盖到其他管理平台。最后，核心功能还添加了对 Scala 2.11 版本的支持。
Spark Streaming：本次升级对 Streaming 部分来讲包括了两个主要特性，一个是 Python 的 API，可以调用 DStream 和输出操作几乎全部的功能。目前输入来源支持文本文件和 socket 传递过来的文本。预计下一个版本发布的时候会添加 Kafka 和 Flume 的输入支持。另一个是 WAL（write ahead log）机制下的全 H/A 模式，在此之前的版本，如果硬盘出了问题，一些尚在缓存区还没有来得及被处理的数据会丢失，该改进可以有效地防止硬盘出问题时的数据丢失问题。
MLLib：最大的改进应该是发布了称为 spark.ml 的机器学习工具包，支持了 pipeline 的学习模式，即多个算法可以用不同参数以流水线的形式运行。在工业界的机器学习应用部署过程中，pipeline 的工作模式是很常见的。新的 ML 工具包使用 Spark 的 SchemaRDD 来表示机器学习的数据集合，提供了 Spark SQL 直接访问的接口。此外，在机器学习的算法方面，增加了两个基于树的方法，随机森林和梯度增强树。
Spark SQL：增加了对外部数据来源的支持。可以将外部数据来源作为临时表挂在的文件系统之中，减少了全部加载数据过来的种种纠结。为了做到这一点，Spark 重写了 Parquet 和 JSON 绑定。后续应该会有更多的对其他系统和数据格式的支持发布出来。此外，对于 Hive 的支持也增加了定点数类型以及动态划分的插入。
GraphX：终于在这个版本里，Spark 将 GraphX 从一个 alpha 初级开发版本更换到了稳定版本。这意味着目前用 GraphX 开发的代码将来移植到 Spark 新版本的时候，也不用做太多的代码改动了。另外 mapReduceTriplet 接口被新的 aggreateMessages 替换。
其他细节升级包括 PySpark 支持大数据集、一些 UI 上的改动以及可以读取二进制图像等内容。

12 月 16 日的 Spark 的社区聚会上，作者 Andrew 和 Aaron Davidson 向前来的热心开发者详细讲解了此次升级的情况（Youtube 视频）。另外，明年1 月13 日，Databricks 的Patrick Wendell 也会以Webcast 的形式来分享Spark 1.2 的更多细节。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

发布

暂无评论

创作场景

Spark 1.2 版本发布： MLlib 支持工作流，SQL 支持源数据筛选

评论

2021年一起努力应对互联网寒冬吧，字节跳动Java高级工程师

IT运维和自动化运维以及运维开发有啥不同？能解释下吗？

2021年Java面经分享，程序员必备技能：时间复杂度与空间复杂度的计算

2021年华为Java面试真题解析，大厂面试必问

2021年抓住金三银四涨薪好时机，腾讯Java社招面试流程

阿里巴巴首发：Java核心框架指导手册，1小时点击量破千万！

2021年京东Java岗面试必问，我在华为做Java外包的真实经历

2021年大厂Java高级面试题分享，程序员Java基础入门

设计 | ClickHouse 分布式表实现数据同步

好看视频Android重构——围绕于播放器的重构实践

2021年互联网大厂Java笔经，Java自学宝典电子书下载

2021年你与字节跳动只差这份笔记，大神码了2000页Spring全家桶笔记

2021年Java高级面试题总结，2021最新大厂高频微服务面试总结

2021年一起努力应对互联网寒冬吧，Java程序员面试笔试宝典答案

2021年哔哩哔哩Java高级面试题及答案，大牛手把手教你

一个简单的产品分析模型

2021年春招Java面试题，大厂Java核心面试题出炉

2021年是意义非凡的一年，2021阿里+头条+腾讯等大厂Java笔试题分享

2021年互联网大厂Java笔经，Java重点知识大全

如何画UML，几种简单的模型分析

2021年抓住金三银四涨薪好时机，借花献佛

2021年Java面试心得，整理出这份8万字Java性能优化实战解析

2021年冲刺年薪40w，Java从基础到高级知识点汇总

2021年互联网大厂Java笔经，Java程序员如何有效提升学习效率

Android音频架构| 社区征文

2021年哔哩哔哩Java高级面试题及答案，Java实战视频下载

2021年字节跳动、阿里等大厂最全Java面试题，1个月学会Java开发

2021年最新Java大厂面试笔试题分享，Java入门教程免费视频

【等保知识】十个等保常见问题解答汇总

谁是中国最受赞赏的创投机构？

创作场景

Spark 1.2 版本发布： MLlib 支持工作流，SQL 支持源数据筛选

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载