写点什么

Spark 2.4 重磅发布:优化深度学习框架集成,提供更灵活的流式接收器

  • 2018-11-10
  • 本文字数:2280 字

    阅读完需:约 7 分钟

Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器

Apache Spark 2.4.0 是 2.x 系列中的第五个版本。此版本增加了屏障执行模式,以便更好地与深度学习框架集成;引入 30 多个更高阶的内置函数,能够更轻松地处理复杂数据类型;优化 K8s 集成,同时提供 Scala 2.12 实验性支持。其他主要更新还包括内置 Avro 数据源、图像数据源,更加灵活的流式接收器,取消传输过程中 2GB 块大小的限制,Pandas UDF 改进。此外,此版本继续关注可用性、稳定性,并解决了大约 1100 个 tickets。


Databricks 正式发布 Apache Spark 2.4,作为 Databricks Runtime 5.0 的一部分。



Release Note 详情传送门


Spark 2.4 继续以更快、更简单、更智能为目标,带来了以下新特性:


  • 一种支持屏障模式的调度器,以便与基于 MPI 的程序(比如分布式深度学习框架)更好地集成;

  • 引入一些内置的高阶函数,让处理复杂的数据类型(即数组和 map)变得更容易;

  • 提供对 Scala 2.12 的实验性支持;

  • 允许对 notebook 中的 DataFrame 进行及早求值,便于调试和排除故障;

  • 引入新的 Avro 数据源。


除了这些新特性外,新版本把重点放在可用性、稳定性和优化上,解决了 1000 个问题。由 Spark 贡献者带来的其他特性还包括:


  • 去掉了 2 GB 块大小限制;

  • Pandas UDF 改进;

  • 图像模式数据源;

  • Spark SQL 增强功能;

  • 内置文件源改进;

  • Kubernetes 集成增强。


接下来将简要介绍一些高级别的特性和改进,在未来几天,Databrick 将发布有关这些特性的深度介绍。有关所有 Spark 组件和 JIRA 已解决的主要特性的完整列表,请参阅 Apache Spark 2.4.0发行说明

屏障执行模式

屏障执行模式是Hydrogen的一部分,Hydrogen 是一项 Apache Spark 计划,旨在将最先进的大数据和 AI 技术结合在一起。它可以将来自 AI 框架的分布式训练作业嵌入到 Spark 作业中。他们通常需要探索像 All-Reduce 这种复杂的通信模式,因此需要同时运行所有任务。Spark 当前使用的 MapReduce 模式不满足这样的需求。在这种新的执行模式下,Spark 启动所有训练任务(例如 MPI 任务),并在任务失败时重新启动所有任务。Spark 还为屏障任务引入了一种新的容错机制。在执行过程中如果有任何屏障任务失败,Spark 将中止所有任务并重新启动该执行阶段。

内置高阶函数

在 Spark 2.4 之前,有两种典型的解决方案用于直接操作复杂类型(例如数组类型):一个是将嵌套结构展开为单独的行,应用一些函数,然后再次创建原先的结构,一个是使用用户定义函数(UDF)。新的内置函数可以直接操作复杂类型,可以使用匿名 lambda 函数操作复杂的值,类似于 UDF,但具有更好的性能。


你可以查看一些有关高阶和内置函数的示例

内置 Avro 数据源

Apache Avro 是一种非常流行的数据序列化格式,被广泛用在 Apache Spark 和 Apache Hadoop 生态系统中,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 开始,Spark 为 Avro 数据的读写提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目 Avro Data Source for Apache Spark(从现在开始称为spark-avro)。此外,它还提供了:


  • 新的函数 from_avro()和 to_avro(),用于在 DataFrame 中读写 Avro 数据,而不仅仅是文件;

  • Avro 逻辑类型支持,包括 Decimal、Timestamp 和 Date 类型;

  • 2 倍的读取吞吐量提升和 10%的写入吞吐量改进。

Scala 2.12 实验性支持

从 Spark 2.4 开始,Spark 将支持 Scala 2.12,并使用 Scala 2.11 和 2.12 进行交叉构建,这两个版本都可以在 Maven 存储库和下载页面中找到。现在,用户可以使用 Scala 2.12 来编写 Spark 应用程序。


Scala 2.12 带来了与 Java 8 更好的互操作性,Java 8 提供了更好的 lambda 函数序列化。它还带来了一些用户期待的新特性和错误修复。

Pandas UDF 改进

Pandas UDF 最初是在 Spark 2.3.0 中引入的。在新版本中,根据用户反馈不断改进 Pandas UDF。


除了错误修复之外,Spark 2.4 还带来了 2 个新特性:基于 Pandas UDF 定义窗口函数和聚合函数。这些新特性将进一步改善 Pandas UDF 的使用,并在下一版本中继续改进 Pandas UDF。

图像数据源

社区看到越来越多图像/视频/音频处理方面的使用场景。在 Spark 中为这些场景提供内置数据源简化了用户将数据导入 ML 训练方面的工作。在 Spark 2.3 版本中,图像数据源是通过 ImageSchema.readImages 实现的。Spark 2.4 引入了一个新的 Spark 数据源,可以将目录中的图像文件递归加载为 DataFrame。现在加载图像非常简单:


Kubernetes 集成增强

Spark 2.4 带来了很多与 Kubernetes 集成的增强特性。首先,新版本支持在 Kubernetes 上运行容器化的 PySpark 和 SparkR 应用程序。Spark 为用户提供了 Python 和 R 语言的 Dockerfiles 文件,供用户构建基础镜像或自定义镜像。其次,提供了客户端模式。用户可以在运行在 Kubernetes 集群中 pod 上或集群外的客户端计算机上运行交互式工具(例如 shell 或 notebook)。最后,支持挂载以下类型的 Kubernetes 卷:emptyDir、hostPath 和 persistentVolumeClaim。

灵活的流式接收器

很多外部存储系统已经提供了批次连接器,但并非所有外部存储系统都有流式接收器(sink)。在新版本中,即使存储系统不支持流式接收器,仍然可以通过 streamingDF.writeStream.foreachBatch(…)在每个微批次输出上使用批次数据写入器。例如,你可以在 foreachBatch 中使用现有的 Apache Cassandra 连接器直接将流式查询的输出写入 Cassandra。



同样,你也可以用它将很多流式 DataFrame 不支持的 DataFrame/Dataset 操作应用在每个微批次输出上。例如,foreachBatch 可用于避免在写入多个位置时重新计算流式查询。



英文原文:


https://databricks.com/blog/2018/11/08/introducing-apache-spark-2-4.html


2018-11-10 14:442110
用户头像

发布了 731 篇内容, 共 462.9 次阅读, 收获喜欢 2005 次。

关注

评论

发布
暂无评论
发现更多内容

师资培训通知 | 数字化转型背景下《经管大数据》课程教学能力进阶提升训练营

ModelWhale

数据分析 大数据课程 经管 师资培训

常用的表格检测识别方法——表格内容识别方法

合合技术团队

人工智能 表格识别 表格检测

如何使用敏捷工具管理敏捷缺陷

顿顿顿

Scrum 敏捷开发 缺陷管理

为什么要学3D建模呢?

Finovy Cloud

3d建模

Spring应用启动分析优化

林贻民

字节码插桩 字节码增强 spring-boot

SLF4J门面日志框架源码探索 | 京东云技术团队

京东科技开发者

jdk slf4j 源码剖析 企业号 6 月 PK 榜

Go应用性能优化的8个最佳实践,快速提升资源利用效率!

SEAL安全

Go 企业号 6 月 PK 榜

性能提升30%!袋鼠云数栈基于 Apache Hudi 的性能优化实战解析

袋鼠云数栈

数据湖 Hudi 企业号 6 月 PK 榜

ZEGO 即构音乐场景降噪技术解析

ZEGO即构

音视频

Spring源码核心剖析 | 京东云技术团队

京东科技开发者

spring bean 企业号 6 月 PK 榜 SpringAOP

详解深度学习中推荐系统的经典模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

国内外常用的Scrum敏捷看板工具

顿顿顿

Scrum 敏捷开发

敏捷项目管理流程及工具

顿顿顿

敏捷项目 敏捷项目管理 敏捷工具 scrum敏捷工具

火山引擎DataTester:企业如何使用A/B实验优化商业化能力

字节跳动数据平台

A/B 测试

使用 Midjourney 进行 UI/UX 设计的一些典型场景

汪子熙

人工智能 ChatGPT MidJourney 6 月 优质更文活动

到底什么是Java AIO?为什么Netty会移除AOI?一文搞懂AIO的本质!

JackJiang

网络编程 即时通讯 IM

视频直播源码技术知识分享:连麦功能

山东布谷科技

软件开发 源码搭建 直播源码 短视频直播源码

稳,从数据库连接池 testOnBorrow 看架构设计 | 京东云技术团队

京东科技开发者

数据库 架构设计 数据库连接池 企业号 6 月 PK 榜 testOnBorrow

OpenHarmony中Ability组件基本用法

坚果

OpenHarmony 6 月 优质更文活动

透明LED橱窗屏的作用

Dylan

解决方案 LED显示屏 室外显示屏 屏幕

华为云AI实战训练营即将截止,赶紧报名,不要错过!

华为云PaaS服务小智

云计算 华为 华为云 华为云开发者联盟

ClickHouse技术研究及语法简介 | 京东云技术团队

京东科技开发者

MySQL elasticsearch Clickhouse TiDB 企业号 6 月 PK 榜

深度解读 Linux 内核级通用内存池 —— kmalloc 体系

bin的技术小屋

内存管理 Linux内核 Linux内核源码 kernel

AI教你实现敏捷游戏自由,再也不用担心陷入瓶颈啦!

禅道项目管理

项目管理 AI ChatGPT

TDengine 3.0.5.0 正式发布,系统稳定性进一步提升

爱倒腾的程序员

涛思数据 时序数据库 ​TDengine

师资培训|《经管大数据》课程教学能力提升训练营课程安排

ModelWhale

数据分析 数据科学 经管 交叉学科 师资

软件测试/测试开发丨学习笔记之Python控制流-分支、循环

测试人

Python 程序员 软件测试 分支 循环

堡垒机免费版有哪些优点?哪家免费堡垒机好用?

行云管家

网络安全 堡垒机 行云管家 免费软件 免费堡垒机

金华等保测评机构名单以及电话信息看这里!

行云管家

等保 等级保护 等保测评 金华 浙江

PAGC2023 金帆奖 | 融云三度荣膺「年度优秀出海产品技术服务」奖

融云 RongCloud

网络 通信 融云 PAGC

Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器_开源_Databricks 博客_InfoQ精选文章