写点什么

Spark 3.0 新特性抢先看

Spark 3.0 新特性抢先看

  • 2020-05-07
  • 本文字数:1024 字

    阅读完需:约 3 分钟

Spark 3.0 新特性抢先看

记得 Databricks 研发工程师王耿亮老师去年在分享 Spark 新特性议题的时候,稍微透露了一些 关于 Spark 3.0 版本特性的内容,但具体的性能细节可以关注今年 ASF 和 Apache Spark PMC 最终的发布信息。这里做一些简单的介绍,具体技术细节请关注 9 月 11 日深圳站ArchSummit全球架构师峰会演讲。


Accelerator-aware Scheduler

作为 Project Hydrogen 的延续,在 Spark 3.0 版本里支持 GPU Aware Scheduling 调度,广泛用于加速特定应用,比如深度学习等。

自适应查询优化

这是 Databricks 和 Intel 中国团队在做的项目(SPARK-31412),基于已完成的执行计划节点的统计数据,优化剩余的查询执行计划,它能够支持:动态合并小的 partition 减少 Reducer 的数量;将 Sort Merge Join 转换为 Broadcast Hash Join;动态分割相对比较大的 partition 从而更好地处理数据倾斜。以下图为例:



这是一个典型的 Spark 任意操作过程,读取两个文件,而使用 Adaptive Execution 方法之后,将 Sort Merge Join 转换为 Broadcast Hash Join,性能也有了很大的提升。

Data Source API V2

发布 Data Source API,其设计比较合理,性能更稳定,批处理和流处理使用统一的 API。其背后的历史原因是,第一个版本的 Data Source API 在实现 Data Source 过程中不是很方便,后来做了 FileFormat。但是流处理的时候又使用另一套 API。所以社区花了很多时间把 API 都整合起来,并且增加了新的 Catalog plugin API(SPARK-31121)。

Apache Spark 3.0 其他目标:

  1. 支持 JDK 11

  2. 动态分区剪枝 (SPARK-11150)

  3. Redesigned pandas UDFs with type hints (SPARK-28264)


• 支持 Hadoop 3.x


• Hive execution 从 1.2.1 升级至 2.3.7


• Scala 2.12 GA


• 更加遵从 ANSI compliance


• Structured Steaming UI

Pandas DataFrame vs Spark DataFrame


很多数据科学家之前在学数据分析的时候使用 Python 的 Pandas,但是真正到了生产环境,Pandas 只能运行在一台机器上,而且是单线程,性能和可扩展性有限。这个时候需要转到 Spark,但是受到 API 区别,所以会有一些局限。



但是后来开源了 Koalas,目标是使用 Pandas API 可以直接运行在 Spark,能够支持数据科学家更好的无缝迁移到 Spark。

【活动推荐】

关于 Spark 3.0 新特性的解读,我们邀请王耿亮老师在今年 9 月 11 日 ArchSummit 全球架构师峰会(深圳站)上详细介绍,包括 Delta Lake 新功能介绍、设计思路细节、用户在使用过程中遇到的坑(案例),以及解决方法。感兴趣的可以点击查看会议官网了解详情。


2020-05-07 14:272537
用户头像

发布了 155 篇内容, 共 67.8 次阅读, 收获喜欢 194 次。

关注

评论 2 条评论

发布
用户头像
求门票
2020-05-09 00:24
回复
哥哥,免费无好货,来,我给你折扣票,内容保质保量。欢迎联系。
2020-05-13 21:43
回复
没有更多了
发现更多内容

云计算新选择,华为云耀云服务器L实例助您轻松上云

YG科技

云计算新标杆!华为云推出全新企业上云新产品

YG科技

iZip Archiver Pro for mac(强大的解压缩软件)v4.7.47激活版

iMac小白

URL Manager Pro for Mac(浏览器标签管理应用)v6.4激活版

iMac小白

OmniReader Pro for mac(全能阅读器)v2.6.2激活版

iMac小白

高防服务器一般价格多少钱一台?

Geek_f19a80

服务器

NodeJS 了解和快速入门 - 实现 http 服务 & 操作 mysql教程。

百度搜索:蓝易云

chrome MySQL Linux Node 云服务器

倒计时 1 天,2023 IoTDB 用户大会期待与您相见!

Apache IoTDB

云计算时代新选择:华为云耀云服务器L实例助力业务轻松上云

YG科技

10款java代码检查工具

鲁米

03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?

鲁米

Magic Disk Cleaner for mac(磁盘垃圾清理工具)v2.5.3激活版

iMac小白

iA Writer for Mac(mac好用的写作软件)v7.0.0中文激活版

影影绰绰一往直前

3D模型材质编辑

3D建模设计

3D纹理 3D材质 模型渲染

基于TCP/UDP的Socket编程

百度搜索:蓝易云

Linux TCP 运维 socket udp

ZooKeeper应用场景综述

极客罗杰

华为云耀云服务器L实例:轻量应用服务器,初创和成长型企业的理想选择

YG科技

GoodTask for Mac(日历任务管理工具)v7.6.4中文激活版

iMac小白

EdgeView 4 for Mac(快速图像查看器)v4.4激活版

iMac小白

Nacos配置中心脱敏

姚秋实(Nacol)

安全 nacos 架构设计 jasypt 配置中心

CoinList最新项目BitsCrunch是不是NFT的侦探

币离海

Coinlist BitsCrunch BCUT

2023-12-02:用go语言,如何求模立方根? x^3=a mod p, p是大于等于3的大质数, a是1到p-1范围的整数常数, x也是1到p-1范围的整数,求x。 p过大,x不能从1到p-1遍

福大大架构师每日一题

福大大架构师每日一题

架构实战营模块 1 作业

陈斌

架构实战营

Apeaksoft iPhone Eraser for Mac(iPhone数据清除工具)v1.0.20免激活版

iMac小白

MediaInfo for mac(媒体信息检测软件)v23.11免激活版

iMac小白

MATLAB实战 | S函数的设计与应用

TiAmo

matlab

HuggingFists-低代码玩转LLM RAG(1) Embedding

数由科技

低代码 Embedding LLM rag huggingfists

中小企业的上云之选,华为云智能化管理引领数字化未来

YG科技

Retrobatch for mac(图像批量处理软件)v2.0.3激活版

iMac小白

Performance Index 64 Pro for mac(性能检测软件)v4.2.12激活版

iMac小白

[大厂实践] Pinterest通用计算平台实践

俞凡

架构 Kubernetes 云原生 大厂实践 Pinterest

Spark 3.0 新特性抢先看_架构_Lucien_InfoQ精选文章