写点什么

Spark 3.0 新特性抢先看

Spark 3.0 新特性抢先看

  • 2020-05-07
  • 本文字数:1024 字

    阅读完需:约 3 分钟

Spark 3.0 新特性抢先看

记得 Databricks 研发工程师王耿亮老师去年在分享 Spark 新特性议题的时候,稍微透露了一些 关于 Spark 3.0 版本特性的内容,但具体的性能细节可以关注今年 ASF 和 Apache Spark PMC 最终的发布信息。这里做一些简单的介绍,具体技术细节请关注 9 月 11 日深圳站ArchSummit全球架构师峰会演讲。


Accelerator-aware Scheduler

作为 Project Hydrogen 的延续,在 Spark 3.0 版本里支持 GPU Aware Scheduling 调度,广泛用于加速特定应用,比如深度学习等。

自适应查询优化

这是 Databricks 和 Intel 中国团队在做的项目(SPARK-31412),基于已完成的执行计划节点的统计数据,优化剩余的查询执行计划,它能够支持:动态合并小的 partition 减少 Reducer 的数量;将 Sort Merge Join 转换为 Broadcast Hash Join;动态分割相对比较大的 partition 从而更好地处理数据倾斜。以下图为例:



这是一个典型的 Spark 任意操作过程,读取两个文件,而使用 Adaptive Execution 方法之后,将 Sort Merge Join 转换为 Broadcast Hash Join,性能也有了很大的提升。

Data Source API V2

发布 Data Source API,其设计比较合理,性能更稳定,批处理和流处理使用统一的 API。其背后的历史原因是,第一个版本的 Data Source API 在实现 Data Source 过程中不是很方便,后来做了 FileFormat。但是流处理的时候又使用另一套 API。所以社区花了很多时间把 API 都整合起来,并且增加了新的 Catalog plugin API(SPARK-31121)。

Apache Spark 3.0 其他目标:

  1. 支持 JDK 11

  2. 动态分区剪枝 (SPARK-11150)

  3. Redesigned pandas UDFs with type hints (SPARK-28264)


• 支持 Hadoop 3.x


• Hive execution 从 1.2.1 升级至 2.3.7


• Scala 2.12 GA


• 更加遵从 ANSI compliance


• Structured Steaming UI

Pandas DataFrame vs Spark DataFrame


很多数据科学家之前在学数据分析的时候使用 Python 的 Pandas,但是真正到了生产环境,Pandas 只能运行在一台机器上,而且是单线程,性能和可扩展性有限。这个时候需要转到 Spark,但是受到 API 区别,所以会有一些局限。



但是后来开源了 Koalas,目标是使用 Pandas API 可以直接运行在 Spark,能够支持数据科学家更好的无缝迁移到 Spark。

【活动推荐】

关于 Spark 3.0 新特性的解读,我们邀请王耿亮老师在今年 9 月 11 日 ArchSummit 全球架构师峰会(深圳站)上详细介绍,包括 Delta Lake 新功能介绍、设计思路细节、用户在使用过程中遇到的坑(案例),以及解决方法。感兴趣的可以点击查看会议官网了解详情。


2020-05-07 14:272922
用户头像

发布了 182 篇内容, 共 108.1 次阅读, 收获喜欢 210 次。

关注

评论 2 条评论

发布
用户头像
求门票
2020-05-09 00:24
回复
哥哥,免费无好货,来,我给你折扣票,内容保质保量。欢迎联系。
2020-05-13 21:43
回复
没有更多了
发现更多内容

淘宝API对接电商平台:解锁无限商机的钥匙

代码忍者

API 接口 pinduoduo API

数字孪生系统开发的交互工具

北京木奇移动技术有限公司

软件外包公司 数字孪生开发 webgl开发

benchANT (Time Series: Devops) 榜单数据解读

KaiwuDB

数据库 时序数据库 数据库性能优化

数造科技入选2024爱分析·数据要素x厂商全景报告两大场景

数造万象

敏捷开发 科技 数据要素 #大数据

数字版权NFT系统的主要功能

北京木奇移动技术有限公司

软件外包公司 体育NFT 数字版权NFT

您的 API 网关足够安全吗?

NGINX开源社区

nginx API api 网关 nginx 开源版

未来已来:人工智能如何重塑我们的生活与工作

天津汇柏科技有限公司

AI 人工智能

加速 AI 应用落地!DataWorks 数据治理中心全新升级为数据资产治理

阿里云大数据AI技术

人工智能 大数据 数据分析 Dataworks

Mybatis 拦截器实现单数据源内多数据库切换

京东科技开发者

YashanDB V23.3重磅发布,持续深化1:1替代产品力

YashanDB

数据库 yashandb

Fluss:面向实时分析设计的下一代流存储

Apache Flink

大数据 flink 实时计算 Fluss 新一代存储方案

筑牢算力底座,九章云极DataCanvas公司赋能大湾区激活新质生产力

九章云极DataCanvas

实战指南:如何申请并获取API Key进行测试

代码忍者

API 接口 pinduoduo API

【YashanDB】演讲实录|陈志标:自主原创、行稳致远

YashanDB

数据库 yashandb

YashanDB演讲实录|王南:YAC集群,核心平替

YashanDB

数据库 yashandb

从6岁女孩跑完马拉松“违规”事件看软件测试的规范与风险管理

测试人

软件测试

红河哈尼族彝族自治州具有资质等保测评机构在哪里?电话多少?

行云管家

等保

智慧之锤|如何通过有监督微调锻造大模型

京东科技开发者

数据飞轮:闭环体系打造企业数字化转型加速器

字节跳动数据平台

数据飞轮

前端最近发生的那些新鲜事儿(SEO,SSR和SSG?)

京东科技开发者

【GreatSQL优化器-06】条件过滤导致选择非最佳

GreatSQL

Git冲突高效解决策略:从识别到融合的全面指南

代码忍者

AICon北京站HarmonyOS技术分论坛开启招募

HarmonyOS开发者

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径

YashanDB

数据库 yashandb

【YashanDB】演讲实录|樊文飞院士:中国软件:自强、自立、自信

YashanDB

数据库 yashandb

MES生产管理系统源码,万界星空科技开源MES

万界星空科技

开源 mes #开源 开源mes mes源码

得物使用AutoMQ构建海量数据处理的新一代可观测性架构

AutoMQ

kafka 得物技术 客户案例 AutoMQ

金融机构远程办公面临的安全挑战

芯盾时代

终端安全 零信任模型 金融业

HNSW分布式构建实践

阿里技术

分布式 算法 方案 向量检索 HNSW

音乐NFT系统的主要功能

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

Spark 3.0 新特性抢先看_架构_Xue Liang_InfoQ精选文章