排序性能PK：Spark完胜MapReduce_语言 & 开发_李士窑_InfoQ精选文章



 写点什么

登录/注册

作为 Hadoop MapReduce 后继者 Apache Spark 可以支撑数千节点规模的集群部署，尤其在内存数据处理上，Spark 比 MapReduce 更加高效，且支持 GB 或 TB 级别的数据。然而很多人都认为在磁盘数据计算上，MapReduce 比 Spark 更有优势。近日，大数据公司 Databricks 为了评估 Spark 在 PB 级磁盘数据计算的运行状况, 其技术团队使用 AWS 进行了一个 Daytona Gray 类别的排序基准测试。测试结果显示Spark 打破了MapReduce 保持的排序性能记录。这次测试是一个考量系统排序100TB 数据（约万亿条记录）速度的行业基准测试。在此之前，这项基准测试的世界记录保持者是雅虎，他们使用2100 节点的MapReduce 集群在72 分钟内完成了计算。而本次测试Spark 只使用了206 个EC2 节点，就将排序用时缩短到了23 分钟。也就是说在相同数据的排序上，Spark 只使用了1/10 的计算资源就比MapReduce 快了近3 倍。

此外，在Spark 官方没有PB 数量级排序对比的情况下，Databricks 技术团队首次开展了1PB 数据（十万亿条记录）的排序测试。这个测试使用了190 个EC2 节点耗时不到4 个小时，同样远超雅虎之前使用3800 台主机、耗时16 个小时的记录，这也是在公用云环境中，首次完成的PB 级排序测试。以上两个测试的具体结果如下表：

Hadoop 保持记录

Spark 100 TB

Spark 1 PB

数据大小

102.5 TB

102 TB

1000 TB

耗时

72 分钟

23 分钟

234 分钟

节点数

2100

206

190

# Cores

50400

6592

6080

# Reducers

10,000

29,000

250,000

Rate

1.42 TB/min

4.27 TB/min

4.27 TB/min

Rate/node

0.67 GB/min

20.7 GB/min

22.5 GB/min

Daytona Gray 类别排序基准规则

是

是

否

环境

专用的数据中心

EC2 (i2.8xlarge)

EC2 (i2.8xlarge)

Spark 有以上的性能表现是因为 Databricks 与 Spark 社区为 Spark 在稳定性、扩展性、性能等方面的做了不断的改进，尤其是在超大规模工作负载下，他们投入了大量的精力来提升 Spark 的性能。从细节上看，与这个基准测试高度相关的工作主要有三个，首先，也是最关键的，在 Spark 1.1 中他们引入了一个全新的 Shuffle 实现，也就是基于排序的 Shuffle（ SPARK-2045 ）。其次，他们修订了 Spark 的网络模型，通过 JNI（ SPARK-2468 ）使用基于 Netty 的 Epoll 本地端口传输。同时，新的模型还拥有了独立的内存池，绕过了 JVM 的内存分配器，从而减少垃圾回收造成的影响。最后，他们创建了一个外部 Shuffle 服务（ SPARK-3796 ），它与 Spark 本身的执行器完全解耦，这个新的服务基于上文所述的网络模型。得益于以上三项改进措施，在 map 阶段，Spark 集群的单节点能够支撑每秒 3GB 的 IO 吞吐量，在 reduce 阶段，单节点能够支撑每秒 1.1GB 的 IO 吞吐量。其他更多的技术细节包括 TimSort 排序算法的实现、缓存位置的利用、Spark 的容错机制以及 AWS 方面的增强等。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

评论

发布

暂无评论

火山引擎数据飞轮最新活动：结合大模型能力，探索金融行业数智化落地新可能

字节跳动数据平台

最新前端架构设计：中央仓库管理-基于工作空间和git-submodule实现共用和管理

京东科技开发者

GPUStack v0.4：文生图模型、语音模型、推理引擎版本管理、离线支持和部署本地模型

Stable Diffusion LLM Whisper Speech-to-Text Text-to-Speech

零代码赋能高等教育数字化转型的实践与思考

淘宝天猫API接口探索：商品详情与关键字搜索商品列表的实战应用

API 接口 pinduoduo API

阿里大佬翻遍全网Java面试文章，总结出这份1658页文档，GitHub收获25K+点赞

Java 编程程序员面试大厂

企业数字化转型的矛与盾

Elasticsearch vs 向量数据库:寻找最佳混合检索方案

全文检索 elasticsearch 向量检索 Milvus 混合检索

从MySQL JOIN 算法角度看如何优化SQL

京东科技开发者

大数据平台Bug Bash大扫除最佳实践

京东科技开发者

GPUStack v0.4：文生图模型、语音模型、推理引擎版本管理、离线支持和部署本地模型

Stable Diffusion LLM Whisper Speech-to-Text Text-to-Speech

OpenAI o1 模型到来后，谈谈提示词工程的未来

程序员 AI Prompt LLMs 提示词工程

更轻更省！DataSimba敏捷版直播火热预约中

数字藏品NFT的合约开发

北京木奇移动技术有限公司

软件外包公司音乐NFT 体育NFT

让零代码系统界面体验更优秀

七牛云荣获「2024 鸿蒙生态 SDK 星河奖」

想在 Java 八股文面试中脱颖而出？这1000 道互联网大厂工程师面试题必不可少

Java 程序员面试架构师编程开发

探索1688商品详情API：轻松解锁商品信息的全面视角

API 接口 pinduoduo API

集团企业分级管理授权能力建设

iam 权限管理系统授权访问

信创背景下医院信息化建设的挑战与机遇

一个明知没啥前途也要开张的市场开张了

制造业数字化演进历程中的创新与HAP 赋能

收藏品NFT的开发流程

北京木奇移动技术有限公司

NFT数字藏品系统 NFT开发软件外包公司

RFID技术在ERP系统中的集成应用

积木链小链

心理行业需要用到堡垒机的几个情形讲解

心理网络安全等保堡垒机