Spark的硬件配置

2014 年 8 月 14 日

从 MapReduce 的兴起,就带来一种思路,就是希望通过大量廉价的机器来处理以前需要耗费昂贵资源的海量数据。这种方式事实上是一种架构的水平伸缩模式——真正的以量取胜。毕竟,以现在的硬件发展来看,CPU 的核数、内存的容量以及海量存储硬盘,都慢慢变得低廉而高效。然而,对于商业应用的海量数据挖掘或分析来看,硬件成本依旧是开发商非常关注的。当然最好的结果是:既要马儿跑得快,还要马儿少吃草。

Spark 相对于 Hadoop 的 MapReduce 而言,确乎要跑得迅捷许多。然而,Spark 这种 In-Memory 的计算模式,是否在硬件资源尤其是内存资源的消耗上,要求更高呢?我既找不到这么多机器,也无法租用多台虚拟 instance,再没法测评的情况下,只要寻求 Spark 的官方网站,又或者通过 Google 搜索。从 Spark 官方网站,Databricks 公司 Patrick Wendell 的演讲以及 Matei Zaharia 的 Spark 论文,找到了一些关于 Spark 硬件配置的支撑数据。

Spark 与存储系统

如果 Spark 使用 HDFS 作为存储系统,则可以有效地运用 Spark 的 standalone mode cluster,让 Spark 与 HDFS 部署在同一台机器上。这种模式的部署非常简单,且读取文件的性能更高。当然,Spark 对内存的使用是有要求的,需要合理分配它与 HDFS 的资源。因此,需要配置 Spark 和 HDFS 的环境变量,为各自的任务分配内存和 CPU 资源,避免相互之间的资源争用。

原文链接:【 https://www.infoq.cn/article/2014/08/spark-hardware-configure 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2014 年 8 月 14 日 04:15 6227
用户头像

发布了 29 篇内容,共 347923 次阅读,收获喜欢 9 次。

关注

评论

发布
暂无评论
发现更多内容

Mac效率配置指南

Winann

macos 效率 效率工具 Mac

人是一切

Neco.W

个人感想 感悟

我的理财小心得

史前靓仔

为什么公众号订阅没有「分组」的功能?

Fenng

微信公众平台 产品设计

聊聊“坚持”这件事

小天同学

个人成长 写作 坚持 自控力

学会用"云—雨—伞"引导敏捷实践

Yanel 说敏捷产品

敏捷 敏捷开发

从"远程工作"到"分布式团队"

Yanel 说敏捷产品

项目管理 敏捷 敏捷开发

Oracle 将为职场歧视买单,4100 位女员工集体诉讼

神经星星

oracle 互联网巨头 互联网 职场

PyTorch 1.5 发布,与 AWS 合作 TorchServe

神经星星

人工智能 facebook 微软 亚马逊云 AWS Lightsail 工具

职场寒冬,给你讲四个小故事

池建强

人生 职场

游戏夜读 | 游戏数据分析师

game1night

最新Idea 2020.1 二种方法激活教程

公众号:V5codings

intellij-idea

tcp_tw_recycle 【坑】

孤星可

TCP 服务端

自动化测试框架知识,读这一篇就够了!

陈琦

程序员 DevOps 自动化 测试

2020版Kubernetes快速上手指南,让你所见即所得

ABC实验室

Kubernetes 容器 云原生 群集安装 新手指南

听保洁老大爷讲Java的垃圾回收

侯树成

JVM

你懂什么是"结对测试"么?

Yanel 说敏捷产品

产品 产品经理 产品设计 产品开发 产品推荐

理解 Java 序列化

RookieMZL

我是如何读完技术书,然后忘得一干二净的

ayesd

读书 读书方式

freecplus框架,Linux平台下C/C++程序员提高开发效率的利器

C语言技术网-码农有道

2020年程序猿必读10本好书推荐

ABC实验室

学习 2020 程序员 好书推荐

做一个"靠谱"的敏捷教练

Yanel 说敏捷产品

敏捷 敏捷开发

扎心!天天写代码,方向真的对吗?

Apache Flink

大数据 flink 流计算 实时计算 大数据处理

常用电脑软件清单

彭宏豪95

软件 工具 windows 生产力

python 文章中图片下载

蜗牛前进

5G来临,我们该如何打造自己的家庭数据中心基础篇

ABC实验室

5G 数字资产 家庭数据中心

给程序员的错误找个台阶

曲水流觞TechRill

如何度量敏捷开发团队

Yanel 说敏捷产品

敏捷 敏捷开发

Linux-常用命令

蜗牛前进

Linux

使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (二)为什么要写单元测试

编程道与术

编程 编程语言 TDD 代码审查 单元测试

企业经营 "造物" "造人" "造钱"三阶段

Yanel 说敏捷产品

敏捷 敏捷开发

Spark的硬件配置-InfoQ