Spark和Hadoop，孰优孰劣？_大数据_谢丽

阿里云飞天发布时刻，领先大模型限免，超7000万 tokens免费体验了解详情 



 写点什么

Spark 已经取代 Hadoop 成为最活跃的开源大数据项目。但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家 Bernard Marr 在一篇文章中分析了Spark 和Hadoop 的异同。

Hadoop 和 Spark 均是大数据框架，都提供了一些执行常见大数据任务的工具。但确切地说，它们所执行的任务并不相同，彼此也并不排斥。虽然在特定的情况下，Spark 据称要比 Hadoop 快 100 倍，但它本身没有一个分布式存储系统。而分布式存储是如今许多大数据项目的基础。它可以将 PB 级的数据集存储在几乎无限数量的普通计算机的硬盘上，并提供了良好的可扩展性，只需要随着数据集的增大增加硬盘。因此，Spark 需要一个第三方的分布式存储。也正是因为这个原因，许多大数据项目都将 Spark 安装在 Hadoop 之上。这样，Spark 的高级分析应用程序就可以使用存储在 HDFS 中的数据了。

与 Hadoop 相比，Spark 真正的优势在于速度。Spark 的大部分操作都是在内存中，而 Hadoop 的 MapReduce 系统会在每次操作之后将所有数据写回到物理存储介质上。这是为了确保在出现问题时能够完全恢复，但 Spark 的弹性分布式数据存储也能实现这一点。

重要通知：接下来 InfoQ 将会选择性地将部分优秀内容首发在微信公众号中，欢迎关注 InfoQ 微信公众号第一时间阅读精品内容。

另外，在高级数据处理（如实时流处理和机器学习）方面，Spark 的功能要胜过 Hadoop。在 Bernard 看来，这一点连同其速度优势是 Spark 越来越受欢迎的真正原因。实时处理意味着可以在数据捕获的瞬间将其提交给分析型应用程序，并立即获得反馈。在各种各样的大数据应用程序中，这种处理的用途越来越多，比如，零售商使用的推荐引擎、制造业中的工业机械性能监控。Spark 平台的速度和流数据处理能力也非常适合机器学习算法。这类算法可以自我学习和改进，直到找到问题的理想解决方案。这种技术是最先进制造系统（如预测零件何时损坏）和无人驾驶汽车的核心。Spark 有自己的机器学习库 MLib ，而 Hadoop 系统则需要借助第三方机器学习库，如 Apache Mahout 。

实际上，虽然 Spark 和 Hadoop 存在一些功能上的重叠，但它们都不是商业产品，并不存在真正的竞争关系，而通过为这类免费系统提供技术支持赢利的公司往往同时提供两种服务。例如，Cloudera 就既提供 Spark 服务也提供 Hadoop 服务，并会根据客户的需要提供最合适的建议。

Bernard 认为，虽然 Spark 发展迅速，但它尚处于起步阶段，安全和技术支持基础设施方还不发达。在他看来，Spark 在开源社区活跃度的上升，表明企业用户正在寻找已存储数据的创新用法。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群（已满），InfoQ 读者交流群（#2））。

发布

暂无评论

创作场景

Spark 和 Hadoop，孰优孰劣？

评论

Robot OS网络通信MQTT实战

如何进行APP版本升级管理？

Grpc服务开发和接口测试初探【Java】

2022年，我加入了微软MVP大家庭

linux之sshpass命令

模块三作业（学生管理系统架构设计文档）

OpenMLDB Pulsar Connector：高效打通实时数据到特征工程

抖音获客源码，蓝V思域运营，大热的X-Gorgon 0408和8408算法，今年的SaaS源码，编程语言需要变革吗？

Flutter 使用 Dio 的 Post 请求添加数据

在线YAML转JSON工具

事务的隔离级别与MVCC

Go 语言入门很简单：sort 包

云效钉钉小程序上线啦！业务方请痛快一键三连

虎符交易所完成三月份HOO回购生态板块持续扩展

架构训练营 - 模块 3- 作业

Python 中删除列表元素的三种方法

学生管理系统详细架构设计文档

[Day21]-[动态规划] 494. 目标和

银行App为什么都不怎么好用？

亚马逊云科技平台上的无服务器 WebSocket

spring-cloud-kubernetes与k8s的configmap

如何制定移动APP的加载与刷新策略？

睡眠革命

预测猝死时间：AI与死神的争夺

APP访问用户的通讯录后，会得到通讯录上的信息吗？

外包学生管理系统

MongoDB Java 原生使用示例

热敏电阻、RTD、热电偶的原理和特性

在线CSV转XML工具

开源规则引擎——ice：致力于解决灵活繁复的硬编码问题

深入浅出 Ext4 块和 Inode 分配器的优化（下）

创作场景

Spark 和 Hadoop，孰优孰劣？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载