写点什么

Spark 之后,谁将接手大数据

  • 2015-08-30
  • 本文字数:1131 字

    阅读完需:约 4 分钟

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache 基金会提出了 Hadoop 平台。该平台的 MapReduce 框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce 刚刚“称霸”大数据不久, Spark 就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃 MapReduce。据预测,Spark 将会在五年以后全面替代MapReduce。由此可见,大数据领域日新月异,技术更迭十分迅速。那么,在Spark 之后,什么技术会接手之后的大数据处理呢?接下来,本文就对该问题进行一定的探讨。

作为Apache 基金会所开发的分布式处理平台,Hadoop 最核心的设计包括HDFS 分布式文件系统和分布式计算框架MapReduce。MapReduce 一步步完善,终于成为大数据处理中的核心技术。Hadoop 也以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为主流的大数据处理平台。然而,2009 年由伯克利大学提出的Spark 项目,异军突起。在不到7 年之间内,Spark 经历了从研究性项目,到Apache 基金项目,进而顶级项目的过程。Cloudera 社区的领军人物 Justin Kestelyn 甚至预测,Spark 将会在五年后彻底替代 MapReduce。而十年之后,MapReduce 将会成为业界的回忆。

Kestelyn 提到,Spark 崛起有着其必然的原因——它存在三个方面的核心优势。

  • 首先,Spark 为 Scala、Java 和 Python 语言提供了丰富而统一的 API 接口,使其代码量比 MapReduce 可减少 50%-80%。
  • 其次,Spark 为批处理和流处理也提供了统一的 API。
  • 最重要的方面是,Spark 的性能要大大优于 MapReduce。其访问内存数据的速度是 MapReduce 的 100 倍,而访问磁盘的速度也是 MapReduce 的 10 倍。由此可见,Spark 替代 MapReduce 已成为必然趋势。

那么,在日新月异的大数据领域,Spark 又能主导分布式计算多久呢?之后,又是那种技术替代 Spark 呢?MongoDB 的副总裁 Kelly Stirman 曾表示,大数据领域的上一次飞跃源于对昂贵的计算和存储的优化,而其下一次变革肯定与相关目前昂贵的工程人员相关。未来,更易上手的技术将会竞争力越强,更易吸引广大用户的注意。Databricks 的联合创始人 Ion Stoica 表示,Spark 的成功就与其易用性密切相关。Adobe 公司移动应用方面的副总裁 Matt Asay 也认为,易用性必然会成为未来大数据领域竞争的热点。那么,能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-30 19:016356
用户头像

发布了 268 篇内容, 共 134.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

PCB表面镀金工艺,还有这么多讲究!

华秋电子

记一次 TiDB v7.1 版本生产环境的完整搭建流程

TiDB 社区干货传送门

7.x 实践

玩转视图变量,轻松实现动态可视化数据分析

观测云

数据分析 可观测性 数据可视化

软件测试|程序猿必会的git操作(二)

霍格沃兹测试开发学社

WebSocket 原理详解:全方位解读

Apifox

程序员 最佳实践 websocket 协议 API

云起无垠典型案例入选《2023软件供应链安全洞察》报告

云起无垠

DWS临时内存不可用报错: memory temporarily unavailable

华为云开发者联盟

数据库 后端 华为云 科技 华为云开发者联盟

软件测试|教你轻松解决pip安装下载超时问题

霍格沃兹测试开发学社

Hutool中那些常用的工具类和实用方法 | 京东云技术团队

京东科技开发者

hutool java工具类 企业号10月PK榜

便携式ECG方案介绍

华秋电子

CSS色域、色彩空间、CSS Color 4新标准 | 京东云技术团队

京东科技开发者

CSS 前端 浏览器 企业号10月PK榜

软件测试|一文带你了解Flask框架

霍格沃兹测试开发学社

基础软件是世界的事业 | 论数据库开源的力量

TiDB 社区干货传送门

数据安全法里面的数据是指什么?具体条例内容是什么?

行云管家

数据安全 数据安全法 数据运维 数据安全运维

正式官宣|集成无界·RestCloud零代码集成自动化平台即将发布

谷云科技RestCloud

通过NGINX搭建TiDB负载均衡

TiDB 社区干货传送门

安装 & 部署

TiDB实践安装及性能测试(下)

TiDB 社区干货传送门

迁移 管理与运维 备份 & 恢复 6.x 实践

支持信创的数据安全运维平台哪个好?咨询电话多少?

行云管家

信创 数据安全 国产 数据安全运维

新品研发协同平台,助力快消企业新品上市成功!

赛博威科技

数字化转型 新产品 茅台 产品研发

数字孪生智慧钢厂 Web3D 可视化管理平台

2D3D前端可视化开发

5G 物联网 可视化 数字孪生 智慧钢厂

抢先体验!星河社区ERNIE Bot SDK现已支持文心大模型4.0

飞桨PaddlePaddle

开发工具 文心大模型 星河社区

软件测试|一文教你flask路由配置

霍格沃兹测试开发学社

你不知道的浏览器Console玩法

Kevin_913

前端 控制台 调试工具

git 拉取分支后不想合并了

图颜有信

HAProxy安装及搭建tidb数据库负载均衡服务实战

TiDB 社区干货传送门

7.x 实践

mac电脑版多协议远程管理软件:Termius激活中文版

胖墩儿不胖y

SSH SSH工具 Mac软件 ssh客户端

TiDB实践安装及性能测试(上)

TiDB 社区干货传送门

安装 & 部署 性能测评 6.x 实践

Spark之后,谁将接手大数据_开源_张天雷_InfoQ精选文章