AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

Spark 之后,谁将接手大数据

  • 2015-08-30
  • 本文字数:1131 字

    阅读完需:约 4 分钟

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache 基金会提出了 Hadoop 平台。该平台的 MapReduce 框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce 刚刚“称霸”大数据不久, Spark 就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃 MapReduce。据预测,Spark 将会在五年以后全面替代MapReduce。由此可见,大数据领域日新月异,技术更迭十分迅速。那么,在Spark 之后,什么技术会接手之后的大数据处理呢?接下来,本文就对该问题进行一定的探讨。

作为Apache 基金会所开发的分布式处理平台,Hadoop 最核心的设计包括HDFS 分布式文件系统和分布式计算框架MapReduce。MapReduce 一步步完善,终于成为大数据处理中的核心技术。Hadoop 也以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为主流的大数据处理平台。然而,2009 年由伯克利大学提出的Spark 项目,异军突起。在不到7 年之间内,Spark 经历了从研究性项目,到Apache 基金项目,进而顶级项目的过程。Cloudera 社区的领军人物 Justin Kestelyn 甚至预测,Spark 将会在五年后彻底替代 MapReduce。而十年之后,MapReduce 将会成为业界的回忆。

Kestelyn 提到,Spark 崛起有着其必然的原因——它存在三个方面的核心优势。

  • 首先,Spark 为 Scala、Java 和 Python 语言提供了丰富而统一的 API 接口,使其代码量比 MapReduce 可减少 50%-80%。
  • 其次,Spark 为批处理和流处理也提供了统一的 API。
  • 最重要的方面是,Spark 的性能要大大优于 MapReduce。其访问内存数据的速度是 MapReduce 的 100 倍,而访问磁盘的速度也是 MapReduce 的 10 倍。由此可见,Spark 替代 MapReduce 已成为必然趋势。

那么,在日新月异的大数据领域,Spark 又能主导分布式计算多久呢?之后,又是那种技术替代 Spark 呢?MongoDB 的副总裁 Kelly Stirman 曾表示,大数据领域的上一次飞跃源于对昂贵的计算和存储的优化,而其下一次变革肯定与相关目前昂贵的工程人员相关。未来,更易上手的技术将会竞争力越强,更易吸引广大用户的注意。Databricks 的联合创始人 Ion Stoica 表示,Spark 的成功就与其易用性密切相关。Adobe 公司移动应用方面的副总裁 Matt Asay 也认为,易用性必然会成为未来大数据领域竞争的热点。那么,能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-30 19:016161
用户头像

发布了 268 篇内容, 共 128.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

imazingAPP软件怎么安装到苹果手机电脑上面?

茶色酒

imazing

别再用老版云效Projex项目协作了,该升级了

阿里云云效

阿里云 项目管理 研发团队 项目协作 项目协作工具

Go 语言入门很简单:正则表达式

宇宙之一粟

正则表达式 Go 语言 4月月更

13W字!2021最新发布互联网大厂高频面试技术点!

爱好编程进阶

Java 程序员 后端开发

《Mybatis 手撸专栏》第6章:数据源池化技术实现

小傅哥

Java 面试 小傅哥 mybatis 源码学习

Spark SQL 字段血缘在 vivo 互联网的实践

vivo互联网技术

大数据 spark Sparksql 数据处理

微信小程序开发系列 (四) :微信小程序的页面跳转路由设计

汪子熙

微信小程序 微信 前端开发 微信开发 4月月更

2021最新一次Java面试,快手三面一轮游,如今已拿意向书

爱好编程进阶

Java 程序员 后端开发

华为云大咖带你玩转云原生基础设施之K8s

坚果

4月月更

C语言总结_数组全方位练习

DS小龙哥

4月月更

聊聊Kotlin中的lambda

北洋

kotlin Andriod 4月月更

2021最新分享Java面试题库万字精华 github上标星80

爱好编程进阶

Java 程序员 后端开发

Docker下,极速体验pinpoint1.6.3

程序员欣宸

Java 分布式 4月月更

2021最新Java学习路线,自学者的福利

爱好编程进阶

Java 程序员 后端开发

字节跳动构建Data Catalog数据目录系统的实践

字节跳动数据平台

数据库 字节跳动 数据治理 数据目录

基于语义感知SBST的API场景测试智能生成

华为云开发者联盟

测试 语义感知 SBST 动态修正 ODG图

20年最新金九银十面试必备,教你一份文档吊打面试官,拿到offer

爱好编程进阶

Java 程序员 后端开发

一种很爽的学习方法,被我Get到了!

博文视点Broadview

云原生训练营学习总结

arctec

微服务与领域驱动设计,架构实践总结

架构 微服务 领域驱动设计 软件架构

ThinkPHP6+swoole+easywechat使用教程

CRMEB

大数据培训Spark SQL底层执行流程

@零度

Sparksql 大数据开发

企业文档协作如何进行?

小炮

文档协同

imazing是什么软件?

茶色酒

imazing

20 数据存储服务器集群的伸缩性设计

爱好编程进阶

Java 程序员 后端开发

想学习算法交易的工程师们,机会来啦~

非凸科技

rust 招聘 基金 量化交易 算法交易

18 张图,一文了解 8 种常见的数据结构

爱好编程进阶

Java 程序员 后端开发

小平邦彦:树懒style的世界一流数学家

图灵教育

数学 数学史 数学家

自己动手写 Docker 系列 -- 6.5 启动时给容器配置网络

Go Docker 4月月更

Spark之后,谁将接手大数据_开源_张天雷_InfoQ精选文章