写点什么

Spark 之后,谁将接手大数据

  • 2015-08-30
  • 本文字数:1131 字

    阅读完需:约 4 分钟

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache 基金会提出了 Hadoop 平台。该平台的 MapReduce 框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce 刚刚“称霸”大数据不久, Spark 就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃 MapReduce。据预测,Spark 将会在五年以后全面替代MapReduce。由此可见,大数据领域日新月异,技术更迭十分迅速。那么,在Spark 之后,什么技术会接手之后的大数据处理呢?接下来,本文就对该问题进行一定的探讨。

作为Apache 基金会所开发的分布式处理平台,Hadoop 最核心的设计包括HDFS 分布式文件系统和分布式计算框架MapReduce。MapReduce 一步步完善,终于成为大数据处理中的核心技术。Hadoop 也以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为主流的大数据处理平台。然而,2009 年由伯克利大学提出的Spark 项目,异军突起。在不到7 年之间内,Spark 经历了从研究性项目,到Apache 基金项目,进而顶级项目的过程。Cloudera 社区的领军人物 Justin Kestelyn 甚至预测,Spark 将会在五年后彻底替代 MapReduce。而十年之后,MapReduce 将会成为业界的回忆。

Kestelyn 提到,Spark 崛起有着其必然的原因——它存在三个方面的核心优势。

  • 首先,Spark 为 Scala、Java 和 Python 语言提供了丰富而统一的 API 接口,使其代码量比 MapReduce 可减少 50%-80%。
  • 其次,Spark 为批处理和流处理也提供了统一的 API。
  • 最重要的方面是,Spark 的性能要大大优于 MapReduce。其访问内存数据的速度是 MapReduce 的 100 倍,而访问磁盘的速度也是 MapReduce 的 10 倍。由此可见,Spark 替代 MapReduce 已成为必然趋势。

那么,在日新月异的大数据领域,Spark 又能主导分布式计算多久呢?之后,又是那种技术替代 Spark 呢?MongoDB 的副总裁 Kelly Stirman 曾表示,大数据领域的上一次飞跃源于对昂贵的计算和存储的优化,而其下一次变革肯定与相关目前昂贵的工程人员相关。未来,更易上手的技术将会竞争力越强,更易吸引广大用户的注意。Databricks 的联合创始人 Ion Stoica 表示,Spark 的成功就与其易用性密切相关。Adobe 公司移动应用方面的副总裁 Matt Asay 也认为,易用性必然会成为未来大数据领域竞争的热点。那么,能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-30 19:016292
用户头像

发布了 268 篇内容, 共 132.3 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

巧用机器学习托管服务,自动化合约处理从此不在话下!

亚马逊云科技 (Amazon Web Services)

AI/ML

YB时代即将来临,三问数据存储

脑极体

架构实战营模块七课后作业

Geek_99eefd

#架构实战营 「架构实战营」

apacheunomi漏洞介绍及代码分析

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

25天,手码Python数据分析+八大核心项目实战25W字总结,我献出了我的膝盖

Java全栈架构师

Python 数据挖掘 程序员 架构 数据分析

使用 Amazon IoT 和 Amazon SageMaker 进行设备实时预测性维护

亚马逊云科技 (Amazon Web Services)

AI/ML

新能源当道,如何构建一个电动汽车电池告警预测平台?

亚马逊云科技 (Amazon Web Services)

AI/ML

首次开源!一行代码轻松搞定中英文语音识别、合成、翻译核心功能!

百度大脑

人工智能

SageMaker Neo优化目标检测模型加速推理

亚马逊云科技 (Amazon Web Services)

AI/ML

如何让用户给我们做推荐?

石云升

AARRR 产品思维 28天写作 12月日更

☕【Java实战系列】「技术盲区」Double与Float的坑与解决办法以及BigDecimal的取而代之!

码界西柚

BigDecimal Java 开发 12月日更 Double和Float

动手训练属于自己的无人车,这个超强服务现已开源!

亚马逊云科技 (Amazon Web Services)

AI/ML

微众七年营造,ABCD“四梁八柱”建构数字时代的信任底座

脑极体

模块7作业

小何

「架构实战营」

53 K8S之资源监控与资源指标

穿过生命散发芬芳

k8s 28天写作 12月日更

太香了,终于有人耗时1000小时打造出python从入门到精通全套路线图+视频+笔记

Java全栈架构师

Python 数据库 架构 面试 程序人生

开源驱动未来 | 2021新一代人工智能院士高峰论坛暨Open/O启智开发者大会开源专场顺利召开

OpenI启智社区

人工智能 开源社区 启智开发者大会

农业与科技结合?快来看Amazon Rekognition自定义标签的作用吧

亚马逊云科技 (Amazon Web Services)

AI/ML

在Amazon SageMaker中灵活使用多种存储服务

亚马逊云科技 (Amazon Web Services)

AI/ML

即刻到位!快速落地 Amazon 智能工厂解决方案

亚马逊云科技 (Amazon Web Services)

AI/ML

销售易携手DataPipeline,推动“实时感知-主动决策-客户成功”的变革!

DataPipeline数见科技

大数据 中间件 数据融合 数据迁移 数据管理

飞桨中国行——生产制造专场

百度大脑

人工智能

低代码实现探索(九)后台模型 json定义

零道云-混合式低代码平台

深入浅出 OceanBase 运维之弹性扩缩容

OceanBase 数据库

直播 弹性扩容 OceanBase 开源

如何真正学习Go 语言

宇宙之一粟

golang 学习方法 Go 语言 12月日更

模块七作业

心怀架构

编写代码最应该做好的事情是什么?

李子捌

Java 28天写作 21天挑战 12月日更

业界福音!快来使用Amazon Transcribe服务减轻添加字幕的繁琐工序负担吧

亚马逊云科技 (Amazon Web Services)

AI/ML

重装上阵——Graviton2提升ElastiCache for Redis的性价比!

亚马逊云科技 (Amazon Web Services)

AI/ML

有向无环图在新增节点时的环状检测

waitmoon

DAG

Redis RDB 持久化详解

程序员历小冰

redis 持久化 28天写作 12月日更

Spark之后,谁将接手大数据_开源_张天雷_InfoQ精选文章