【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

Spark 之后,谁将接手大数据

  • 2015-08-30
  • 本文字数:1131 字

    阅读完需:约 4 分钟

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache 基金会提出了 Hadoop 平台。该平台的 MapReduce 框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce 刚刚“称霸”大数据不久, Spark 就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃 MapReduce。据预测,Spark 将会在五年以后全面替代MapReduce。由此可见,大数据领域日新月异,技术更迭十分迅速。那么,在Spark 之后,什么技术会接手之后的大数据处理呢?接下来,本文就对该问题进行一定的探讨。

作为Apache 基金会所开发的分布式处理平台,Hadoop 最核心的设计包括HDFS 分布式文件系统和分布式计算框架MapReduce。MapReduce 一步步完善,终于成为大数据处理中的核心技术。Hadoop 也以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为主流的大数据处理平台。然而,2009 年由伯克利大学提出的Spark 项目,异军突起。在不到7 年之间内,Spark 经历了从研究性项目,到Apache 基金项目,进而顶级项目的过程。Cloudera 社区的领军人物 Justin Kestelyn 甚至预测,Spark 将会在五年后彻底替代 MapReduce。而十年之后,MapReduce 将会成为业界的回忆。

Kestelyn 提到,Spark 崛起有着其必然的原因——它存在三个方面的核心优势。

  • 首先,Spark 为 Scala、Java 和 Python 语言提供了丰富而统一的 API 接口,使其代码量比 MapReduce 可减少 50%-80%。
  • 其次,Spark 为批处理和流处理也提供了统一的 API。
  • 最重要的方面是,Spark 的性能要大大优于 MapReduce。其访问内存数据的速度是 MapReduce 的 100 倍,而访问磁盘的速度也是 MapReduce 的 10 倍。由此可见,Spark 替代 MapReduce 已成为必然趋势。

那么,在日新月异的大数据领域,Spark 又能主导分布式计算多久呢?之后,又是那种技术替代 Spark 呢?MongoDB 的副总裁 Kelly Stirman 曾表示,大数据领域的上一次飞跃源于对昂贵的计算和存储的优化,而其下一次变革肯定与相关目前昂贵的工程人员相关。未来,更易上手的技术将会竞争力越强,更易吸引广大用户的注意。Databricks 的联合创始人 Ion Stoica 表示,Spark 的成功就与其易用性密切相关。Adobe 公司移动应用方面的副总裁 Matt Asay 也认为,易用性必然会成为未来大数据领域竞争的热点。那么,能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-30 19:015889
用户头像

发布了 268 篇内容, 共 118.4 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

Mac电脑好用的音频修复和增强工具: iZotope RX 10最新版激活包

胖墩儿不胖y

Mac软件 音频处理工具 音频修复工具

如何优化Nginx服务进程详细。

百度搜索:蓝易云

nginx 云计算 Linux 运维 云服务器

营销数智化解析第7期:用友BIP | CRM 渠道工作台、伙伴管理

用友BIP

营销数智化

3D模型材质编辑器

3D建模设计

纹理处理 材质 贴图 模型材质 三维模型材质

📝 App备案与iOS云管理式证书  ,公钥及证书SHA-1指纹的获取方法

这19个JS代码技巧,后悔没有早点看到

伤感汤姆布利柏

编程 程序员 低代码 js 代码技巧

Vector Magic for mac(矢量图片转换工具) 1.2.0激活破解版

mac

苹果mac Windows软件 Vector Magic 图片转换矢量图软件

3招解决时序数据高基数难题,性能多维度提升!

华为云开发者联盟

数据库 后端 时序数据库 华为云 华为云开发者联盟

Sketchpad几何画板 for Mac v5.06完美激活版

mac

苹果mac Windows软件 Sketchpad 几何画板 几何教学工具

IPQ8072 router and QCN9074 card combine to provide ultra-fast-stable-broad WiFi 6E network

wifi6-yiyi

QCN9074 IPQ8072

Git客户端工具 SourceTree中文最新安装包

mac大玩家j

git Mac软件 Git客户端

Docker和Kubernetes:区别与优势对比

EquatorCoco

Docker 容器化 Kubernetes, 云原生, eBPF

Linux如何使用Nano编辑器教程。

百度搜索:蓝易云

云计算 Linux 运维 云服务器 Nano

NFTScan | 11.20~11.26 NFT 市场热点汇总

NFT Research

NFT\ NFTScan nft工具

文心一言 VS 讯飞星火 VS chatgpt (144)-- 算法导论12.1 4题

福大大架构师每日一题

福大大架构师每日一题

活动回顾|阿里云云原生 Serverless 技术实践营 深圳站回放&PPT下载

Serverless Devs

Serverless AIGC

特斯拉开源 Roadster 文件随便用;微软 Copilot AI 技术开放或不对大陆开放丨 RTE 开发者日报 Vol.92

声网

预训练大模型的演变与突破

百度开发者中心

大模型 #人工智能 ChatGPT

KaiwuDB 亮相中国 5G+工业互联网大会,助力新型工业化

KaiwuDB

KaiwuDB 5G工业互联网大会

国内怎样申请openai 内涵120美刀的api key?内涵120美刀,月底要付120美元吗?

月满楼

ChatGPT chatgpt api

Adobe Camera Raw for Mac(Raw格式图像ps插件) v16.0.0中文激活版

影影绰绰一往直前

MySQL运行在docker容器中会损失多少性能

EquatorCoco

MySQL 数据库 Docker 容器化

Wireshark的数据包

小齐写代码

LLM大模型AI能力助力企业数字化智能化转型

百度开发者中心

大模型 #人工智能

Windows10 下 CUDA 新旧多版本共存

北桥苏

Python tensorflow nlp cuda

2023 中国 Serverless 用户调查,邀您填写!

Serverless Devs

云计算 Serverless AIGC

一起学Elasticsearch系列-分词器

Java随想录

Java 大数据 Elast Elastic Search

生成式语言大模型的工程实践

百度开发者中心

自然语言处理 大模型 生成式AI

马斯克发布一封指控 Sam Altman 的匿名信引发猜测,OpenAI “宫斗大戏”终迎结局?

博文视点Broadview

生产效率的革新:腾讯混元大模型实测!

老张

人工智能 大模型

一个基于.NET Core开源、跨平台的仓储管理系统

EquatorCoco

开源 仓储控制系统 .net core

Spark之后,谁将接手大数据_开源_张天雷_InfoQ精选文章