深入浅出Spark(一):内存计算的由来

2020 年 9 月 14 日

深入浅出Spark(一):内存计算的由来

专题介绍

2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Apache 顶级项目。

如今,十年光景已过,Spark 成为了大大小小企业与研究机构的常用工具之一,依旧深受不少开发人员的喜爱。如果你是初入江湖且希望了解、学习 Spark 的“小虾米”,那么 InfoQ 与 FreeWheel 技术专家吴磊合作的专题系列文章——《深入浅出 Spark:原理详解与开发实践》一定适合你!

本文系专题系列第一篇。

自 Spark 问世以来,已有将近十年的光景。2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Apache 顶级项目。

2014,是个久远的年代,那个时候,大数据江湖群雄并起,门派林立。论内功,有少林派的 Hadoop,Hadoop 可谓德高望重、资历颇深,2006 年由当时的互联网老大哥 Yahoo!开源并迅速成为 Apache 顶级项目。所谓天下武功出少林,Hadoop 的三招绝学:HDFS(分布式文件系统)、YARN(分布式调度系统)、MapReduce(分布式计算引擎),为各门各派武功绝学的发展奠定了坚实基础。论阵法,有武当派的 Hive,Hive 可谓是开源分布式数据仓库的鼻祖。论剑法,有峨眉派的 Mahout,峨眉武功向来“一树开五花、五花八叶扶”,Mahout 在分布式系统之上提供主流的经典机器学习算法实现。论轻功,有昆仑派的 Storm,在当时,Storm 轻巧的分布式流处理框架几乎占据着互联网流计算场景的半壁江山。

原文链接:【 https://www.infoq.cn/article/oPpQzsJIFopeBpzVcbx7 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2020 年 9 月 14 日 13:31 2372
用户头像
陈思 InfoQ编辑

发布了 316 篇内容,共 4814 次阅读,收获喜欢 1 次。

关注

评论

发布
暂无评论
  • 腾讯大数据之 TDW 计算引擎解析——Shuffle

    腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求,TDW也在向实时化方向发展,为用户提供更加高效、稳定、丰富的服务。

  • Spark 之后,谁将接手大数据

    继MapReduce之后,Spark技术异军突起。在五年时间内,Spark完成了从研究性项目到Apache基金会顶级项目的转变。那么,在飞速发展的大数据领域,谁将替代Spark成为主流处理框架呢?本文就该问题进行了探讨。

  • PayPal 高可用在线 AI 计算平台

    2018 年 12 月 18 日

  • 流计算与消息(一):通过 Flink 理解流计算的原理

    流计算框架本身并没有什么神奇的技术,之所以能够做到非常好的性能,主要有两个原因。

    2019 年 10 月 1 日

  • Apache Beam 实战指南 | 玩转大数据存储 HDFSIO

    本文是Apache Beam实战指南系列文章的第三篇内容,将对Beam框架中的HDFSIO和MySQLIO源码进行剖析。

  • 大数据架构:大数据技术架构的思想和原理是什么?

    面对如此庞大的数据,如何存储,如何利用大规模的服务器集群处理计算大量的数据,就是大数据技术的核心关键。

    2020 年 2 月 3 日

  • 架构师(4 月刊)

    Spark正在占据越来越多的大数据新闻的重要位置,除了性能优异,Spark到底 具备了那些特性,让学术界和工业界对其充满了兴趣?同时,Spark还处在快 速发展的阶段,开发者和用户不得不解决不稳定和bug,Scala语言也有较高的 学习门槛,这些也会成为Spark普及的障碍。当然,尽管Spark提供了一栈式的 大数据方案,但并不意味着他适合任何场景。 IT技术早已没有什么银弹,任何一门技术都是在已有技术和理论的基础上的优 化和革新。正是借鉴和延续了MapReduce、Hive、Dryad、Strom、 GraphLab,才有了Spark。希望通过本期内容,能够帮助大家更好的理解 Spark,希望大家有所收获。

  • QCon 专访彭渊:Fourinone 是俄罗斯套娃中最小的一个

    淘宝Fourinone是一个自主研发的分布式并行计算框架,它集成了Hadoop,Zookeeper,MQ,分布式缓存四大主要的分布式计算功能,Fourinone的功能强大用途广泛,它实现了zookeeper的所有功能并进行了很多改进,它同时又提供完整的分布式缓存支持,包括中小型缓存以及大型集群缓存,它使用不同于map/reduce的全新设计模式解决问题,模仿现实中生产加工链式加并行处理的“包工头/农民工/手工仓库/职业所”方式设计分布式计算,它还可以当做简单的mq使用。Fourinone整体短小精悍,就一个jar包没有任何依赖,很方便嵌入式开发使用。本主题将详细介绍Fourinone的架构、原理和使用场景。

  • 我们并没有觉得 MapReduce 速度慢,直到 Spark 出现

    Spark拥有更快的执行速度和更友好的编程接口,在推出后短短两年就迅速抢占MapReduce的市场份额,成为主流的大数据计算框架。

    2018 年 11 月 24 日

  • 理解 Spark 的核心 RDD

    要理解Spark,就需得理解RDD。

发现更多内容

区块链支付系统源码开发,USDT承兑支付平台

13530558032

数字货币钱包系统定制开发,区块链钱包源码

13530558032

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

滴滴技术

大数据 elasticsearch 滴滴技术

可编程网卡芯片在滴滴云网络的应用实践

滴滴技术

云计算 芯片 滴滴技术

为什么阿里巴巴的程序员成长速度这么快,看完他们的内部资料我明白了

Java迁哥

Java 阿里巴巴 程序员 成长 笔记

区块链交易所开发源码,数字货币交易所app开发

13530558032

浅析LR.Net工作流引擎

Learun

.net 敏捷开发 工作流

花两个半月吃透这份Java手打面经,成功从外包上岸到京东

Java迁哥

Java 学习 腾讯 面试 资料

程序员如何获取一份高薪工作?阿里P8大牛给你一些中肯的建议

Java迁哥

Java 华为 程序员 面试 资料

合约跟单系统开发,数字货币合约跟单软件搭建

13530558032

滴滴数据通道服务演进之路

滴滴技术

大数据 滴滴技术 数据服务通道

区块链技术成为金融业务应用热点

CECBC区块链专委会

区块链 人工智能 金融

分布式QoS算法解析

焱融科技

分布式 算法 焱融科技 分布式文件存储 QoS

架构师 0 期第十二周命题作业

何伟敏

某Java程序员在外包公司每天读写删改几年后,发现跳不出来了

Java成神之路

Java spring 程序员 面试 架构师

week12 homework

burner

LeetCode题解:84. 柱状图中最大的矩形,双循环暴力,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

第 0 期架构师训练营第 8 周作业2-总结

天上星亮晶晶

突破传统 区块链如何实现病历永存

CECBC区块链专委会

区块链 电子病历 信息共享

9块钱,构建个私有网盘,关键不限速

华为云开发者社区

网站 OBS 在线网盘 华为云 云存储

week12学习总结

burner

迭代技术方案设计文档规范

程序员技术进阶

技术方案

第 0 期架构师训练营第 8 周作业 1

天上星亮晶晶

基于Prometheus的微服务应用监控

易观大数据

GPU虚拟机创建时间深度优化

滴滴技术

云计算 虚拟化 滴滴技术

鲲鹏迁移第一批吃螃蟹的人,践行技术国际化

华为云开发者社区

鲲鹏920 服务器 华为云 ARM芯片 X86

35K成功上岸华为商城事业部,只因学透了这几个开源的商城项目

Java迁哥

Java 华为 源码 资料 商城项目

前阿里P8甩我一份内部SpringCloud笔记手册,真香

Java成神之路

Java 阿里巴巴 程序员 Spring Cloud 架构师

隐私计算会成为“金融”向“数科”转型的一剂猛药?

hellompc

拥抱K8S系列-03-服务器部署应用和docker部署应用区别(MySQL篇)

张无忌

MySQL Docker 运维

滴滴推理引擎IFX:千万规模设备下AI部署实践

滴滴技术

人工智能 机器学习 AI 滴滴技术 IFX

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

深入浅出Spark(一):内存计算的由来-InfoQ