写点什么

一文看懂大数据领域的六年巨变

  • 2019-02-03
  • 本文字数:914 字

    阅读完需:约 3 分钟

一文看懂大数据领域的六年巨变

在过去的 6 年里,本文的作者一直在关注 Data Eng Weekly(前身是 Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章、产品公告和行业新闻。


今年,作者打算将分析 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其个人项目,来析过去 6 年中的大数据的趋势和变化。


为此,作者抓取并清理了 290 多期内容(使用了 Python 爬虫),保留了与技术、新闻和发布公告相关的文章片段。接下来,他对文章片段进行了一些基本的自然语言处理并应用了一些基本的过滤,最后生成关键字和下下列表。

过去七年的主要趋势

作者绘制了特定关键词被提及次数的月滚动平均值,并将它们绘制在同一个图表上。下面的图表说明了这些技术大约在什么时间点变得越来越流行。

Hadoop 与 Spark


从 2013 年 Spark 开始接管 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。

Hadoop 与 Kafka


Kafka 成为所有大数据技术栈的主要构建块。

Hadoop 与 Kubernetes


Kubernestes 的崛起,尽管 Data Eng Weekly 并不十分关注 DevOps,但却也见证了从 2017 年开始围绕 Kubernetes 在各个领域的全面炒作。

年度热门关键词

我只是简单地画出在给定年份中被提及次数最多的 10 个关键词。

2013 年:Hadoop 的黄金时期!


所有原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流发行版 CDH 和 HDP,除此之外别无其他!

2014 年:Spark 的崛起!


Hadoop 总体上延续了它的统治地位,但 Spark 在这一年推出的第一个版本成为 2014 年最热门的话题!

2015 年:Kafka 来了!


Spark 取代 Hadoop 的一名位的置,Kafka 进入前三。大多数旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。

2016 年:流式处理火热!


2016 年是流式处理年,Kafka 取代了 Hadoop 第二名的位置,Spark(流式处理)继续占据主导地位。

2017:一切向流式处理看齐!


与 2016 年的阵容相同,只是加入了 Flink。

2018 年:回到基础!


Kubernetes 首次亮相,我们回到了基础,试图找出如何管理(K8S)、调度(airflow)和运行(Spark、Kafka、存储……)我们的流。

2019 年:…


现在对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流!


英文原文:


https://blog.marouni.fr/bidata-trends-analysis/


2019-02-03 17:006248
用户头像

发布了 731 篇内容, 共 474.8 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

GLTF编辑器实现逼真的石门模型

3D建模设计

WebGL 3D渲染 three.js 材质纹理贴图 3D材质编辑

从0到1快速入门ETLCloud

谷云科技RestCloud

ETL 数据集成平台 数据集成工具

语音数据集:智能语音技术的燃料与推动力

数据堂

SVN客户端:Cornerstone mac版的配置与使用 附Cornerstone许可证

Rose

cornerstone 4破解 Mac版Cornerstone许可证 Cornerstone使用教程 Cornerstone如何配置

恭喜神州数码集团,荣获“TiDB 社区最佳贡献企业”

TiDB 社区干货传送门

写实风格3D模型材质贴图

3D建模设计

WebGL 3D渲染 three.js 材质纹理贴图 3D材质编辑

Microsoft Office LTSC 2021 Mac版授权许可下载

Rose

office2021下载 Office LTSC 2021 office2021 Mac破解版 office许可证下载

1688商品详情数据接口(1688.item_get)

tbapi

1688API接口 1688商品数据接口 1688商品详情数据接口 1688数据接口 1688商品详情API接口

【火热报名中】TiDB 社区活动在北京:1月7日(周日)新年围炉茶会,来唠唠嗑,回顾过去一年,展望未来

TiDB 社区干货传送门

一个 39.3T 的集群从TiDB v3.1.0迁移升级到 TiDB v7.1.2 的实践

TiDB 社区干货传送门

迁移 实践案例 版本升级 大数据场景实践 7.x 实践

Topaz Photo AI 在导入图像时冻结 (Mac)

Rose

Topaz Photo AI 无法启动 Mac图像编辑

苹果Mac图像修图软件Photomator和Pixelmator Pro 有什么区别?

Rose

Pixelmator Pro Mac修图软件 Photomator

苹果mac视频下载器:Downie4下载画质的设置方法

Rose

Mac 视频下载工具 Downie4许可证 Downie 4 Mac版 Downie4清晰度设置

家页观察丨万华生态绿色化、工业化、数字化助力城市更新

极客天地

GLTF编辑器-位移贴图实现破碎的路面

3D建模设计

WebGL 3D渲染 three.js 材质纹理贴图 3D材质编辑

TiDB-Server 常用 API

TiDB 社区干货传送门

管理与运维

Mac值得推荐SSH终端工具mac securecrt-支持M1/M2

Rose

mac软件下载 SecureCRT下载 SecureCRT Mac破解版 ssh终端工具下载 SecureCRT 安装教程

语音数据集:开启智能语音技术的新篇章

数据堂

阿拉丁「全网小程序创新与发展共话系列峰会·杭州站」完美落幕

极客天地

如何使用 Transmit mac高效管理远程文件?

Rose

Transmit下载 Transmit mac使用教程 Mac远程管理软件 Transmit 中文 版

超60%项目来自高校科研院所 | 2023值得关注的硬科技创变者50强重磅发布

创业邦

喜讯!云起无垠获评ISC 2023数字安全创新能力百强双料大奖

云起无垠

解决Mac苹果上运行VMware Fusion虚拟机提示“未找到文件”的方法

Rose

未找到文件 VMware Fusion虚拟机 Mac虚拟机下载 VM激活秘钥

GLTF 编辑器实现逼真3D动物毛发效果

3D建模设计

WebGL 3D渲染 three.js 材质纹理贴图 3D材质编辑

一篇文章彻底搞懂TiDB集群各种容量计算方式

TiDB 社区干货传送门

监控 管理与运维 TiDB 源码解读 TiKV 源码解读

TiDB Placement Rule实战总结

TiDB 社区干货传送门

实践案例 6.x 实践 大数据场景实践 7.x 实践

TiDB是如何在国有大银行实现数据库业务“一换三”的

TiDB 社区干货传送门

7.x 实践

解析小红书笔记详情API的最佳实践与案例分享

技术冰糖葫芦

API

哪里有Parallels虚拟机资源?如何安装激活PD虚拟机?

Rose

Mac虚拟机下载 Parallels虚拟机下载 PD虚拟机授权秘钥

Axure RP授权码 附汉化包下载 兼容M/intel

Rose

Axure RP 9汉化 Axure RP 9授权码 Axure RP 10 汉化版 mac破解软件下载 mac原型设计软件

3D 渲染如何帮助电商促进销售?

3D建模设计

WebGL 3D渲染 three.js 材质纹理贴图 3D材质编辑

一文看懂大数据领域的六年巨变_大数据_Abbass Marouni_InfoQ精选文章