2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

一文看懂大数据领域的六年巨变

  • 2019-02-03
  • 本文字数:914 字

    阅读完需:约 3 分钟

一文看懂大数据领域的六年巨变

在过去的 6 年里,本文的作者一直在关注 Data Eng Weekly(前身是 Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章、产品公告和行业新闻。


今年,作者打算将分析 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其个人项目,来析过去 6 年中的大数据的趋势和变化。


为此,作者抓取并清理了 290 多期内容(使用了 Python 爬虫),保留了与技术、新闻和发布公告相关的文章片段。接下来,他对文章片段进行了一些基本的自然语言处理并应用了一些基本的过滤,最后生成关键字和下下列表。

过去七年的主要趋势

作者绘制了特定关键词被提及次数的月滚动平均值,并将它们绘制在同一个图表上。下面的图表说明了这些技术大约在什么时间点变得越来越流行。

Hadoop 与 Spark


从 2013 年 Spark 开始接管 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。

Hadoop 与 Kafka


Kafka 成为所有大数据技术栈的主要构建块。

Hadoop 与 Kubernetes


Kubernestes 的崛起,尽管 Data Eng Weekly 并不十分关注 DevOps,但却也见证了从 2017 年开始围绕 Kubernetes 在各个领域的全面炒作。

年度热门关键词

我只是简单地画出在给定年份中被提及次数最多的 10 个关键词。

2013 年:Hadoop 的黄金时期!


所有原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流发行版 CDH 和 HDP,除此之外别无其他!

2014 年:Spark 的崛起!


Hadoop 总体上延续了它的统治地位,但 Spark 在这一年推出的第一个版本成为 2014 年最热门的话题!

2015 年:Kafka 来了!


Spark 取代 Hadoop 的一名位的置,Kafka 进入前三。大多数旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。

2016 年:流式处理火热!


2016 年是流式处理年,Kafka 取代了 Hadoop 第二名的位置,Spark(流式处理)继续占据主导地位。

2017:一切向流式处理看齐!


与 2016 年的阵容相同,只是加入了 Flink。

2018 年:回到基础!


Kubernetes 首次亮相,我们回到了基础,试图找出如何管理(K8S)、调度(airflow)和运行(Spark、Kafka、存储……)我们的流。

2019 年:…


现在对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流!


英文原文:


https://blog.marouni.fr/bidata-trends-analysis/


2019-02-03 17:006285
用户头像

发布了 731 篇内容, 共 480.5 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

多模态大模型,更丰富的数据要求

澳鹏Appen

多模态 多模态数据 LLM

AI语音转录软件AI Transcription for Mac激活版

小玖_苹果Mac软件

智能图像清晰度处理软件Perfectly Clear Workbench for Mac激活版

小玖_苹果Mac软件

文字处理软件Mellel 6 for Mac激活版

小玖_苹果Mac软件

AICon北京站HarmonyOS技术分论坛开启招募,欢迎开发者踊跃报名

最新动态

技术同学如何提升业务洞察力

老张

软件开发 系统架构 技术视野 业务洞察力

AE2025 After Effects 2025 for mac中文激活版

小玖_苹果Mac软件

专业核磁数据处理软件MestReNova for Mac激活版

小玖_苹果Mac软件

文件夹数据同步工具Sync Folders Pro for Mac激活版

小玖_苹果Mac软件

文件拖拽增强工具Dropzone 4 for Mac激活版

小玖_苹果Mac软件

开放创新,释放云上数字生产力|2024华为云开源开发者论坛圆满落幕

华为云开源

开发者 云原生 前端 开发者大会 华为云开源

磁盘垃圾清理工具Magic Disk Cleaner for Mac激活版

小玖_苹果Mac软件

干货!适合TikTok运营的工具推荐

Ogcloud

TikTok tiktok运营 TikTok矩阵运营 tiktok起号 tiktok运营干货

融云 IM 基于 Rust 的鸿蒙 SDK 开发实践

融云 RongCloud

AI 口语学习应用 Speak 新一轮融资估值 10 亿美元;YouTube 推出 AI 多语言配音丨 RTE 开发者日报

声网

CAD建模软件BricsCAD 25 for Mac中文激活版

小玖_苹果Mac软件

富士胶片中国可持续发展报告获上海跨国公司地区总部优秀ESG报告

财见

天翼云携手华为共建魔乐社区,共创AI生态新篇章

极客天地

Ape-DTS:开源 DTS 工具,助力自建 MySQL、PostgreSQL 迁移上云

小猿姐

MySQL 数据库 postgresql 数据传输 数据迁移

C语言之输入输出

不在线第一只蜗牛

C# 开发语言

【开源大屏】玩转开源积木BI,从0到1设计一个大屏

JEECG低代码

数据分析 数据可视化 BI 分析工具 数据大屏

【论文速读】| AutoPT:研究者距离端到端的自动化网络渗透测试还有多远?

云起无垠

Mac杀毒软件 Antivirus Zap Pro for Mac激活版

小玖_苹果Mac软件

年终总结报告ppt怎么做?用AI工具快速自动生成!

职场工具箱

职场 PPT 年终总结 AIGC AI生成PPT

AutoMQ 如何在 AWS 上避免 Kafka 跨 AZ 网络传输费用

AutoMQ

kafak Java开发分析工具 AutoMQ AZs 好文翻译

一文看懂大数据领域的六年巨变_大数据_Abbass Marouni_InfoQ精选文章