红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

一文看懂大数据领域的六年巨变

  • 2019-02-03
  • 本文字数:914 字

    阅读完需:约 3 分钟

一文看懂大数据领域的六年巨变

在过去的 6 年里,本文的作者一直在关注 Data Eng Weekly(前身是 Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章、产品公告和行业新闻。


今年,作者打算将分析 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其个人项目,来析过去 6 年中的大数据的趋势和变化。


为此,作者抓取并清理了 290 多期内容(使用了 Python 爬虫),保留了与技术、新闻和发布公告相关的文章片段。接下来,他对文章片段进行了一些基本的自然语言处理并应用了一些基本的过滤,最后生成关键字和下下列表。

过去七年的主要趋势

作者绘制了特定关键词被提及次数的月滚动平均值,并将它们绘制在同一个图表上。下面的图表说明了这些技术大约在什么时间点变得越来越流行。

Hadoop 与 Spark


从 2013 年 Spark 开始接管 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。

Hadoop 与 Kafka


Kafka 成为所有大数据技术栈的主要构建块。

Hadoop 与 Kubernetes


Kubernestes 的崛起,尽管 Data Eng Weekly 并不十分关注 DevOps,但却也见证了从 2017 年开始围绕 Kubernetes 在各个领域的全面炒作。

年度热门关键词

我只是简单地画出在给定年份中被提及次数最多的 10 个关键词。

2013 年:Hadoop 的黄金时期!


所有原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流发行版 CDH 和 HDP,除此之外别无其他!

2014 年:Spark 的崛起!


Hadoop 总体上延续了它的统治地位,但 Spark 在这一年推出的第一个版本成为 2014 年最热门的话题!

2015 年:Kafka 来了!


Spark 取代 Hadoop 的一名位的置,Kafka 进入前三。大多数旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。

2016 年:流式处理火热!


2016 年是流式处理年,Kafka 取代了 Hadoop 第二名的位置,Spark(流式处理)继续占据主导地位。

2017:一切向流式处理看齐!


与 2016 年的阵容相同,只是加入了 Flink。

2018 年:回到基础!


Kubernetes 首次亮相,我们回到了基础,试图找出如何管理(K8S)、调度(airflow)和运行(Spark、Kafka、存储……)我们的流。

2019 年:…


现在对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流!


英文原文:


https://blog.marouni.fr/bidata-trends-analysis/


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-02-03 17:005873
用户头像

发布了 731 篇内容, 共 432.0 次阅读, 收获喜欢 1996 次。

关注

评论

发布
暂无评论
发现更多内容

建筑行业区块链应用场景是怎样的

CECBC

区块链 行业资讯

架构师训练营1期第三周作业

木头发芽

MySQL-技术专题-问题分析

洛神灬殇

光大银行刘淼:基于华为云GaussDB(DWS) 数据仓库创新实践

华为云开发者联盟

数据仓库 数据 huawei

spring-boot-route(十)多数据源切换

Java旅途

Java Spring Boot

Python时间序列分析简介(2)

计算机与AI

Python 时间序列

2020年秋招阿里136道Java高级岗面试题(含答案及复习资源)

Java架构之路

Java 程序员 面试 算法 编程语言

互联网应用系统技术方案主要解决什么问题?

博古通今小虾米

PyFlink + 区块链?揭秘行业领头企业 BTC.com 如何实现实时计算

Apache Flink

flink

架构师训练营第四周作业

郎哲158

开源数据库这么香,为什么我们还要下功夫自研?

华为云开发者联盟

数据库 开源 数据

节日快乐…吗?

小天同学

个人感悟 国庆中秋 假期 节日

字节跳动 Flink 单点恢复功能实践

Apache Flink

flink

从构建小系统到架构分布式大系统,Spring Boot2的精髓全在这里了

Java架构之路

Java 程序员 面试 Spring Boot 编程语言

区块链是一个不知道要解决什么问题的解决方案吗?

CECBC

比特币 区块链 银行

31道Java核心面试题,一次性打包送给你

小Q

Java 学习 程序员 架构 面试

国庆期间,我造了台计算机

yes

计算机 底层

开源=免费?

Learun

来不及解释了,快上车!力软快速开发平台,助力企业搭乘万物互联的顺风车

Learun

Java程序员月薪多少K才能在北上广买得起房?

Java架构之路

Java 程序员 编程语言

EffectiveJava读书笔记-01-对象创建与销毁

wander

读书笔记 编程开发

MySQL-技术专题-查询速度性能

洛神灬殇

技术实操丨SoundNet迁移学习之由声音分类到语音情感识别

华为云开发者联盟

AI 数据 语音识别

程序员去外包真的不可取吗?

Java架构师迁哥

架构师训练营第四章 系统架构总结

郎哲158

lldb常用命令与调试技巧

iOSer

ios lldb常用命令 lldb调试技巧

深入分析CRM系统对现代企业的作用

Learun

Nacos-技术专题-配置中心实现

洛神灬殇

区块链教育 丨 首批区块链专业新生正式入学

CECBC

区块链技术 区块链教育

SpringBoot-技术专题-启动原理

洛神灬殇

Web前后端:如何分离,如何解耦?

华为云开发者联盟

大前端 后端 开发

一文看懂大数据领域的六年巨变_大数据_Abbass Marouni_InfoQ精选文章