东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

“后 Hadoop 时代”技术热力跃迁:《2022 开源大数据热力报告》重磅发布

  • 2022-11-05
    北京
  • 本文字数:1365 字

    阅读完需:约 4 分钟

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布

11 月 5 日,在 2022 云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab 开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。

 

开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的 102 个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔 40 个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去 8 年里,发生了 5 次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。



定量分析“后 Hadoop 时代”开源趋势


Hadoop 作为开源大数据技术的起源,兴起于 2006 年,至今已有 16 年历史。我们收集了从 Hadoop 发展第 10 年(即 2015 年)至今的相关公开数据,并进行了关联分析,定义了开源项目热力值研究模型,使用量化指标,来刻画开源项目的开发迭代活跃度和受开发者欢迎程度。

 

报告所呈现的开源大数据热力图,从技术全景、技术栈分类以及项目维度对入围项目的热力表现进行洞察,将项目进程中的关键事件与热力表现关联分析,并访谈了开源基金会、知名开源项目等领域专家,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。

 

开源大数据技术的“摩尔定律”即将打破


报告发现,每隔 40 个月,热力值会提升 1 倍,开源大数据完成一轮技术迭代升级,而且技术周期在加速缩短。在 8 年时间内,发生了多轮热力变迁,反映出背后技术的更新换代趋势。开发者对「数据查询与分析」保持了长期的开发热情,这一技术栈连续 8 年位于热力值榜首。2017 年,「流处理」热力值超过「批处理」,大数据处理进入实时阶段。随着数据规模越来越大,数据结构更多样化,「数据集成」从 2020 年开始爆发式增长。

三大热力趋势:多元化、一体化和云原生


用户需求多样化推动技术多元化。「数据湖」以 34%的热力值年均复合增长率高居热力值增速第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位 。而原有 Hadoop 体系的产品迭代则趋于稳定,热力值年均复合增长率为 1%。


从 2015 年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在 2019 年出现第一个热力峰值。以数据湖存储为代表的存储一体化从 2019 年起进入了一个新的发展阶段,涌现了 Delta Lake、 Iceberg 和 Hudi 等热点项目。


云原生大规模重构开源技术栈。诞生于云原生时代的开源项目如雨后春笋般破土成长。「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了 80%。

开源大数据热力榜单 TOP30


本报告从 102 个入围项目中,评选出了 TOP30 热力榜单。Kibana 以 989.40 的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的 TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel 等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常青树”。

 


致谢:感谢开源中国、InfoQ 和阿里云开发者社区的战略支持,感谢对本报告内容产出做出重要贡献的 32 位专家和贡献者,感谢合作社区 CSDN、DataFun、Segmentfault 思否、开源社等。

 

完整报告下载地址:https://www.infoq.cn/minibook/bKbCdRfqi0X9AQkQBPGl

 

2022-11-05 15:055437

评论

发布
暂无评论
发现更多内容

一个约定让全球数万AI爱好者相聚,它是如何做到的?

硬科技星球

[架构实战营]模块九作业

xyu

#架构实战营

区块链通证经济和传统经济的区别,如何实现

CECBC

10月活动推荐:2021上汽集团“新四化”技术高峰论坛

SOA开发者

gitee上提交PR和issue流程和注意事项

Geek_6cdeb6

机器学习 深度学习 git

怒肝 Linux 学习路线,这回不难

程序员鱼皮

Linux 编程 后端 开发 java

4年CRUD小职员,五面阿里艰苦经历(定薪45K),回馈一波心得体会

收到请回复

Java 程序员 面试 后端 面经

面试多次被拒,“两个月”61天,我收到了蚂蚁金服P7级的offer

Java spring 程序员 架构 编程语言

车云一体的应用价值

SOA开发者

The Data Way Vol.5|这里有一场资本与开源的 battle

SphereEx

开源 播客 ShardingSphere SphereEx

为了让你搞定数据库选型,这些工程师重写了 26 万行代码

SphereEx

数据库 架构 架构设计 ShardingSphere SphereEx

嵌入式软件时序(1)— C语言是怎么编译出来的

SOA开发者

声网 2020 实时大会后的弱网对抗实践

声网

音视频 网络环境 视频编解码 弱网下的极限实时视频通信

双非本科猛斩6个offer,秘籍公开!

Java 程序员 架构 面试 后端

AUTOSAR基础篇之OS(上)

SOA开发者

Python代码阅读(第35篇):完全(深度)展开嵌套列表

Felix

Python 编程 Code Programing 阅读代码

RUOYI 框架教程 15|若依框架中 Mysql 操作 | 日期处理

Java_若依框架教程

Java 技术 Ruoyi 框架 若依

Rtmp Message 与 Chunk格式

webrtc developer

RTMP

观测云产品更新|新增主机网络性能监测、图表矩形树图、多监测关联查询等功能

观测云

功能更新

区块链通证经济的意义

CECBC

总结出这份学习笔记,帮助朋友成功跳槽!六年阿里工作,苦熬到 P7经验分享!

Java 程序员 架构 后端 工程师

RUOYI 框架教程 16|关于若依RuoYi.jar卡顿,僵死,假死,系统无反映解决方案

Java_若依框架教程

技术 Ruoyi 开发 框架 若依

横空出世!IDEA画图神器来了,比Visio快10倍

收到请回复

Java IDEA idea插件

MongoDB中文社区 Freetalk,一起来玩快闪!

MongoDB中文社区

mongodb

ToB产品如何自传播(上)

石云升

产品经理 产品设计 产品思维 10月月更

凌晨加班回家路上捡到阿里技术人限产的MySQL高级笔记及面试宝典,从此我的人生像开挂一样!

Java 架构 面试 程序人生 编程语言

解读业界5种主流的深度网络模型

华为云开发者联盟

模型 网络模型 模型优化 模型量化 深度网络

基于HarmonyOS分布式技术,他们让绘画体验更为出色

Geek_283163

鸿蒙

没想到!阿里技术大佬独家收藏的pring全家桶小册,竟被我意外发现!

Java 架构 面试 程序人生 编程语言

2021金九银十Java面试经历:腾讯5面(已拿offer)

Java 编程 程序员 架构 面试

神马操作!Kafka 竟然宣布弃用 Java 8

收到请回复

Java kafka 后端 java8

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布_语言 & 开发_阿里巴巴开源委员会_InfoQ精选文章