写点什么

“后 Hadoop 时代”技术热力跃迁:《2022 开源大数据热力报告》重磅发布

  • 2022-11-05
    北京
  • 本文字数:1365 字

    阅读完需:约 4 分钟

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布

11 月 5 日,在 2022 云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab 开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。

 

开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的 102 个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”:每隔 40 个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去 8 年里,发生了 5 次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。



定量分析“后 Hadoop 时代”开源趋势


Hadoop 作为开源大数据技术的起源,兴起于 2006 年,至今已有 16 年历史。我们收集了从 Hadoop 发展第 10 年(即 2015 年)至今的相关公开数据,并进行了关联分析,定义了开源项目热力值研究模型,使用量化指标,来刻画开源项目的开发迭代活跃度和受开发者欢迎程度。

 

报告所呈现的开源大数据热力图,从技术全景、技术栈分类以及项目维度对入围项目的热力表现进行洞察,将项目进程中的关键事件与热力表现关联分析,并访谈了开源基金会、知名开源项目等领域专家,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。

 

开源大数据技术的“摩尔定律”即将打破


报告发现,每隔 40 个月,热力值会提升 1 倍,开源大数据完成一轮技术迭代升级,而且技术周期在加速缩短。在 8 年时间内,发生了多轮热力变迁,反映出背后技术的更新换代趋势。开发者对「数据查询与分析」保持了长期的开发热情,这一技术栈连续 8 年位于热力值榜首。2017 年,「流处理」热力值超过「批处理」,大数据处理进入实时阶段。随着数据规模越来越大,数据结构更多样化,「数据集成」从 2020 年开始爆发式增长。

三大热力趋势:多元化、一体化和云原生


用户需求多样化推动技术多元化。「数据湖」以 34%的热力值年均复合增长率高居热力值增速第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位 。而原有 Hadoop 体系的产品迭代则趋于稳定,热力值年均复合增长率为 1%。


从 2015 年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在 2019 年出现第一个热力峰值。以数据湖存储为代表的存储一体化从 2019 年起进入了一个新的发展阶段,涌现了 Delta Lake、 Iceberg 和 Hudi 等热点项目。


云原生大规模重构开源技术栈。诞生于云原生时代的开源项目如雨后春笋般破土成长。「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了 80%。

开源大数据热力榜单 TOP30


本报告从 102 个入围项目中,评选出了 TOP30 热力榜单。Kibana 以 989.40 的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的 TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel 等一众中国开源项目也表现出高热力趋势。把解决用户痛点作为核心竞争力,是这些优秀开源项目的共同特征,这一特征保证它们与时俱进,成为热力趋势中的“常青树”。

 


致谢:感谢开源中国、InfoQ 和阿里云开发者社区的战略支持,感谢对本报告内容产出做出重要贡献的 32 位专家和贡献者,感谢合作社区 CSDN、DataFun、Segmentfault 思否、开源社等。

 

完整报告下载地址:https://www.infoq.cn/minibook/bKbCdRfqi0X9AQkQBPGl

 

2022-11-05 15:057138

评论

发布
暂无评论
发现更多内容

2022 年,这 20+22 位共建者闪耀 StarRocks 社区

StarRocks

数据库 开源

邮箱中的Qt线程设计

统信软件

邮箱 邮箱系统

细数华为云云原生产品及五大开源实践

华为云开发者联盟

云计算 云原生 后端 华为云 企业号 1 月 PK 榜

构建api gateway - 序与目录

八苦-瞿昙

Gateway API Gateway build api gateway

视觉大模型训练和推理加速

Baidu AICLOUD

异构计算 AI加速 云原生AI 百度百舸

《迷你世界》亿级玩家都在用的游戏场景推荐系统长啥样?

华为云开发者联盟

数据库 后端 华为云 企业号 1 月 PK 榜

“新范式”——2022创业邦100未来独角兽峰会暨创业邦年会圆满落幕

创业邦

鲸品堂:2023你好

鲸品堂

技术人

《SBOM: 提高软件供应链透明度的关键》重磅白皮书来袭

安势信息

SCA SBOM 清源CleanSource SCA 安势信息 开源软件供应链安全

大咖说·阿里云瑶池|电商业务与数据库技术发展的双向奔赴

大咖说

数据库 电商

如何使用 NFTScan 追踪 NFT 巨鲸

NFT Research

NFT 数据基础设施

音视频开发进阶|第七讲:分辨率与帧率·上篇

ZEGO即构

Intel 联合测试:YMatrix 并发查询 TPS 最高达 163 万

YMatrix 超融合数据库

intel 超融合数据库 HTAP 场景实践 YMatrix tpcb

消息服务 + Serverless 函数计算如何助力企业降本提效?

阿里巴巴云原生

阿里云 云原生 消息队列

Java常见异常:NPE空指针异常怎么解决?

千锋IT教育

使用QuTrunk+AWS ParallelCluster3进行并行计算

启科量子开发者官方号

量子计算

阿里云专有云重磅亮相中国信通院2022混合云技术发展论坛

云布道师

阿里云 混合云

解密秒杀系统架构:不是所有的秒杀都是秒杀

华为云开发者联盟

后端 开发 华为云 企业号 1 月 PK 榜

开源共创,StarRocks 祝您 2023 年前 “兔” 无量!

StarRocks

数据库 开源

专注软件供应链安全,「安势信息」完成数千万元级别Pre-A轮融资

安势信息

开源安全 开源软件供应链 安势信息 Pre-A轮融资 开源软件供应链安全

袋鼠云产品功能更新报告03期丨产品体验全面优化,请查收!

袋鼠云数栈

大数据

Spring Security怎么添加图片验证功能?

小小怪下士

Java spring spring security

技术贴 | SQL编译与执行-parser

KaiwuDB

14条日常维护LED显示屏的建议

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

Polaris 和 dubbogo 全面对接,让微服务更简单

阿里巴巴云原生

阿里云 云原生 dubbogo

什么是A/B实验,为什么要开A/B实验?

字节跳动数据平台

大数据 AB testing实战

从开源安全看汽车安全新挑战

安势信息

开源安全 汽车安全 SBOM 开源漏洞 清源CleanSource SCA

如何看待PyTorch 2.0?

OneFlow

人工智能 深度学习 PyTorch

性能测试技术笔记(一):如何快速上手压测工作

老张

性能测试

天翼账号网关系统架构演进历程

Sean Chen

高并发 API网关 Kong 网关 天翼账号 网关演进

专精特新小巨人VC/PE覆盖率24.2%;上市649家;北京以589家位居城市榜首丨创业邦发布《2022专精特新小巨人发展报告》

创业邦

“后Hadoop时代”技术热力跃迁:《2022开源大数据热力报告》重磅发布_语言 & 开发_阿里巴巴开源委员会_InfoQ精选文章