写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:283115
用户头像

发布了 92 篇内容, 共 51.7 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

从原理到实践,拆解人工智能的神秘面纱

测吧(北京)科技有限公司

测试

NineData与OceanBase携手完成产品兼容认证,共筑企业级数据库新生态

NineData

数据库 oceanbase 兼容 NineData 奥星贝斯

京东JD商品详情API引领电商智能化新潮流

技术冰糖葫芦

API 接口

观测云产品更新 | 监控器、场景图表、链路等优化

观测云

监控 链路

OpenTiny 妇女节限时特别活动来啦~

OpenTiny社区

开源 Vue 前端 低代码 组件库

Sharding-JDBC源码解析与vivo的定制开发

vivo互联网技术

源码解析 sharding-jdbc 定制开发

【技术探讨】无线通信模块拉距测试,是否一定要带笔记本电脑?

Geek_ab1536

RAG一文读懂!概念、场景、优势、对比微调与项目代码示例

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 开发者说 rag

长连接网关技术专题(十):百度基于Go的千万级统一长连接服务架构实践

JackJiang

即时通讯;IM;网络编程

TDengine 3.2.3.0 版本发布,流计算等八大板块功能更新

TDengine

tdengine 时序数据库

从原理到实践,拆解人工智能的神秘面纱

测试人

软件测试

新规正式发布 | 百度深度参编《生成式人工智能服务安全基本要求》

百度安全

探索基于Stable Diffusion的智能绘画大模型

百度开发者中心

人工智能 大模型 绘画工具

探索AI绘画的无限可能:一站式集成大模型工具

百度开发者中心

人工智能 大模型 AI绘画

义乌等保测评公司有哪些?用哪款堡垒机好?

行云管家

等保 义乌

比特币BRC20铭文智能打币工具开发

薇電13242772558

BRC-20

使用 SPL 高效实现 Flink SLS Connector 下推

阿里巴巴云原生

阿里云 云原生 sls

揭秘QQ的AI绘画大模型技术——QQGC深度解析

百度开发者中心

大模型 绘画

简单聊聊租户隔离定义以及优势

行云管家

IT运维 租户 租户隔离

[自研开源] MyData 使用手册v0.7.1

LIEN

开源 数据集成 业务融合 API对接 mydata

直播预告|小白开箱: 云数据库在五朵云上的评测

NineData

评测 选型 云数据库 NineData 云猿生

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章