写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:283143
用户头像

发布了 92 篇内容, 共 52.0 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

简单上云第一步!华为云Flexus应用服务器L实例亮相华为云618营销季

YG科技

Git 开发规范

玄兴梦影

git

基于协同过滤技术的网上书城设计实现(源码+lw+部署文档+讲解等)

hunter_coder

后端开发

基于微信小程序的校园维修管理系统-开题报告参考

hunter_coder

后端开发

基于微信小程序+Springboot线上租房平台设计和实现【三端实现小程序+WEB响应式用户前端+后端管理】

hunter_coder

人工智能 openai

基于django(爱抚宠物) 小程序设计和实现(源码+LW+部署讲解)

hunter_coder

后端开发

上新:NFTScan 正式上线 Bitcoin-brc20 浏览器!

NFT Research

NFT\ NFTScan API】

Shell 函数深入解析与实践

左诗右码

Shell

海量数据处理利器 Roaring BitMap 原理介绍

vivo互联网技术

大数据处理 BitMap Roaringbitmap

TDengine 签约红有软件,优化信息化基础开发平台

TDengine

数据库 涛思数据 tdengine 时序数据库

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS ConnectX-3 网卡定制版 (集成驱动版)

sysin

esxi OEM BIOS unlocker ConnectX-3

INFINI Labs 助力开源与教育:免费许可证计划全面升级

极限实验室

easysearch Pizza 免费许可证

技术解读数据库如何实现“多租户”?

华为云开发者联盟

数据库 sql 华为云 华为云开发者联盟 企业号2024年6月PK榜

市场的变化比理论更快,中小企业AI转型的金蝶经验

B Impact

万界星空科技定制化MES系统帮助实现数字化生产

万界星空科技

生产管理系统 mes 定制开发 万界星空科技 定制MES

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章