写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:283091
用户头像

发布了 92 篇内容, 共 51.5 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

最全互联网后端免费技术分享视频资源学习社区

hanaper

Goroutine & Channel

Vibyird

并发编程 channel CSP Go 语言 goroutine

区块链应用:从技术工具到创新思维

CECBC

Python实现发送邮件(实现单发/群发邮件验证码)

Python研究者

8月日更

联邦计算能力,让企业异构数据源数据合作畅通无阻

星环科技

异构数据 联邦计算

云行、数治、慧用 打造直抵基层的数字化高速公路

云计算

区块链产业大爆发!未来究竟是谁的机会?

CECBC

技术实践|网易云信 IM SDK 服务高可用技术方案

网易云信

后端

fil挖矿步骤教程是什么?fil挖矿规则是什么?

fil挖矿步骤教程是什么 fil挖矿规则是什么

读书笔记-《数据密集型应用系统设计》-概论

KayTin

女巫面具软件开发

(王经理)专业app小程序开发

易灸灸系统开发

(王经理)专业app小程序开发

RocketMQ-学习记录

春秋易简

springboot+vue+activiti,在线编辑器,快速开发平台

金陵老街

Java Vue 工作流 springboot Activiti

北鲲云超算平台如何帮助高性能计算行业提供解决方案

北鲲云

一周信创舆情观察(8.16~8.22)

统小信uos

Go 与 C++ 的对比和比较

恒生LIGHT云社区

c++ 编程语言 Go 语言

赋能生态,合力同行!博睿数据成为光合组织成员单位

博睿数据

ipfs挖矿合法吗?ipfs挖矿靠谱吗?

区块链 IPFS ipfs挖矿 ipfs矿机 filecoin挖矿

区块链“通证”将颠覆“资本”

CECBC

盲盒星球系统开发

(王经理)专业app小程序开发

宝安机关食堂支持数字人民币刷脸支付

CECBC

kubelet 1.14 升级 kubelet 1.20 容器重启问题

Geek_f24c45

Docker Kubernetes kubelet

小公司实施系统为什么也容易失败?

明道云

fil矿机什么时候开始挖?fil矿机能挖多久?

fil矿机能挖多久 fil矿机什么时候开始挖

Java内存问题从工具到诊断平台

徐敏

Java 监控 垃圾回收 故障诊断

fil挖矿收益如何?fil挖矿一天可以挖多少?

区块链 分布式存储 IPFS fil挖矿 filecoin收益

技术分析| 实时音视频通讯中的流媒体是怎样传输的

anyRTC开发者

音视频 WebRTC 流媒体 流媒体传输

能不能征服初恋,就看这个架构了!!!

人工智能~~~

优雅的故障处理:快速创建 Pulsar 重试队列

Apache Pulsar

消息队列 Apache Pulsar StreamNative

存储大师班 | ZFS存储池块管理与事务模型

QingStor分布式存储

文件存储 分布式存储

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章