50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:283061
用户头像

发布了 92 篇内容, 共 51.2 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

从零开始构建企业级推荐系统(二十九)

Databri_AI

产品 推荐系统

数字货币大趋势,DC EP出征,带老百姓进入新时代!

CECBC

辞职1000小时后,我走进字节跳动拿了offer

Java 程序员 面试 java编程

程序员外包避坑指南?

孙叫兽

程序员 外包

关于数据安全

奔向架构师

大数据 数据安全

入职腾讯一周年了

程序员鱼皮

Java 腾讯 大前端 实习 校招

关于胖指针的应用

老实人Honey

架构实战营

区块链互操作性:大规模应用的关键

CECBC

算法面试通关

buchila11

面试

第一周作业

Morphling

#架构实战营

【架构实战营1期】模块一作业

Abner S.

架构实战营 #架构实战营

就是它,帮我斩获了8家大厂offer,由于太全被各大厂要求Github连夜下架

Java架构师迁哥

RedHat7.2 切换yum源记录

Bruce Xiong

redhat yum源

模块一作业:微信业务架构图和毕设架构设计

Felix

Java 8 新特性

Bf-Bus

重磅!不容错过的阿里内部微服务速成手册也太赞了(2021版)

Java 程序员 面试 java编程

5分钟速读之Rust权威指南(三十六)模式匹配

wzx

rust

为了对抗内卷,我“偷”了阿里两份笔记:JDK源码+Java并发图册

Java架构师迁哥

CODING 助力推进腾讯游戏国际化进程

CODING DevOps

DevOps 开发工具 腾讯游戏 软件研发

数据准备的能力,决定企业AI研发的边界

百度大脑

人工智能

云计算还有多久能够替代高性能计算?

北鲲云

人民网发文:区块链如何跨越未来10年

CECBC

[架构实战营][模块一作业]

KK_TTN

#架构实战营

中层管理者挖掘需求的七大法宝

石云升

读书笔记 需求 职场经验 管理经验 7月日更

一叶红船见百年!百度大脑助力南湖红船泛起国人心中红色情怀

百度大脑

Redis 高级特性

QiLab

redis

一文掌握OLAP和DataCube数据魔方应用

白贺BaiHe

OLAP BI 数仓 7月日更 DataCube数据魔方

模块一作业

Geek_35a345

当法律纽带变成“机器红线”,能让自动驾驶汽车更安全吗?

脑极体

模块一作业

lhp

架构实战营

InnoDB存储引擎-锁

CodeWithBuff

MySQL innodb

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章