写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:283068
用户头像

发布了 92 篇内容, 共 51.3 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

RavenDB起步--安装以及示例数据库

喵叔

鸿蒙轻内核M核源码分析:LibC实现之Musl LibC

华为云开发者联盟

鸿蒙 内存分配 LibC Musl LibC Musl

在线XML转JSON工具

入门小站

工具

1月月更|推荐学java——Spring事务

逆锋起笔

spring事务管理 spring ioc java 编程 Spring Java Spring事务

TDSQL-C PostgreSQL版的高可用特性

腾讯云数据库

tdsql 国产数据库

架构训练营 毕业设计

dog_brother

「架构实战营」

ReactNative进阶(三十一): IoC 框架 InversifyJS 解读

No Silver Bullet

​React Native 1月月更 InversifyJS

华青融天加入,龙蜥社区再添科技风险监测领域新伙伴

OpenAnolis小助手

Linux 开源 合作伙伴

基于Flink CDC打通数据实时入湖

五分钟学大数据

flink 1月月更

☕【Java深层系列】「并发编程系列」让我们一起探索一下CyclicBarrier的技术原理和源码分析

码界西柚

并发编程 AQS CyclicBarrier Java 线程 1月日更

企业可以定级吗?可以自己确定等保等级吗?

行云管家

网络安全 等保 等级保护 等保2.0

模块1作业

卡西毛豆静爸

架构实战营

TDSQL PostgreSQL执行计划详解

腾讯云数据库

tdsql 国产数据库

20000字详解大厂实时数仓建设 | 社区征文

五分钟学大数据

数据仓库 实时数仓 1月月更 新春征文

MySQL 如何解决幻读(MVCC原理分析)

Ayue、

MySQL InnoDB 1月月更

为数据库性能调优插上 AI 的翅膀 | 调优测试框架 Matrix 团队访谈

PingCAP

RavenDB起步--第一个 RavenDB 程序

喵叔

RavenDB起步--使用 RavenDB Studio

喵叔

分享四款H5怀旧小游戏魔塔+伏魔记+三国霸业+寻仙纪

echeverra

前端 游戏

第四节:SpringBoot中web模版数据渲染展示

入门小站

springboot

为什么ConcurrentHashMap是线程安全的?

王磊

TDSQL-A技术架构演进及创新实践

腾讯云数据库

tdsql 国产数据库

中科柏诚:积极践行为中小企业服务宗旨,同乡村振兴有效衔接

联营汇聚

看过来!腾讯文档上架优麒麟软件商店啦

优麒麟

Linux 开源 腾讯 操作系统 麒麟操作系统

架构实战营模块六作业

Jude

架构实战营

事件驱动架构在 vivo 内容平台的实践

vivo互联网技术

微服务 云原生 事件驱动架构

智联生活行业加速器热门FAQ:物联网企业该如何与华为云合作?

华为云开发者联盟

物联网 华为云 智联生活 智联生活行业加速器 云市场

Netty核心概念之ChannelHandler&Pipeline&ChannelHandlerContext

CRMEB

一、数据结构

喵叔

RavenDB起步--客户端API(一)

喵叔

Redis:我是如何与客户端进行通信的

华为云开发者联盟

redis 通信 协议 指令 客户端

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章