写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:282921
用户头像

发布了 92 篇内容, 共 49.7 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

万恶的Deepfake,为什么百禁不绝?

脑极体

AI

“探索端智能,加速大模型应用” 火山引擎边缘智能x扣子技术沙龙圆满落幕!

火山引擎边缘云

边缘计算 机器人 物联网, 智能IoT边缘服务 #大模型

如何利用 Milvus 实现多模态搜索

Zilliz

Milvus Zilliz 向量数据库 多模态搜索

鸿蒙 Next 实战: 烟花模拟器

北桥苏

HarmonyOS 鸿蒙Next

希望成为一名 API 安全专家吗?

NGINX开源社区

读书笔记 最佳实践 API Gateway

nuke15最新安装包 附NUKE 15破解补丁及安装教程

Rose

BricsCAD 24 for mac v24.1.05 注册密钥 及bricscad详细安装教程分享

Rose

Mosaic for Mac 自定义窗口布局,提升效率!

Rose

Spring Boot3集成iText实现PDF导出功能

江南一点雨

Photomator for mac 技术领先的照片编辑工具

Rose

文献解读-Listeria monocytogenes personalized cancer vaccines drive therapeutic immune responses to cancer derived neoantigens

INSVAST

基因数据分析 生信服务

Medis for Mac Redis 数据库管理工具 v2.13.0

Rose

Navicat Charts Creator for Mac(Navicat图表创建器) v1.2.14激活版

Rose

Tipard FixMP4 for Mac 非常实用的视频修复软件

Rose

解锁电商精准营销新境界:深入解析亚马逊国际商品详情API的返回值

代码忍者

API 测试 pinduoduo API

VMware ESXi 8.0U3b macOS Unlocker & OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布

sysin

esxi

第69期 | GPTSecurity周报

云起无垠

Autodesk Flame 2025:功能强大的视觉特效制作解决方案

Rose

Teams Phone System遵循的规则

cts喜友科技

通信 通讯 云通讯

Lock-It for Mac应用程序加密工具,保障数据安全!

Rose

零信任身份安全如何做到安全防护

芯盾时代

身份安全 零信任模型

如何选择LED显示屏型号以满足使用需求

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

数字样机:惯性导航系统控制单元仿真

DevOps和数字孪生

数字样机

“软件定义汽车”下的软件虚拟化技术

DevOps和数字孪生

从0到1:多服务厅预约小程序开发笔记(上)

CC同学

App Cleaner & Uninstaller:苹果电脑深度清理卸载工具

Rose

Chroma for Mac(颜色编辑器) 使用教程

Rose

AI与消费电子的双向奔赴,2024世界消费电子展值得一探!

AIOTE智博会

消费电子展 消费电子展会 消费电子展览会

1688电商数据化运营新篇章:深度解析阿里巴巴商品详情API返回值的应用

代码忍者

pinduoduo API API 性能测试

免费试听 | 深圳测试开发线下周末班,从自动化到测试平台开发

测试人

软件测试

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章