限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

Cubert:LinkedIn 开源的大数据计算引擎

  • 2014-11-18
  • 本文字数:823 字

    阅读完需:约 3 分钟

近日, Linkedin 宣布开源其正在使用的大数据计算引擎 Cubert ,该框架提供了一种新的数据模型来组织数据,并使用诸如 MeshJoin 和 Cube 算法等算法来对组织后的数据进行计算,从而减轻了系统负荷和节省了 CPU 资源,最终提供给用户一个简单、高效的查询。Cubert 比较适合的计算领域包括统计计算、聚合、时间距离计算、增量计算、图形计算等。

Cubert 整个架构可分为三层,第一层是数据流语言层,主要用来实现执行计划,包括 Apache Pig Apache Hive 以及 Cubert Script;中间层是执行计划的分布式引擎层,包括 Map-Reduce、Tez 和 Spark 以及各个算法实现;最底层是数据存储层,Cubert 根据数据模型以数据分区的形式组织和存储,且数据分区由 HDFS 提供的文件系统管理。Cubert 架构如下图所示:

LinkedIn 把 Cubert 作为一个关键组件来处理数据,其中 Kafka 负责实时消息传递给 Hadoop,Hadoop 负责数据的存储,Cubert 负责处理数据,处理后数据流向 Pinot 进行实时分析。数据流向图如下所示:

另外,LinkedIn 还为 Cubert 创建了一门新语言 Cubert Script,该语言为不同的 Job 明确定义了 Mapper、Reducer 和 Combiner 等操作,其目的是使得开发人员无需做任何形式的自定义编码就能够轻松地使用 Cubert。Cubert 还提供了一套丰富的数据处理的操作,包括输入 / 输出操作(如 LOAD、STORE、TEE 等)、转换操作(如 FROM、GENERATE、FILTER 等)、聚合操作(如 GROUP BY、CUBE)、数据移动操作(如 SHUFFLE、BLOCKGEN、COMBINE 等)、字典操作等。接下来 Cubert 还将实现 Tez 执行引擎、Cubert Script v2、增量计算、用于分析的窗函数等。Cubert 遵循 Apache License Version 2.0 开源协议发布,读者朋友们如果想尝试或者研究 Cubert 的话,您可以参考 Cubert使用指导和Javadoc


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-18 00:282902
用户头像

发布了 92 篇内容, 共 49.5 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

芯片检测哪家强?

IC男奋斗史

芯片 半导体

ATE测试工程师的职业展望

IC男奋斗史

职业规划 芯片 半导体行业

Downie 4+Permute 3,Mac从视频下载到格式转换

展初云

Mac软件 Permute 3 Downie

打造成功的SRE团队

俞凡

DevOps 最佳实践 研发效能 SRE

也许是时候停止编写详细的操作手册了

俞凡

最佳实践

2023-10-14:用go语言,给定 pushed 和 popped 两个序列,每个序列中的 值都不重复, 只有当它们可能是在最初空栈上进行的推入 push 和弹出 pop 操作序列的结果时, 返回

福大大架构师每日一题

福大大架构师每日一题

免费 AI 编程助手 Amazon CodeWhisperer 体验

亚马逊云科技 (Amazon Web Services)

JavaScript Python 3.12 #人工智能

FBX转换GLB格式

3D建模设计

模型格式转换 FBX转GLB

Python - 字典1

小万哥

Python 程序员 软件 后端 开发

代码标准之信达雅

agnostic

代码质量

Linux该如何学习,给你支招

芯动大师

寻找AI时代的关键拼图,从美国橡树岭国家实验室读懂AI存力信标

脑极体

存储

职场迷茫?行动才是唯一出路!

老张

职场成长 职场发展

ATE测试工程师是做什么的?

IC男奋斗史

芯片 半导体

Atlassian 智能引领:企业管理者的智慧选择与创新之旅

跟YY哥学Jira

Atlassian Jira Confluence 合作伙伴 Bitbucket

窗口辅助管理: Magnet 激活中文版最新

胖墩儿不胖y

Mac软件 窗口管理软件 窗口工具

1分钟搞懂什么是XY问题

俞凡

认知

电商爬虫API快速入门指南

Noah

为NeoAI增加千帆大模型支持

SkyFire

neovim 千帆大模型平台

白嫖azure,随时随地ChatGPT

MorningTZH

azure 白嫖 容器应用 弹性伸缩 ChatGPT

从VSCode迁移到Neovim的体验

SkyFire

vim vscode neovim

基于 Kubernetes 的 Serverless PaaS 稳定性建设万字总结

阿里巴巴云原生

阿里云 Kubernetes 云原生

Cubert:LinkedIn开源的大数据计算引擎_大数据_李士窑_InfoQ精选文章