写点什么

LinkedIn 开源 Cubert,着眼于大数据分析

  • 2014-12-21
  • 本文字数:634 字

    阅读完需:约 2 分钟

近日, LinkedIn 开源了一款用于复杂大数据分析的高性能计算引擎 Cubert 。这是为分析师和数据科学家编写的一个框架,提供“手动编写 Java 程序的所有效率优势,并提供了一个简单的、类似脚本的用户接口,用于解决各种统计、分析和图论问题”。其目标是,做上述所有工作而又不暴露底层细节。

Cubert 围绕着实现更好的数据处理算法需求而设计。当性能是一个辨别因素时,Cubert 可以提供帮助,正如 LinkedIn 工程师所声称的那样,即使从磁盘置换出数十 TB 大小的数据,其性能也可以超出其它引擎 5 到 60 倍。

Cubert 完全用 Java 开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert 使用 MeshJoin 算法处理大时间窗口下的大数据集,CPU 和内存利用率显著提升。CUBE 是 Cubert 定义的一个新操作符,可以计算累加和非累加分析维度。非累加维度是计算密集型的,如计算一个时间窗口内不同的用户数,但 CUBE 能加快这些运算,而且还可以计算准确的百分等级,如中位数统计,动态上卷内部维度以及在单个任务中计算多个度量值。

Cubert 最适合于重复的报表工作流程,它利用部分结果缓存和增量处理技术来提高速度。最后,一种新的稀疏矩阵乘法算法可以用于大型图的分析计算。

Pig UDF 支持已经实现,团队计划支持 UDF 以及来自 Pig 和 Hive 的存储层。Cubert 目前运行在 MR 引擎上,不过,对 Tez 和 Spark 的支持正在进行中。Cubert 的文档代码在GitHub 上提供。

查看英文原文: LinkedIn Open Sources Cubert With an Eye To Big Data Analytics

2014-12-21 08:284205
用户头像

发布了 1008 篇内容, 共 430.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

kudmp介绍和安装

唯爱

奈学干货分享:分布式CAP实践分析

奈学教育

分布式

Nginx 入门及命令行操作

子杨

nginx 运维

10分钟了解Flink

代码诗人

游戏夜读 | 改写图形API的意义

game1night

架构师训练营0期开营

刁架构

架构师

Mysql常用删除方式比较

云也退

MySQL

Cassandra可调一致性的使用及原理

老任物联网杂谈

大数据 分布式 Cassandra 可调一致性

探索 Go 语言数据类型的内部实现

TuringTuring

内存模型 高效 Go 语言

「首度揭秘」大规模HPC生产环境 IO 特征

焱融科技

sds io 高性能 存储 焱融科技

Nginx 基础原理和命令行的真相

子杨

nginx 运维

阿里巴巴为什么让初始化集合时必须指定大小?

王磊

Java 性能

Weex开发:页面跳转以及Android端多应用选择窗口的处理

码字与律动

android Vue 大前端 跨平台 Weex

“Plus Token”传销主犯被公诉!警惕,区块链不是“取款链”!

CECBC

1024讲话 CECBC 区块链技术 人才发展 培训

卧槽,接到一个阎王的需求

码农神说

程序员

基于 Markdown 的中文文档排版规范

Murphy

markdown 排版规范 GitHub GFM 物联网学前班

我们可能都误解了什么是情商

董一凡

情绪

Server Queue 提高 QPS

风含叶

Python kafka 后端 队列

用户故事为什么要关联开发数据?

易成研发中心

敏捷开发 开发数据

从位图到布隆过滤器

wangkx

位图 布隆过滤器

你有信息焦虑症吗?

Neco.W

学习 创业 知识体系

ARTS_20200529

凌轩

Java ARTS 打卡计划

一个在游戏行业摸爬滚打了十几年的人,为何我对这本书情有独钟

图灵社区

游戏开发 游戏制作 世嘉培训教材

神经网络中为什么不能将权重初始值设置为一样的值

wangkx

神经网络 学习

为什么你要学习 Go?

司徒公子

编程语言 谷歌Google Go 语言

GrowingIO 大数据多维分析自动化测试实践

GrowingIO技术专栏

大数据 自动化测试 parewise

2020智源-京东多模态对话挑战赛开战 产学研联合推动AI技术发展

DT极客

幂等问题及解决方案

Joker

幂等 解决方案

工厂模式(三)泛型工厂的概念以及示例代码

LSJ

备案问题汇总

云也退

网站 备案

Android 通过opencv实现人脸识别,追踪

sar

android OpenCV 人脸识别

LinkedIn开源Cubert,着眼于大数据分析_大数据_Alex Giamas_InfoQ精选文章