写点什么

LinkedIn 开源 Cubert,着眼于大数据分析

  • 2014-12-21
  • 本文字数:634 字

    阅读完需:约 2 分钟

近日, LinkedIn 开源了一款用于复杂大数据分析的高性能计算引擎 Cubert 。这是为分析师和数据科学家编写的一个框架,提供“手动编写 Java 程序的所有效率优势,并提供了一个简单的、类似脚本的用户接口,用于解决各种统计、分析和图论问题”。其目标是,做上述所有工作而又不暴露底层细节。

Cubert 围绕着实现更好的数据处理算法需求而设计。当性能是一个辨别因素时,Cubert 可以提供帮助,正如 LinkedIn 工程师所声称的那样,即使从磁盘置换出数十 TB 大小的数据,其性能也可以超出其它引擎 5 到 60 倍。

Cubert 完全用 Java 开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert 使用 MeshJoin 算法处理大时间窗口下的大数据集,CPU 和内存利用率显著提升。CUBE 是 Cubert 定义的一个新操作符,可以计算累加和非累加分析维度。非累加维度是计算密集型的,如计算一个时间窗口内不同的用户数,但 CUBE 能加快这些运算,而且还可以计算准确的百分等级,如中位数统计,动态上卷内部维度以及在单个任务中计算多个度量值。

Cubert 最适合于重复的报表工作流程,它利用部分结果缓存和增量处理技术来提高速度。最后,一种新的稀疏矩阵乘法算法可以用于大型图的分析计算。

Pig UDF 支持已经实现,团队计划支持 UDF 以及来自 Pig 和 Hive 的存储层。Cubert 目前运行在 MR 引擎上,不过,对 Tez 和 Spark 的支持正在进行中。Cubert 的文档代码在GitHub 上提供。

查看英文原文: LinkedIn Open Sources Cubert With an Eye To Big Data Analytics

2014-12-21 08:284358
用户头像

发布了 1008 篇内容, 共 446.4 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

UC Token即将强势登陆

Geek_116789

第5周总结

娄江国

极客大学架构师训练营

「架构师训练营」Week5作业

Frank Zeng

MQ 核心概念

陈皮

分布式缓存 - 第五周总结

孙志平

架构师训练营第五章总结

吴吴

架构师训练营第5周总结

时来运转

第五周总结

Acker飏

极客大学架构师训练营

互联网中的缓存

陈皮

架构师训练营第五章作业

吴吴

架构师训练营Week 05 学习总结

Frank Zeng

陈芳,高考之后我要学计算机专业,将来干IT发财了,我就娶你!

张小方

程序员 面试 薪资 毕业

架构师训练营第五周作业

王铭铭

【架构师训练营】第五周作业

Mr.hou

极客大学架构师训练营

分布式技术总结

LEAF

Intellij IDEA必备插件,提高效率的“七种武器”

码农神说

面试 IDEA idea插件

「架构师训练营」第五周作业

旭东(Frank)

算法 极客大学架构师训练营 哈希 一致性哈希

基于领域驱动设计的业务中台架构设计

冯文辉

中台 业务中台 领域驱动设计 DDD

阿里巴巴、百度、美团都在用的 Spring Cloud 微服务架构

java通天架构哪吒

Spring Cloud SpringCloud

第五周总结

秦宝齐

课程作业

架构师训练营第五周总结

王铭铭

计算机操作系统基础(十五)---使用fork系统调用创建进程

书旅

php laravel 操作系统 进程 线程’

架构师训练营 第五周 基于虚拟节点的一致性Hash算法作业

且听且吟

极客大学架构师训练营

学习总结 -- Week 5

吴炳华

极客大学架构师训练营

负载均衡(Load Balance)

陈皮

Week 05 学习总结

卧石漾溪

极客大学架构师训练营

架构感悟5-算法之美

旭东(Frank)

架构 算法 感悟 极客大学架构师训练营

架构师训练营第5周作业

时来运转

【架构师训练营】第五周总结

Mr.hou

极客大学架构师训练营

架构师训练营第五周总结

sunnywhy

原来 JavaScript 中的 WeakMap 是这样子的

Geek_z9ygea

Java 大前端 Web

LinkedIn开源Cubert,着眼于大数据分析_大数据_Alex Giamas_InfoQ精选文章