50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

LinkedIn 开源 Cubert,着眼于大数据分析

  • 2014-12-21
  • 本文字数:634 字

    阅读完需:约 2 分钟

近日, LinkedIn 开源了一款用于复杂大数据分析的高性能计算引擎 Cubert 。这是为分析师和数据科学家编写的一个框架,提供“手动编写 Java 程序的所有效率优势,并提供了一个简单的、类似脚本的用户接口,用于解决各种统计、分析和图论问题”。其目标是,做上述所有工作而又不暴露底层细节。

Cubert 围绕着实现更好的数据处理算法需求而设计。当性能是一个辨别因素时,Cubert 可以提供帮助,正如 LinkedIn 工程师所声称的那样,即使从磁盘置换出数十 TB 大小的数据,其性能也可以超出其它引擎 5 到 60 倍。

Cubert 完全用 Java 开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert 使用 MeshJoin 算法处理大时间窗口下的大数据集,CPU 和内存利用率显著提升。CUBE 是 Cubert 定义的一个新操作符,可以计算累加和非累加分析维度。非累加维度是计算密集型的,如计算一个时间窗口内不同的用户数,但 CUBE 能加快这些运算,而且还可以计算准确的百分等级,如中位数统计,动态上卷内部维度以及在单个任务中计算多个度量值。

Cubert 最适合于重复的报表工作流程,它利用部分结果缓存和增量处理技术来提高速度。最后,一种新的稀疏矩阵乘法算法可以用于大型图的分析计算。

Pig UDF 支持已经实现,团队计划支持 UDF 以及来自 Pig 和 Hive 的存储层。Cubert 目前运行在 MR 引擎上,不过,对 Tez 和 Spark 的支持正在进行中。Cubert 的文档代码在GitHub 上提供。

查看英文原文: LinkedIn Open Sources Cubert With an Eye To Big Data Analytics

2014-12-21 08:284295
用户头像

发布了 1008 篇内容, 共 438.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

精彩回顾|【ACDU 中国行·西安站】数据库主题交流活动成功举办!

墨天轮

数据库 postgresql opengauss oceanbase KaiwuDB

软件开发

Geek_8da502

Mac电脑系统活动监控器推荐:iStat Menus最新中文版

胖墩儿不胖y

Mac软件 活动检测工具

深度学习与大模型的革新之路

百度开发者中心

人工智能 深度学习 大模型

铭文质押挖矿系统

区块链技术

从 WasmEdge 运行环境读写 Rust Wasm 应用的时序数据

Greptime 格睿科技

数据库 rust Wasm

Mysql tls 会话:再一次抓包之后,我认识到…

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟

java浅拷贝BeanUtils.copyProperties引发的RPC异常 | 京东物流技术团队

京东科技开发者

Next Station of Flink CDC

Apache Flink

大数据 flink 实时计算

发布!乘云数字参编中国信通院《可观测性技术发展研究报告》正式发布

乘云数字DataBuff

全面了解 Stable Diffusion API 调用教程

Liam

AI 前端 后端 API Stable Diffusion

软件开发

Geek_8da502

喜报!上海电力联合乘云数字获评 "中国信通院可观测性实践优秀案例"

乘云数字DataBuff

提炼大模型智慧,助力小模型成长

百度开发者中心

深度学习 模型

软件测试/测试开发丨持续集成体系介绍 学习笔记

测试人

软件测试 持续集成 CI/CD 测试开发

软件测试/测试开发丨接口自动化测试-TCP与UDP的区别

测试人

软件测试 测试开发

Skia 编译及踩坑实践

京东科技开发者

Salesforce携手阿里云再来,这次本土CRM有几分胜算?

ToB行业头条

强大模型与高效工具的完美结合

百度开发者中心

深度学习 nlp 大模型

LinkedIn开源Cubert,着眼于大数据分析_大数据_Alex Giamas_InfoQ精选文章