写点什么

LinkedIn 开源 Cubert,着眼于大数据分析

  • 2014-12-21
  • 本文字数:634 字

    阅读完需:约 2 分钟

近日, LinkedIn 开源了一款用于复杂大数据分析的高性能计算引擎 Cubert 。这是为分析师和数据科学家编写的一个框架,提供“手动编写 Java 程序的所有效率优势,并提供了一个简单的、类似脚本的用户接口,用于解决各种统计、分析和图论问题”。其目标是,做上述所有工作而又不暴露底层细节。

Cubert 围绕着实现更好的数据处理算法需求而设计。当性能是一个辨别因素时,Cubert 可以提供帮助,正如 LinkedIn 工程师所声称的那样,即使从磁盘置换出数十 TB 大小的数据,其性能也可以超出其它引擎 5 到 60 倍。

Cubert 完全用 Java 开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert 使用 MeshJoin 算法处理大时间窗口下的大数据集,CPU 和内存利用率显著提升。CUBE 是 Cubert 定义的一个新操作符,可以计算累加和非累加分析维度。非累加维度是计算密集型的,如计算一个时间窗口内不同的用户数,但 CUBE 能加快这些运算,而且还可以计算准确的百分等级,如中位数统计,动态上卷内部维度以及在单个任务中计算多个度量值。

Cubert 最适合于重复的报表工作流程,它利用部分结果缓存和增量处理技术来提高速度。最后,一种新的稀疏矩阵乘法算法可以用于大型图的分析计算。

Pig UDF 支持已经实现,团队计划支持 UDF 以及来自 Pig 和 Hive 的存储层。Cubert 目前运行在 MR 引擎上,不过,对 Tez 和 Spark 的支持正在进行中。Cubert 的文档代码在GitHub 上提供。

查看英文原文: LinkedIn Open Sources Cubert With an Eye To Big Data Analytics

2014-12-21 08:284343
用户头像

发布了 1008 篇内容, 共 444.5 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

万字图解 | 深入揭秘IP层工作原理

云舒编程

IP MTU 路由表 子网划分 图解网络

WorkPlus构建便捷高效的企业移动门户平台

BeeWorks

热更新适配ibatis原理浅析

京东科技开发者

人工智能大模型多场景应用原理解析

百度开发者中心

人工智能 图像识别 大模型

火山引擎VeDI:新增微信小程序广告A/B实验功能,助力企业降低获客成本

字节跳动数据平台

数据库 大数据 ab测试 企业号 1 月 PK 榜 对比实验

NineData和Klustron完成产品兼容互认证

NineData

数据库 数据管理 NineData Klustron 泽拓昆仑

AI大模型低成本快速定制秘诀:RAG和向量数据库

百度开发者中心

人工智能 数据库 大模型

三个方面浅析数据对大语言模型的影响

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 大语言模型

定制+轻量级低代码:满足客户个性需求的最佳实践

天津汇柏科技有限公司

低代码 软件定制开发 软件开发定制

QSpace Pro 一款简洁高效的多窗格文件管理器,灵活且实用!

Rose

Mac软件 QSpace 多窗格文件管理器

CES 2024的亮点仅仅聚焦AI深度赋能和产业创新吗?| DALL-E 3、Stable Diffusion等20+ 图像生成模型综述

GPU算力

合合信息启信数据发布园区金融解决方案,助力银行精准服务“十四五”特色产业

合合技术团队

大数据 金融 合合信息 启信慧眼

大规模集群下,如何快速实现无死角网络连通性的主动巡检

ii2day

云原生 压力测试 Cloud Native kubernetes 运维 自动巡检

阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference

Apache Flink

《Hive编程指南》读书笔记

京东科技开发者

软件测试/测试开发|学习两个个月后拿到4个知名企业Offer,他是怎么做到的?

霍格沃兹测试开发学社

4个知名企业Offer拿到手软,他是怎么做到的?附面试真题

测试人

软件测试

测试管理 | 入班第二个月后拿到4个知名企业Offer,他是怎么做到的?

测吧(北京)科技有限公司

测试

WorkPlus移动应用管理平台,助力企业实现高效移动办公

BeeWorks

用游戏盾会掉线吗,游戏出现掉线或者卡顿的可能有哪些原因

德迅云安全杨德俊

想在 Mac 里装 Windows ?试试 Parallels Desktop虚拟机!

Rose

Windows系统 Mac双系统安装 Parallels Desktop

foobar2000 for mac多功能音频播放器 v2.6.1免激活版

Rose

mac音乐播放器 foobar2000中文版 foobar2000破解版

苹果macos效率神器alfred5新功能介绍 及alfred 5汉化包下载

Rose

mac软件下载 Alfred 5破解版 Alfred 中文 Mac效率办公软件

万字图解|深入揭秘 (数据链路层、物理层) 工作原理

云舒编程

IP 物理层 路由 图解网络 数据链路层

【技术探讨】如何选择一款距离远的无线通信模块?

Geek_ab1536

得物从零构建亿级消息推送系统的送达稳定性监控体系技术实践

JackJiang

网络编程 即时通讯 IM

租赁舞台LED屏的注意事项及问题排除

Dylan

活动 LED显示屏 led显示屏厂家 效果广告

AI大模型在电商商家端自定义报表分析中的应用与实践

百度开发者中心

人工智能 电商 大模型

跨境电商如何利用item_get-根据ID取商品详情(shopee.item_get)提升用户体验?

技术冰糖葫芦

API 编排

荣耀开发者大会 2023 · 一张图读懂极致体验分论坛

荣耀开发者服务平台

LinkedIn开源Cubert,着眼于大数据分析_大数据_Alex Giamas_InfoQ精选文章