写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-12 09:452777

评论

发布
暂无评论
发现更多内容

《算法导论(第4版)》阅读笔记:p6-p6

codists

算法

Coco AI 入驻 GitCode:打破数据孤岛,解锁智能协作新可能

极限实验室

开源 AI CocoAI Gitcode

安全性并非可有可无:建设者在区块链选择时考虑了什么?

One Block Community

软通动力2024年年报:软硬一体战略促营收新高,增幅超78%

财见

Cision宣布成功完成融资交易

财见

2025 年还可以期待 RWA 赛道吗?详解 RWA 技术实践逻辑

TinTinLand

湖仓一体架构解析:如何平衡数据灵活性与分析性能?

镜舟科技

数据仓库 数据湖 StarRocks 湖仓一体 实时分析

孵化两个HarmonyOS 上线项目-自然壁纸和拾诗纪

万少

项目 HarmonyOS NEXT

VMware ESXi 8.0U3e macOS Unlocker & OEM BIOS Huawei (华为) 定制版

sysin

esxi

Vitalik:将重塑以太坊主网,五年内像比特币网络一样简洁

ChainFlash链訊

区块链

《算法导论(第4版)》阅读笔记:p4-p5

codists

算法

全球调查显示中国积极影响力首超美国

财见

Metasploit Pro 4.22.7-2025050101 (Linux, Windows) - 专业渗透测试框架

sysin

Metasploit

Easysearch 移除 Data 节点注意事项

极限实验室

easysearch

七大赛道、丰厚奖池!Solana Breakout 2025 黑客松强势来袭

TinTinLand

如何高效构建企业级大数据数仓?关键步骤与选型指南

镜舟科技

开源 OLAP StarRocks 大数据数仓 数据整合

DEX 与 CEX:加密交易所初学者指南

One Block Community

HR Path收购瑞士HR-IT咨询、实施和外包专家smahrt consulting AG,以扩大业务版图

财见

Nexpose 8.5.0 for Linux & Windows - 领先的漏洞管理解决方案

sysin

Nexpose

应用上架需要多久,大概要一年吧

iofomo

android 应用审核 应用上架

0G-CTO Wuming 深度专访|去中心化 AI 如何成为下一个时代操作系统?

TinTinLand

从构建走向可用,2025 Q2 的波卡生态有哪些值得期待?

One Block Community

为什么 Polkadot 和 Ethereum 都不约而同选择了 RISC-V?

One Block Community

TCL电子(01070.HK)2025年首季度全球TV出货量与销售额双双保持高增

财见

2025年THE亚洲大学排名公布,KIIT跃居亚洲第184位、印度第8位

财见

Cisco Catalyst 9800 Wireless Controller, IOS XE Release 17.17.1 ED

sysin

Cisco

试下这个插件,让vscode自动帮你敲代码

JYeontu

typescript 前端 vscode vscode插件

Web3 Gaming 赛道新风向|AI、跨链技术与经济模型如何重塑游戏体验?

TinTinLand

如何写出一份让HR眼前一亮的简历?全面实用的简历制作技巧指南(含平台对比推荐)

Y11

互联网 面试 找工作 招聘 找实习

《算法导论(第4版)》阅读笔记:p2-p3

codists

算法

美的集团收购Teka集团,加速全球业务布局

财见

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章