写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-12 09:452545

评论

发布
暂无评论
发现更多内容

酷睿i7-10870H对比锐龙7 5800H游戏性能, 英特尔仍是游戏本CPU的更优选

E科讯

25个关键技术点,带你熟悉Python

华为云开发者联盟

Python

详解NLP和时序预测的相似性(附赠AAAI21最佳论文INFORMER的详细解析)

华为云开发者联盟

自然语言处理 深度学习 时序预测 RNN Informer

SQL Server 删除正在使用数据库

田镇珲

互联网短平快下,DevCloud如何支撑软件开发的“转型”?

华为云开发者联盟

android 敏捷开发 软件开发 华为云 devcloud

【LeetCode】用栈实现队列Java题解

Albert

算法 LeetCode 28天写作

英特尔:i7-10870H 游戏性能超 R7 5800H,更强的 11 代酷睿 H 在后面

E科讯

《精通比特币》学习笔记(第二章)

棉花糖

区块链 读书笔记

Kubectl Plugin 推荐(一)| 可观测性篇

郭旭东

kubectl kubectl plugin

华云大咖说 | 高校混合云建设及应用

华云数据

Java的锁

并发编程

滚雪球学 Python 第二轮开启,进阶之路,列表与元组那些事儿

梦想橡皮擦

28天写作 3月日更

Shibboleth IdP4 升级指南

冯骐

认证 Shibboleth IdP 上海教育认证 上海教育

人民网:亚马逊云科技,以这样姿势扎根中国!

亚马逊云科技 (Amazon Web Services)

云小课丨网络好不好,ping一下就知道

华为云开发者联盟

网络 虚拟私有云 ping ICMP 安全组

百分点大数据技术团队:数据治理“PAI”实施方法论

百分点大数据团队

建信金科大咖访谈:金融科技驱动业务创新,智慧运营引领发展转型

金科优源汇

百分点数据科学实验室:产品生命周期管理创新应用落地实践

百分点大数据团队

2021 创新加速周蓄势待发,铆足牛劲再出发!

亚马逊云科技 (Amazon Web Services)

报名 | 全球首个小资源音色克隆赛结果出炉,高分队伍线上报告会

爱奇艺技术产品团队

金三银四如何突击面试美团?面试题(含答案)+学习笔记+电子书籍+学习视频

比伯

Java 编程 架构 面试 程序人生

百亿级流量的百度搜索中台,是怎么做可观测性建设的?

百度Geek说

中台 云原生 #百度#

笔记整理:技术架构涵盖内容和演变过程总结

小傅哥

Java 程序员 小傅哥 架构设计 架构图

KubeEdge 1.6发布:可靠的K8s原生边云API

华为云原生团队

开源 云原生 边缘技术 kubeedge

智汇华云 | ArcherOS Stack—软件定义数据中心“利器”

华云数据

一个简单实用的Linux性能分析工具

运维研习社

Linux 性能分析

力扣(LeetCode)刷题,简单+中等题(第32期)

不脱发的程序猿

算法 LeetCode 编程能力 28天写作 3月日更

Pano React Native SDK 来了!快速实现移动端音视频和白板

拍乐云Pano

flutter ios android RTC React Native

是什么支持“毅力号”在火星上尽情摄影?

亚马逊云科技 (Amazon Web Services)

工作中,有哪些SQL是我们必须要掌握的?

xiezhr

oracle sql SQL语法 3月日更

农田治理效率低下还赔本?智慧农业力保粮食品质,效率事半功倍

一只数据鲸鱼

物联网 数据可视化 智慧城市 智慧农业 农业管理

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章