【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-02-12 09:452204

评论

发布
暂无评论
发现更多内容

朋友圈高性能复杂度分析

许四多

网络协议与传输媒体

急需上岸的小谢

10月月更

跟着卷卷龙一起学Camera--双摄05

卷卷龙

ISP camera 10月月更

2022-10-15:给你一个整数数组 nums 和一个整数 k ,请你返回其中出现频率前 k 高的元素。 你可以按 任意顺序 返回答案。 要求时间复杂度O(N)。 输入: nums = [1,1,1

福大大架构师每日一题

算法 rust 福大大

读书笔记 | 你最终能走多远,取决于见识

宇宙之一粟

读书笔记 10月月更

WeChat Moments Performance Analysis

David

架构实战营

Spring Boot「06」Loading initial data

Samson

Java spring 学习笔记 spring-boot 10月月更

Go做Web开发,有哪些必懂的概念和底层原理呢?

王中阳Go

Java php Go Web 10月月更

CorelDRAW 2019 软件应用项目(一)

张立梵

设计师 CorelDRAW 2022 10月月更

【一Go到底】第十六天---跳转控制goto&return

指剑

Go golang 10月月更

Vue组件入门(六)派发事件的参数传递

Augus

Vue 3 10月月更

协同开发时,如何科学的使用Git紧急修复线上bug?

王中阳Go

git 敏捷开发 团队协作 10月月更 git使用规范

「数仓建设篇」数仓主题域与主题划分实战

大数据阶梯之路

面试 数仓主题 数仓建设

PUTTY-0.75 下载安装及SSH远程连接方法

Yeats_Liao

后端 putty 10月月更

跟着卷卷龙一起学Camera--双摄04

卷卷龙

ISP camera 10月月更

JWT详解

Java学术趴

10月月更

【愚公系列】2022年10月 Go教学课程 029-面向对象简介

愚公搬代码

10月月更

如何提高项目的稳定性和开发效率呢?

王中阳Go

数据库 算法 框架 函数 10月月更

还不会配置Python虚拟环境?看这篇就懂了

芥末拌个饭吧

后端 配置管理 python 3.5+ 10月月更

【c++图论例题学习】洛谷 P3366最小生成树

贤鱼很忙

10月月更

flask sqlalchemy使用简述

芥末拌个饭吧

sqlalchemy python 3.5+ 10月月更

长安链源码分析之网络模块net-liquid(1)

长安链源码分析之网络模块 net-liquid(2)

适用于 Linux 的 Windows 子系统(WSL)安装指南

Yeats_Liao

后端 wsl 10月月更

我用【c++】写出了会说话的学生考勤系统

贤鱼很忙

c++ 10月月更

Ubuntu Server 20.04 LTS下载及安装教程

Yeats_Liao

ubuntu 后端 10月月更

【c++图论学习】洛谷P1396营救

贤鱼很忙

c++ 算法 10月月更

跟着卷卷龙一起学Camera--双摄03

卷卷龙

ISP camera 10月月更

百度面试题——迷宫问题(超详细解析)

lovevivi

c 数据结构 10月月更

谈谈PHP switch case和其他语言的区别

芥末拌个饭吧

php Go 10月月更

Docker搭建私有镜像仓库与WordPress

okokabcd

Docker

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章