写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-12 09:452633

评论

发布
暂无评论
发现更多内容

近几天fil价格暴跌:fil还有希望吗?

区块链 分布式存储 IPFS fil fil行情

大厂的产品研发流程,你知道么?

Simon郎

产品 研发体系 大厂 互联网公司

加速基因测序进程,北鲲云高性能计算平台再发力

北鲲云

大三就拿到字节提前批,你不想成长,生活总会逼着你成长

Java架构师迁哥

过去几个月里面的几家大厂(美团、字节、腾讯、阿里)均拿到 offer,最终去了字节跳动

Java 编程 程序员 架构 面试

Go语言:运行时反射,深度解析!

微客鸟窝

Go 语言

完整视频+源码!十六天带你精通基于Spring Cloud微服务电商项目

Java架构追梦

Java 架构 面试 微服务 SpringCloud

kubernetes/k8s CSI分析-容器存储接口分析

良凯尔

Kubernetes 源码分析 CSI Kubernetes Plugin #Kubernetes#

一文读懂区块链技术如何改变非洲贸易(下)

CECBC

AI解锁无人时代 仍需数据安全保驾护航

CECBC

通证与区块链:前台经济+后台技术

CECBC

使用Apache Spark构建可靠的数据湖(九)

Databri_AI

spark Data Lake iceberg Hudi

我应该在什么时候使用 Apache Druid

HoneyMoose

从鉴黄师到阿里程序员,我成功逆袭上岸

Java 编程 程序员 计算机

如何在Go 服务中做链路追踪

Rayjun

微服务 Go 语言

深入浅出 Java 泛型,一文搞定

猴哥一一 cium

Java 翻译 泛型

不要让这2个坏习惯限制了你的成长

俞凡

认知

去阿里应聘P7Java岗,都会被问到哪些问题?

Java架构师迁哥

Vue进阶(七十八):Vue 定时器与 JS 定时器

No Silver Bullet

Vue 定时器 7月日更

Spring之 EL表达式

邱学喆

语法规则 Expression ExpressionParser ParserContext EvaluationContext

根据四个商业指标找到MOT

石云升

读书笔记 用户体验 商业洞察 关键时刻 7月日更

阿里大牛把电商购物、电商秒杀、12306抢票、淘宝天猫各种活动的系统架构层面全部记载到这份《高并发系统架构》手册里了

Java 编程 架构 计算机

Vue进阶(四):使用 Vuex + axios 发送请求

No Silver Bullet

Vue axios vuex 7月日更 vue-resources

做大做强肉牛产业,生物资产解决方案助力乡村振兴

CECBC

从鉴黄师到阿里程序员,我成功拿下阿里offer

白亦杨

Java 编程 程序员 计算机

Docker的学习体验

吴脑的键客

,docker

模块三作业

A先生

Apache Druid 安装的时候进行 Java 版本校验没有输出

HoneyMoose

【Kafka技术专题】「实践操作篇」单机部署实践手册(2.8.0)

码界西柚

kafka MQ kafka配置 消息队列 kafka架构

网络攻防学习笔记 Day84

穿过生命散发芬芳

网络攻防 7月日更

2021年WEB全栈开发技术栈

devpoint

Vue 全栈 7月日更

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章