2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

DataFu 在 Apache 进入孵化状态

  • 2014-02-12
  • 本文字数:803 字

    阅读完需:约 3 分钟

LinkedIn DataFu 项目是一个用于 Hadoop 的类库集合,于 1 月第 1 周在 Apache 软件基金会(ASF)正式进入孵化状态

该项目创建于2012 年1 月,早期的定位是作为Pig 项目的用户定义函数集(UDF )。相对于更加通用的UDF 集如 Piggybank ,Datafu 更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013 年 10 月,一个名为 DataFu Hourglass 的新库加入到此项目。Hourglass 是用于 MapReduce 的类库,为作业提供了处理增量数据的能力。其处理方式一般是在 HDFS 中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu 在 Apache 进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012 年初创建的DataFu,2014 年初才成功进入孵化器。通常,一个Apache 项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu 将结束孵化,成为ASF 的顶级项目或者Hadoop 的子项目。

随着最近进入Apache 孵化器,DataFu 有了很多近期的发展计划。其中最关键的功能之一是为 Hive Crunch 提供同一 UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到 Gradle ,这些工作 DataFu 社区目前正在做。构建系统从 Ant 改为 Gradle 的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu 社区还比较小,但保持着稳定的增长。Russell Jurney 最近的贡献使 Open NLP 项目成了 DataFu 1.3.0 的一部分。邮件列表中讨论的焦点是增加更多 UDF,就像项目贡献者 Matthew Hayes 和 Sam Shah 所描述的,让 DataFu 成为“大数据的 WD-40”。

查看英文原文: DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-12 09:452749

评论

发布
暂无评论
发现更多内容

千行云课堂答题考试小程序系统:一站式在线教育解决方案

微擎应用市场

优客享小程序管理系统:全行业社群新零售解决方案

微擎应用市场

出海舆情监测服务商终极选择:2025年TOP 5综合实力对比

沃观Wovision

舆情监测 海外舆情监测 出海舆情 舆情服务

深度探讨“云+智能计算”,智算新基础设施分论坛议程揭晓 | 2025 龙蜥大会

OpenAnolis小助手

AI 操作系统 智算 龙蜥操作系统大会

海外舆情工具TOP 10终极评测:功能、价格与用户口碑全解析

沃观Wovision

海外舆情 海外舆情监测 海外舆情平台

司马阅与林熙炎链达成生态战略合作,携手推动「AI+大健康」落地

司马阅

境外舆情系统哪家的最好用?

沃观Wovision

海外舆情 舆情监测系统 境外舆情

第四届图像处理、计算机视觉与机器学习国际学术会议(ICICML 2025)

搞科研的小刘

企业网安融合的实践与未来

光联世纪

网络安全 sase SD-WAN组网

多存储文件列表神器Alist:轻松管理你的云端资源

qife122

开源 文件管理

Apache SeaTunnel 支持 Metalake 开发了!避免任务配置敏感信息暴露

白鲸开源

开源 开发者 Apache SeaTunnel 开源之夏 Metalake

有奖征集,聊聊「5 周年,你与龙蜥的故事」

OpenAnolis小助手

操作系统 龙蜥社区

从 “数据盲” 到 “节能精”:MyEMS 开源系统重构企业能源管理全流程

开源能源管理系统

开源 能源管理系统

跳槽加分项:掌握Dify工作流,我薪资涨了40%

测试人

软件测试

BendSQL v0.30.3 Web UI 功能介绍

Databend

司马阅与铨亿科技达成生态战略合作,探索AI在工业领域的智能化应用

司马阅

低至 1% 性能损耗:阿里云 ARMS 配置模板如何实现精准可控的 JMX 数据采集

阿里巴巴云原生

云原生 可观测 Arms 阿里与

智能工厂更衣区推荐安装哪类RFID智能储物柜?选型攻略来了

斯科信息

RFID智能储物柜 CK-G0628

WD 音乐 FM 微信小程序:一站式音频类解决方案,复刻网易云音乐优质体验

微擎应用市场

百变分销级差模式商城小程序系统:多模式赋能商业增长

微擎应用市场

accept err=24:Too many open files 问题解决

webrtc developer

第四届人工智能与教育国际学术会议(ICAIE 2025)

搞科研的小刘

人工智能

Apache DolphinScheduler 3.3.2 正式发布!性能与稳定性有重要更新

白鲸开源

大数据 开源 Apache DolphinScheduler 任务调度 发版

产品体验官有奖招募 | 体验华为云Versatile智能体平台构建创意AI Agent

华为云开发者联盟

华为云

龙蜥社区两大委员会月度会议圆满召开

OpenAnolis小助手

龙蜥社区 龙蜥操作系统 OpenAnolis

司马阅与壁虎云创达成生态战略合作,联合推动人力资源平台的智能化升级

司马阅

黑帽大会与DefCon29演讲:UEFI固件供应链与RISC-V芯片故障注入技术

qife122

漏洞挖掘 固件安全

如何构建 AI 智能体(2025 完全指南)

码界行者

AI智能体

扫码挪车 MyCar 小程序系统:汽车后市场智慧解决方案

微擎应用市场

极氪与火山引擎深化合作,Data Agent赋能车辆数据管理效率

字节跳动数据平台

购买正版Abaqus提供培训吗?Abaqus对设备有要求吗?达索代理商思茂信息帮你一次理清!

思茂信息

abaqus 有限元分析 有限元仿真

DataFu在Apache进入孵化状态_大数据_Charles Menguy_InfoQ精选文章