限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

LinkedIn 开源高可用 Hadoop 工具集 Gradle

  • 2015-08-28
  • 本文字数:1011 字

    阅读完需:约 3 分钟

许多大科技公司都是开源事业的参与者和引领者,比如 Google、Netflix、Facebook 等公司,它们开源后的工具被广泛使用。现在,LinkedIn 也加入了开源大家庭。LinkedIn 的工程师创建了一个名为 Gradle 的项目,该项目包含了若干个可以在应用中简化连接多个 Hadoop Job 的工作流工具。

创建运行在 Hadoop 集群上的应用的难点众所周知,而 Gradle 则是一项十分有潜力的高效解决方案。适用于 Apache Hadoop 的 LinkedIn Gradle 插件(Hadoop 插件)包含了同样适用于 Apache Hadoop 的 LinkedIn Gradle DSL(Hadoop DSL)。几年前,LinkedIn 公司就已采用 Gradle 作为其基础软件构建系统。Gradle 使得 Hadoop 开发者能够更高效地完成应用程序的编译、测试和调配。Gradle 还可以帮助开发者方便地使用多个 Hadoop 应用框架。不管在开发时使用了什么工具,Hadoop 插件都可以让开发者在一致的体验下管理他们的项目。

在开发出 Hadoop 插件之前很久,LinkedIn 的工程师们就意识到了编写个人的 Hadoop Job 仅仅是有效使用 Hadoop 挑战的一部分。LinkedIn 上数据驱动的特征实际上是由几十个 Azkaban Apache Oozie 管理的 Hadoop Job 工作流产生的。理解工作流中各个 Job 之间的关系并且管理工作流手册成为了一项难点。例如,为了指定 LinkedIn 上运行的一些处理大数据的工作流,需要用到非常多的 Job 文件,工程师为此写了几个内部开发的工具以便更简单地处理工作流。然而这些工具都是使用了 Ant、Maven 和 Ruby 混合编成,这就阻碍了全公司上下全面采用 Gradle 的进程。随着时间的推移,系统变得越来越脆弱,维护也变得越来越困难。为了解决以上问题,LinkedIn 开发了 Hadoop DSL。

Hadoop DSL 是一个基于特定领域的嵌入式 Groovy 语言,开发者可以在 DSL 中随意使用 Groovy 或 Java。它有着自然语言的结构,适用于特定的 Job 和诸如 Azkaban、Apache Oozie 等 Hadoop 工作流管理器。另外,DSL 是静态编译的,因此也可以进行静态检查。静态检查器可以在编译时检查出工作流文件中的常见问题,这样就避免了在运行 Hadoop 工作流几个小时后才报出错误。

Gradle 和 Hadoop DSL 已经成为了 LinkedIn 开发 Hadoop 工作流的标准工具。源代码在 GitHub 上。


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-28 19:004334
用户头像

发布了 268 篇内容, 共 131.7 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

《Operating System Concepts》阅读笔记:p512-p527

codists

操作系统

反向海淘代购中二次付款难题的深度解析与解决之道

代码忍者

VMware Aria Operations 8.18.3 - 多云 IT 运维管理

sysin

aria

混合应用开发避坑指南:Hybrid到小程序架构的技术选型经验分享

xuyinyin

API 安全之认证鉴权

阿里巴巴云原生

阿里云 云原生 API

跨国企业组网方案: IPLC专线的优势和应用场景

Ogcloud

组网 企业组网 IPLC 国际网络专线 跨国企业组网

天下拍-艺术品拍卖经典案例分享

至存网络

埋点 拍卖 用户画像 艺术品拍卖 资产拍卖

更换DNS服务器多久生效?需要注意哪些事项?

国科云

数据蒸馏与知识蒸馏技术解析:测试开发中的高效能实践

测试人

人工智能 软件测试

一站式解决Deepseek微调三大痛点:数据集、GPU资源、微调手册与源码

九章云极DataCanvas

人工智能 DeepSeek deepseek微调

京东图片搜索拍立淘API接口 (JD.item_search_img)

tbapi

京东API 京东图片搜索接口 京东拍立淘接口

基于昇腾MindSpeed RL复现R1-Zero优秀实践

科技热闻

开源最强!DeepClaude使用方案,内含DeepsSeek无门槛部署方法

ModelWhale

#人工智能 #大数据 #大语言模型 DeepSeek

自增主键去哪了?---一次开发过程中的思考

京东科技开发者

【转载】golang内存分配

京东科技开发者

突破公网瓶颈的专线选择:IPLC专线

Ogcloud

企业组网 IPLC 国际专线 国际网络专线 国际IPLC专线

VMware Aria Operations for Logs 8.18.3 - 集中式日志管理

sysin

aria

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS Dell (戴尔) 定制版

sysin

esxi

AI英语背单词APP开发

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

苹果电脑压缩软件哪个好用?Mac解压缩软件BetterZip免费版安装激活教程,附注册码

阿拉灯神丁

压缩工具 mac解压缩软件 BetterZip BetterZip 5下载 BetterZip 5破解版

中国气象局干部培训学院特邀和鲸共探大模型赋能气象服务现代化

ModelWhale

人工智能 大数据 气象 #大模型

BeeWorks:企业级即时通讯和协同办公软件

BeeWorks

即时通讯 IM 企业即时通讯平台 私有化部署 局域网视频软件

内网即时聊天软件推荐,哪款更适合企业的即时通讯需求?

BeeWorks

IM 企业即时通讯平台 即时通讯IM 私有化部署 局域网视频软件

业务复杂度治理方法论--十年系统设计经验总结

京东科技开发者

超越数字:利用数据可视化推动企业战略决策

智达方通

企业管理 财务预算 超越预算

deepseek+气象应用,成都市气象局开展大模型赋能气象业务专题培训

ModelWhale

人工智能 大数据 大模型 气象

字节开源轻量级 TTS 模型 MegaTTS3,中英切换自如;面壁首个纯端侧智能助手「上车」,支持多模态交互丨日报

声网

电竞革命!电选对平台狂省90%硬件费:ToDesk云电脑、网易云游戏等终极评测

小喵子

云电脑 ToDesk云电脑 云电竞

VMware Aria Automation 8.18.1 - 多云基础架构自动化平台

sysin

aria

知识图谱与多模态推理在测试开发中的实践价值‌

测试人

人工智能

昇腾+DeepSeeK | 博云联合昇腾打造满血版一体机

BoCloud博云

博云 DeepSeek AI一体机

LinkedIn开源高可用Hadoop工具集Gradle_Java_张天雷_InfoQ精选文章