收录了 oozie 频道下的 50 篇内容
在这篇文章中,作者展示了Oozie的可扩展性如何支持我们实现自定义的语言扩展。我们可以把这种方法视为针对特定的公司或者业务线的指定工作流语言。
Oozie是一种框架,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中。本文是对该框架的基本介绍。
本文包括一个完整的Oozie示例,包括过程设计、资源协调程序和工作流实现。
利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调度监控。
Oozie 是一个用来管理 Hadoop生态圈job的工作流调度系统。由Cloudera公司贡献给Apache。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Hive等任务。Oozie 工作流由hPDL(Hadoop Process
Oozie 是一个用来管理Hadoop生态圈job的工作流调度系统。由Cloudera公司贡献给Apache。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Hive等任务。Oozie 工作流由hPDL(Hadoop Process
本文提出一套适用于数据仓库建设的 workflow 优化方案。
Oozie是一个基于工作流引擎的开源框架,它能够提供对Hadoop作业的任务调度与协调。Oozie是一个工作流引擎服务器,用于运行MapReduce任务工作流。同时Oozie还是一个Java Web程序,运行在Tomcat容器中。
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。本文是Cloudera资深工程师讲解Hadoop,让您一篇文章就能了解Hadoop的过去和未来。
本文将带您一步步完成一个利用Amazon EMR进行交互式数据查询的实例
根据GIGAOM报道,LinkedIn公司日前开源了Gradle插件,该项目可以帮助Hadoop开发者更高效地完成应用程序的编译、测试和调配等工作。
开源数据处理平台Hadoop在大数据时代的今天有着非常广泛的应用。著名的大象图标遍布各行各业,从医疗记录到银行交易,从车票预定到房屋租赁,乃至很多科学数据处理,都可以见到Hadoop的身影。本文讨论Hadoop在应用过程中遇到的问题
Jonathan Natkins在本文中解释了如何利用Apache Hadoop结合Flume、Hive和Oozie等组件实现一个典型的数据管理系统。他也给出了一个实际的例子,即如何使用这一架构来测量Twitter用户的影响力。
AirFlow日前加入了Apache孵化器工程。AirFlow作为一个工作流和调度系统,被设计用来管理数据管道。之前是由AirBnb开发并在内部使用,于去年九月份开源,详见之前InfoQ的报道。
如今,公司越来越多地依赖大数据进行决策。Amazon、Cloudera和IBM都发布了它们的Hadoop-as-a-Service产品,Microsoft的类似产品也将在明年问世。
Joe McKendrick的新博客中总结了Hadoop能够显著简化企业SOA实施,这是构建在通用企业数据平台上的改进的数据访问服务实现的。
Apache Falcon是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。它使终端用户可以快速地将他们的数据及其相关的处理和管理任务“上载(onboard)”到Hadoop集群。近日,Apache基金会宣布Falcon升级为顶级项目。
DataWorks 新品发布。
雅虎在Hadoop集群上开发了大规模机器学习算法,将Hadoop集群打造成了雅虎首选的大规模机器学习平台。近日,雅虎Big ML团队的Cyprien Noel、Jun Shi和Andy Feng撰文介绍了雅虎在Hadoop集群上构建大规模分布式深度学习的实践。这主要包含两个方面的工作,一是通过向Hadoop集群添加GPU节点增强集群,而是基于开源软件库Apache Spark和Caffe创建了一个分布式综合解决方案Caffe-on-Spark。