Cascading——针对 Hadoop MapReduce 的数据处理 API

  • R.J. Lorimer
  • 张龙

2008 年 10 月 12 日

话题:Java云计算DevOps语言 & 开发架构

Cascading是一个新式的针对Hadoop clusters 的数据处理 API,它使用富于表现力的 API 来构建复杂的处理工作流,而不是直接实现 Hadoop MapReduce 的算法。

该处理 API 使开发者可以快速装配复杂的分布式流程,而无需“考虑”MapReduce。同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。

Cascading API 的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,cascade 就是多个流的链接、分支和分组。

该 API 提供了很多关键特性:

  • 基于依赖的“拓扑调度(Toplogical Scheduler)”及 MapReduce 规划——这是 cascading API 的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和 cascades 进行并发调用。此外,各种流的步骤被智能地转换成对应于 hadoop cluster 的 map-reduce 调用。
  • 事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。
  • 脚本化——Cascading API 有针对 Jython、Groovy 和 JRuby 的脚本化接口——这使其适合于常见的动态 JVM 语言

有很多文档可用来学习 cascading API 的概念和实现。这儿有一篇 PDF 格式的介绍性概览,从高层展示了 cascading API 的核心概念。还有一个“介绍性示例”展示了如何创建一个简单的 Apache 日志解析器。最后,这儿还有一个完整的Cascading API 的 Javadoc 文档

查看英文原文:Cascading - Data Processing API for Hadoop MapReduce

Java云计算DevOps语言 & 开发架构