9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

Cascading——针对 Hadoop MapReduce 的数据处理 API

  • 2008-10-12
  • 本文字数:678 字

    阅读完需:约 2 分钟

Cascading 是一个新式的针对 Hadoop clusters 的数据处理 API,它使用富于表现力的 API 来构建复杂的处理工作流,而不是直接实现 Hadoop MapReduce 的算法。

该处理 API 使开发者可以快速装配复杂的分布式流程,而无需“考虑” MapReduce 。同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。

Cascading API 的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,cascade 就是多个流的链接、分支和分组。
该 API 提供了很多关键特性:

  • 基于依赖的“拓扑调度(Toplogical Scheduler)”及 MapReduce 规划——这是 cascading API 的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和 cascades 进行并发调用。此外,各种流的步骤被智能地转换成对应于 hadoop cluster 的 map-reduce 调用。
  • 事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。
  • 脚本化——Cascading API 有针对 Jython、Groovy 和 JRuby 的脚本化接口——这使其适合于常见的动态 JVM 语言

有很多文档可用来学习 cascading API 的概念和实现。这儿有一篇 PDF 格式的介绍性概览,从高层展示了cascading API 的核心概念。还有一个“介绍性示例”展示了如何创建一个简单的Apache 日志解析器。最后,这儿还有一个完整的 Cascading API 的 Javadoc 文档

查看英文原文: Cascading - Data Processing API for Hadoop MapReduce

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2008-10-12 19:372756
用户头像

发布了 88 篇内容, 共 254.9 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

软件测试/测试开发 | app自动化测试(Android)--App 控件定位

测试人

软件测试 自动化测试 测试开发 appium

一种前端无源码定制化开发能力专利解读

元年技术洞察

低代码 数字化转型 无源码 元年方舟

java编程培训学习好吗

小谷哥

阿里内部Spring Cloud Alibaba全彩手册来袭,手把手教你掌握阿里巴巴微服务架构核心技术

架构师之道

Java 编程 微服务 架构师

行云洞见|为什么说云端IDE代表未来趋势?

行云创新

程序员 云原生 CloudIDE 集成开发环境 云端IDE

太狠了,Spring全家桶笔记,一站式通关全攻略,已入职某厂涨薪18K

程序知音

Java spring ssm java架构 后端技术

武汉前端线下培训的就业前景怎么样

小谷哥

移动开发平台真的能提升App开发效率吗?

Onegun

移动应用开发 移动端开发

阿里、腾讯、蚂蚁金服Java技术面试及经验总结(文末分享答案)

程序知音

Java java面试 后端技术 春招 八股文

混合式APP开发框架

力软低代码开发平台

Python从零到壹丨图像增强及运算:图像掩膜直方图和HS直方图

华为云开发者联盟

Python 人工智能 华为云 企业号 1 月 PK 榜

如何通过Java代码向Word文档添加文档属性

在下毛毛雨

Java word文档 属性 文档属性

老马闲评数字化【2】您的企业是否应该急于数字化转型?

行云创新

云原生 数字化转型 企业数字化 老马闲评数字化 行云创新

由浅入深,聊聊 LeackCanary 的那些事

Petterp

android 内存泄漏 LeakCanary

2022年中国跨境支付行业年度专题分析

易观分析

金融 跨境支付 市场

如何集中式管理多个客户端节点传输任务-镭速

镭速

C4D和3dmax有什么区别?

Finovy Cloud

3DMAX C4D

除 svn、Testlink 外,还有哪些不错的测试用例管理工具?

PingCode

项目管理 管理工具 测试用例管理平台

各大互联网公司面经分享:Java全栈知识+1500道大厂面试真题

程序知音

Java java面试 java架构 大厂面试题 八股文

软件测试/测试开发 | app自动化测试(Android)--高级定位技巧

测试人

软件测试 自动化测试 测试开发 appium

带你熟悉3种AQS的线程并发工具的用法

华为云开发者联盟

后端 开发 华为云 企业号 1 月 PK 榜 华为云开发者联盟

模块五计算架构模式

程序员小张

「架构实战营」

软件测试/测试开发 | app自动化测试(Android)--元素定位方式与隐式等待

测试人

软件测试 自动化测试 测试开发 appium

老马闲评数字化【1】数字化转型,不转得死,转了也未必活?

行云创新

云原生 数字化转型 企业数字化

2022评分最高十大信创解决方案出炉!

饿鱼

老马闲评数字化【3】业务说了算还是技术说了算?

行云创新

云原生 数字化转型 企业数字化 老马闲评数字化 行云创新

Domino的数据迁移方案

饿鱼

尚硅谷Spring6发布视频教程

小谷哥

Github霸榜!竟是阿里技术官的微服务分布式项目实战笔记总结

程序知音

Java 分布式 微服务 java架构 后端技术

国家先进计算产业创新(宜昌)中心来了!

SENSORO

人工智能 大数据

推荐几款实用的移动开发平台

FinFish

移动开发 开发平台 移动开发平台 移动端开发 小程序技术

  • 扫码添加小助手
    领取最新资料包
Cascading——针对Hadoop MapReduce的数据处理API_Java_R.J. Lorimer_InfoQ精选文章