MapReduce 发力:发布支持 Eclipse 和 Amazon EC2 平台的工具插件

  • Scott Delap
  • Jason lai

2007 年 3 月 29 日

话题:Java语言 & 开发架构

IBM Alphaworks 网站发布了一个新的 Eclipse 插件,使用开源 Java MapReduce 框架 Hadoop 来简化应用程序的开发。Hadoop 框架最初的产生是为了支持Nutch 项目。Hadoop 包含了一个分布式文件系统以及一个 MapReduce 实现。MapReduce 是被Google 广泛采用的编程结构,用于在集群内部进行海量数据集的并行处理。今年在 Hadoop 上所做的集成工作使得在 Amazon 的 EC2 平台上运行 Hadoop MapReduce 应用使用 Amazon 的 S3 平台进行存储等更为容易。Amazon Web 服务博客表示:“由于 EC2 实体和存储于 S3 上的数据之间的带宽尚未度量或发布,这是处理大量数据的一种很节约成本的方式”。

IBM MapReduce 插件包含以下功能:

  • 允许 Java™项目以 JAR(Java Archive)文件形式打包并部署到(本地和远程的)Hadoop 服务器上
  • 提供辅助开发过程的备忘单(Cheat Sheets)
  • 增加了一个独立的 Eclipse 透视图(Perspective),以及用于显示 Hadoop 服务器、Hadoop 分布式文件系统(DFS)和当前任务状态的视图
  • 提供了一些向导,使基于 MapReduce 框架的类的开发变得更加容易

此外,它还包括了改进的备忘单,并且完全兼容 OS X。插件使用 SCP 和 SSH 与 Hadoop 服务器进行交互,通过 HTTP 协议获取工作状态。

Java语言 & 开发架构