10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Spring for Apache Hadoop 1.0 发布

  • 2013-03-18
  • 本文字数:2172 字

    阅读完需:约 7 分钟

SpringSource 发布了 Spring for Apache Hadoop 1.0 。开发者能够通过它编写基于 Spring Framework 的 Hadoop 应用,还能很容易地与 Spring Batch 和 Spring Integration 集成。Spring for Apache Hadoop 是 Spring Data 大型项目的一个子项目,它基于开源的 Apache 2.0 许可发布。

Hadoop 应用通常是一个命令行工具、脚本和代码的集合。Spring for Apache Hadoop 为 Hadoop 应用开发提供了一个一致性的编程模型和声明式配置模型。开发人员现在能够借助它使用 Spring 编程模型(依赖注入、POJO 和辅助模板)实现 Hadoop 应用,并且能够以标准的 Java 应用而不是命令行工具的方式运行它。Spring for Apache Hadoop 支持对 HDFS 的读写操作,支持运行 MapReduce、流或者级联工作,还能够与 HBase、Hive 和 Pig 交互。

Spring for Apache Hadoop 包含以下关键特性:

  • 支持声明式配置,能够创建、配置和参数化 Hadoop 连接,支持 MapReduce、流、Hive、Pig 和级联工作。有不同的“runner”类执行不同的 Hadoop 交互类型,它们分别是 JobRunner、ToolRunner、 JarRunner、 HiveRunner、 PigRunner、CascadeRunner 和 HdfsScriptRunner。
  • 全面的 HDFS 数据访问支持,可以使用所有基于 JVM 的脚本语言,例如 Groovy、JRuby、Jython 和 Rhino。
  • 支持 Pig 和 Hive 的模板类 PigTemplate 和 HiveTemplate。这些辅助类提供了异常转化、资源管理和轻量级对象映射功能。
  • 支持对 HBase 的声明式配置,同时为 Dao 层支持引入了 HBaseTemplate。
  • 声明和编程支持 Hadoop 工具,包括文件系统 Shell(FsShell)和分布式复制(DistCp)。
  • 安全支持。Spring for Apache Hadoop 清楚运行 Hadoop 环境的安全约束,因此能够透明地从一个本地开发环境迁移到一个完全 Kerberos 安全的 Hadoop 集群。
  • 支持 Spring Batch。通过 Spring Batch,多个步骤能够被调整为有状态的方式并使用 REST API 进行管理。例如,Spring Batch 处理大文件的能力就可以被用于向 HDFS 导入或者从 HDFS 导出文件。
  • 支持 Spring Integration。Spring Integration 允许对那些在被读取并写入 HDFS 及其他存储之前能够被转换或者过滤的事件流进行处理。

下面是配置示例和代码片段,大部分来自于 Spring for Hadoop 博客或者参考手册。

MapReduce

复制代码
<!-- use the default configuration -->
<hdp:configuration />
<!-- create the job -->
<hdp:job id="word-count"
input-path="/input/" output-path="/ouput/"
mapper="org.apache.hadoop.examples.WordCount.TokenizerMapper"
reducer="org.apache.hadoop.examples.WordCount.IntSumReducer" />
<!-- run the job -->
<hdp:job-runner id="word-count-runner" pre-action="cleanup-script" post-action="export-results" job="word-count" run-at-startup="true" />

HDFS

复制代码
<!-- copy a file using Rhino -->
<hdp:script id="inlined-js" language="javascript" run-at-startup="true">
importPackage(java.util)
name = UUID.randomUUID().toString()
scriptName = "src/main/resources/hadoop.properties"
// fs - FileSystem instance based on 'hadoopConfiguration' bean
fs.copyFromLocalFile(scriptName, name)
</hdp:script>

HBase

复制代码
<!-- use default HBase configuration -->
<hdp:hbase-configuration />
<!-- wire hbase configuration -->
<bean id="hbaseTemplate" class="org.springframework.data.hadoop.hbase.HbaseTemplate" p:configuration-ref="hbaseConfiguration" />
// read each row from HBaseTable (Java)
List rows = template.find("HBaseTable", "HBaseColumn", new RowMapper() {
@Override
public String mapRow(Result result, int rowNum) throws Exception {
return result.toString();
}
}));

Hive

复制代码
<!-- configure data source -->
<bean id="hive-driver" class="org.apache.hadoop.hive.jdbc.HiveDriver" />
<bean id="hive-ds" class="org.springframework.jdbc.datasource.SimpleDriverDataSource" c:driver-ref="hive-driver" c:url="${hive.url}" />
<!-- configure standard JdbcTemplate declaration -->
<bean id="hiveTemplate" class="org.springframework.jdbc.core.JdbcTemplate" c:data-source-ref="hive-ds"/>

Pig

复制代码
<!-- run an external pig script -->
<hdp:pig-runner id="pigRunner" run-at-startup="true">
<hdp:script location="pig-scripts/script.pig"/>
</hdp:pig-runner>

如果想要开始,可以下载Spring for Apache Hadoop 或者使用_org.springframework.data:spring-data-hadoop:1.0.0.RELEASE_ Maven 构件。还可以获取Spring for Hadoop 的 WordCount 示例。在 YouTube 上还有介绍Spring Hadoop 的网络会议。

Spring for Apache Hadoop 需要 JDK 6.0 及以上版本、Spring Framework 3.0 及以上版本(推荐使用 3.2)和 Apache Hadoop 0.20.2 (推荐 1.0.4)。现在并不支持 Hadoop YARN、NextGen 或 2.x。支持所有的 Apache Hadoop 1.0.x 分布式组件,这些分布式组件包括 vanilla Apache Hadoop、Cloudera CDH3、CDH4 和 Greenplum HD 等。

想要获取更深入的信息,你可以阅读 Spring for Apache Hadoop 参考手册 和 Javadoc 。Spring for Apache Hadoop 的源代码示例托管在GitHub 上。

查看英文原文 Spring for Apache Hadoop 1.0

2013-03-18 07:445932
用户头像

发布了 321 篇内容, 共 130.3 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

六大开源OA办公系统

小狗围观科幻

五周年活动周历!AutoGen解析·技术畅聊·3大城市工坊本周启动!

飞桨PaddlePaddle

人工智能 开发者 飞桨 星河社区

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

京东科技开发者

深度学习 推荐算法 多模态数据 企业号11月PK榜 广告研发

一起学Elasticsearch系列-聚合查询

Java随想录

Java 大数据 Elastic Search

从四个典型场景看如何将数据集成“用到实处”

谷云科技RestCloud

ETL

金蝶与千帆大模型开发平台共创智能企业管理

百度开发者中心

#人工智能 千帆大模型平台

数智“七刀”,洞穿企业成本领先战略的密匙

用友BIP

TS版LangChain实战:基于文档的增强检索(RAG) | 京东云技术团队

京东科技开发者

人工智能 前端 langchain rag 企业号11月PK榜

UData+StarRocks在京东物流的实践 | 京东物流技术团队

京东科技开发者

数据分析 数据服务 企业号11月PK榜

基于合成数据的行人检测AI模型训练

3D建模设计

人工智能 计算机视觉 目标检测 虚幻合成生成

如何使用 3 种方法实现 Axios 并发请求

Apifox

JavaScript 前端 axios 并发请求 web 开发

千帆大模型开发平台助力智能制造升级

百度开发者中心

大模型 #人工智能 文心千帆

超越参数数量,实现高效优化

百度开发者中心

#人工智能 LLM 模型微调

数仓性能调优:row_number() over(p)-rn=1性能瓶颈发现和改写套路

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

大模型技术浪潮的潮汐效应

老张

人工智能 大模型

有哪些值得推荐的数据可视化工具?

搞大屏的小北

推荐 数据分析 数据可视化 开源软件 对比

Lazada详情API接口:一键获取商品信息的深度实践

Noah

OpenSearch向量检索和大模型方案深度解读

阿里云大数据AI技术

mysql5.7升级!轻松完成数据导入mysql8.0的跨版本迁移,实时双向复制无忧!

NineData

升级 数据导入 迁移工具 MySQL 5.7 MySQL 8.0

SRM供应商询价招投标管理系统

金陵老街

“全球金牌课程”1月13-14日 · CSM认证在线面授周末班【模块化教学】CST导师亲授

ShineScrum

Spring配置文件的魔法炼金术:如何制造容器化时代的完美配方 | 京东物流技术团队

京东科技开发者

spring 容器 云原生 企业号11月PK榜

虾皮一面:如何保证数据双写一致?

王磊

Java 面试

Spring for Apache Hadoop 1.0发布_Java_Bienvenido David_InfoQ精选文章