写点什么

大数据分析: 结合 Hadoop 或 Elastic MapReduce 使用 Hunk

  • 2014-10-26
  • 本文字数:1219 字

    阅读完需:约 4 分钟

Hunk Splunk 公司一款比较新的产品,用来对 Hadoop 和其它 NoSQL 数据存储进行探测和可视化,它的新版本将会支持亚马逊的 Elastic MapReduce

结合 Hadoop 使用 Hunk

Hadoop 由两个单元组成,首先是被称为 HDFS 的存储单元,HDFS 可以分布在成千上万个复制的节点上。接下来是 MapReduce 单元,它负责跟踪和管理被命名为 map-reduce jobs 的作业。

之前,开发者会用到 Splunk Hadoop Connect (SHC) 连接器。SHC 通过常用的推模型(push model)来输出数据到 Hadoop 中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过 Splunk 来探测数据时,原始的数据会被吸收到 Splunk Server 来检索和处理。就像人们猜想的那样,这个过程并没有发挥出 Hadoop 计算能力的优势。

Hunk 通过提供与 Hadoop MapReduce 节点协同工作的适配器来解决这个问题。Splunk 的查询被转化成 Hadoop MapReduce 的作业,这些作业在 Hadoop 集群中处理,最终只有结果被取回到 Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk 提供了抽象层,以便用户和开发者不需要关心怎么去写 Hadoop MapReduce 的作业。Hunk 还能在 MapReduce 作业启动前就提供结果预览,以减少无用搜索的数量。

结合 Elastic MapReduce 使用 Hunk

亚马逊的 Elastic MapReduce 可以看做是对 Hadoop 的补充,同时也是 Hadoop 的竞争者。EMR 既可以运行在 Hadoop HDFS 集群上,也可以直接运行在 AWS S3 上。亚马逊宣称使用 AWS S3 的优势在于比 HDFS 集群更易于管理。

当运行 Elastic MapReduce 时,Hunk 提供了相同的抽象层和预览功能,就像它在 Hadoop 上做的一样。所以从用户的观点来看,在 Hadoop 和 EMR 之间切换不会造成什么变化。

云上的 Hunk

在云上托管 Hunk 的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对 Hunk 的运行实例进行手动配置以让它对应到正确的 Hadoop 或 AWS 集群上。

这个月的新版本里,Hunk 的运行实例可以在 AWS 上进行自动化配置,这包括自动发现 EMR 数据源,这样 Hunk 实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk 运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk 中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由 Hunk 来体现 Hadoop 和 EMR 集群处理的一种方式。从 Splunk 的用户界面上看,它们像是真正的索引,即使其数据处理是在 map-reduce 作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文: Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


感谢杨赛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-26 10:493743

评论

发布
暂无评论
发现更多内容

使用ServiceWorker提高性能

devpoint

JavaScript Service Worker 7月月更

硅谷来信:Google、Facebook员工的“成长型思维”

博文视点Broadview

Qt|QWT绘制柱状图一类多种颜色

中国好公民st

qt 7月月更

Qt中 connect的多种方式

小肉球

qt 7月月更

数据仓库分层——DWD DWS ADS傻傻分不清楚

怀瑾握瑜的嘉与嘉

数据仓库 7月月更

某易跟帖频道,接口溯源分析,反爬新技巧,必掌握一下

梦想橡皮擦

Python 爬虫 Python爬虫 7月月更

Hexo在github上构建的博客

沃德

程序员 Hexo 博客 7月月更

【LeetCode】数组美丽值求和Java题解

Albert

LeetCode 7月月更

会用redis吗?那还不快来了解下redis protocol

冉然学Java

Java 分布式 构架 Redis 数据结构

Java基本概念详解

五分钟学大数据

Java 7月月更

MySQL进阶(一)主外键讲解

No Silver Bullet

MySQL 数据库 7月月更 主外键

龙芯高级工程师直播:视频编解码基础知识入门 | 第 31 期

OpenAnolis小助手

直播 基础 视频编解码 龙蜥大讲堂 龙芯中科

语音直播app源码

开源直播系统源码

直播系统源码 开源源码 语音直播系统源码

Qt | 读取文件内容并删除文件 QFile

YOLO.

File 文件操作 qt 7月月更

基于Qt设计的课堂考勤系统(采用RDS for MySQL云数据库 )

DS小龙哥

7月月更

飙车资深老教练-手撸一个EventBus

芝麻粒儿

android EventBus 7月月更

CSS神奇的卡片悬停交互效果

南城FE

CSS 前端 动画 鼠标悬浮 7月月更

基于SpringBoot 的MCMS系统,完全开源,直接商用太爽了

冉然学Java

Java 源码 springboot 构架

Java 在Word文档中查找和高亮文本

在下毛毛雨

Java word文档 查找与高亮

面试突击65:为什么要用HTTPS?它有什么优点?

王磊

Java 面试题

营销玩法多变,搞懂规则是关键!

CRMEB

多链多币种钱包系统开发跨链技术

薇電13242772558

钱包 跨链技术

全面打通 DevOps 数据链的研发效能度量平台

思码逸研发效能

开源 DevOps 研发效能 效能度量

Redis 过期的数据会被立马删除么?大有玄机

码哥字节

redis 底层原理 7月月更

双目立体匹配之视差优化

秃头小苏

7月月更 双目立体匹配

《高绩效教练》:如何用提问激发潜能?

郭明

读书笔记

不习惯的 Vue3 起步五 のapiHooks封装

空城机

Vue3 7月月更

微软 Edge 浏览器 Tracking Prevention 的强制措施的一个例子

汪子熙

JavaScript microsoft 浏览器 前端开发 7月月更

解决浏览器回退表单重复提交问题

沃德

程序员 javaWeb 7月月更

FAQ制作工具推荐

Baklib

OAI L3与L2接口分析

柒号华仔

5G 7月月更

大数据分析:结合 Hadoop或  Elastic MapReduce使用 Hunk_服务革新_Jonathan Allen_InfoQ精选文章