写点什么

大数据分析: 结合 Hadoop 或 Elastic MapReduce 使用 Hunk

  • 2014-10-26
  • 本文字数:1219 字

    阅读完需:约 4 分钟

Hunk Splunk 公司一款比较新的产品,用来对 Hadoop 和其它 NoSQL 数据存储进行探测和可视化,它的新版本将会支持亚马逊的 Elastic MapReduce

结合 Hadoop 使用 Hunk

Hadoop 由两个单元组成,首先是被称为 HDFS 的存储单元,HDFS 可以分布在成千上万个复制的节点上。接下来是 MapReduce 单元,它负责跟踪和管理被命名为 map-reduce jobs 的作业。

之前,开发者会用到 Splunk Hadoop Connect (SHC) 连接器。SHC 通过常用的推模型(push model)来输出数据到 Hadoop 中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过 Splunk 来探测数据时,原始的数据会被吸收到 Splunk Server 来检索和处理。就像人们猜想的那样,这个过程并没有发挥出 Hadoop 计算能力的优势。

Hunk 通过提供与 Hadoop MapReduce 节点协同工作的适配器来解决这个问题。Splunk 的查询被转化成 Hadoop MapReduce 的作业,这些作业在 Hadoop 集群中处理,最终只有结果被取回到 Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk 提供了抽象层,以便用户和开发者不需要关心怎么去写 Hadoop MapReduce 的作业。Hunk 还能在 MapReduce 作业启动前就提供结果预览,以减少无用搜索的数量。

结合 Elastic MapReduce 使用 Hunk

亚马逊的 Elastic MapReduce 可以看做是对 Hadoop 的补充,同时也是 Hadoop 的竞争者。EMR 既可以运行在 Hadoop HDFS 集群上,也可以直接运行在 AWS S3 上。亚马逊宣称使用 AWS S3 的优势在于比 HDFS 集群更易于管理。

当运行 Elastic MapReduce 时,Hunk 提供了相同的抽象层和预览功能,就像它在 Hadoop 上做的一样。所以从用户的观点来看,在 Hadoop 和 EMR 之间切换不会造成什么变化。

云上的 Hunk

在云上托管 Hunk 的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对 Hunk 的运行实例进行手动配置以让它对应到正确的 Hadoop 或 AWS 集群上。

这个月的新版本里,Hunk 的运行实例可以在 AWS 上进行自动化配置,这包括自动发现 EMR 数据源,这样 Hunk 实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk 运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk 中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由 Hunk 来体现 Hadoop 和 EMR 集群处理的一种方式。从 Splunk 的用户界面上看,它们像是真正的索引,即使其数据处理是在 map-reduce 作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文: Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


感谢杨赛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-26 10:493502

评论

发布
暂无评论
发现更多内容

TG Pro:有效保护您的Mac电脑避免过热或损坏

Rose

VMware VeloCloud SD-WAN 6.4 - 领先的 SD-WAN 解决方案

sysin

velocloud

《HarmonyOSNext 全场景网络通信能力进阶实战:从多网管理到RCP高阶开发》

Turing_010

HarmonyOSNext全栈数据存储双星解析:轻量级VS关系型存储终极指南

Turing_010

《HarmonyOSNext终极UIAbility手册:从启动模式到页面跳转,一网打尽!》

Turing_010

不是拿着源码过来,就能二开,还需要注意这些

程序员郭顺发

AI大战,谷歌仍未扳回一局

脑极体

AI

苹果Mac电脑五款实用思维导图软件分享

Rose

《HarmonyOSNext Tabs组件深度指南:六大核心技巧打造丝滑导航体验》

Turing_010

九号电动车重磅新品 Mz MAX 全面开售,实力出圈,618钜惠不容错过

科技热闻

为什么余承东说L3定义不合理?

脑洞汽车

AI

Text Workflow for mac 文本格式转换工具

Rose

基于YOLOv8的PCB缺陷检测识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

透明LED广告屏租赁价格:探究成本

Dylan

广告 LED LED display LED显示屏 LED屏幕

HarmonyOSNEXT网络连接管理全攻略

Turing_010

深入浅出:微店商品详情API接口Python攻略

tbapi

微店商品数据接口 微店商品采集 微店商品详情API

什么是低代码?低代码开发的意义在哪?

秃头小帅oi

苹果电脑实用工具:小历TinyCal 精美的Mac日历软件

Rose

AI编码工具:面向现代开发者的分层指南

俞凡

人工智能

《HarmonyOSNext超神路由指南:组件级导航+智能多端适配+动态路由黑科技全解析》

Turing_010

哪款文件比较工具好用?试试 UltraCompare 吧,支持MacOS和Windows

Rose

实用的预设管理器和编辑器 JU-106 Editor for mac

Rose

低代码不是炫技,而是回归需求的必然答案

伤感汤姆布利柏

Zerto 10.0 Update 7 - 适用于本地、混合和多云环境的灾难恢复和数据保护

sysin

Zerto

JNPF 低代码玩出花,协作效率干到飞起!

引迈信息

AutoCAD LT 2026(cad2026简化版)中文详细安装教程-Mac/win

Rose

专为开发者和AI爱好者设计的工具 LM Studio for Mac您的本地 AI 工具包

Rose

用 10 个 AI 工具创建独立开发团队

俞凡

人工智能

🌟 HarmonyOS NEXT:构造器与面向对象全攻略 🌟

Turing_010

Pixologic ZBrush:角色建模、场景建模、特效制作

Rose

DaisyDisk for mac 磁盘健康及深度清理工具

Rose

大数据分析:结合 Hadoop或  Elastic MapReduce使用 Hunk_服务革新_Jonathan Allen_InfoQ精选文章