写点什么

大数据分析: 结合 Hadoop 或 Elastic MapReduce 使用 Hunk

  • 2014-10-26
  • 本文字数:1219 字

    阅读完需:约 4 分钟

Hunk Splunk 公司一款比较新的产品,用来对 Hadoop 和其它 NoSQL 数据存储进行探测和可视化,它的新版本将会支持亚马逊的 Elastic MapReduce

结合 Hadoop 使用 Hunk

Hadoop 由两个单元组成,首先是被称为 HDFS 的存储单元,HDFS 可以分布在成千上万个复制的节点上。接下来是 MapReduce 单元,它负责跟踪和管理被命名为 map-reduce jobs 的作业。

之前,开发者会用到 Splunk Hadoop Connect (SHC) 连接器。SHC 通过常用的推模型(push model)来输出数据到 Hadoop 中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过 Splunk 来探测数据时,原始的数据会被吸收到 Splunk Server 来检索和处理。就像人们猜想的那样,这个过程并没有发挥出 Hadoop 计算能力的优势。

Hunk 通过提供与 Hadoop MapReduce 节点协同工作的适配器来解决这个问题。Splunk 的查询被转化成 Hadoop MapReduce 的作业,这些作业在 Hadoop 集群中处理,最终只有结果被取回到 Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk 提供了抽象层,以便用户和开发者不需要关心怎么去写 Hadoop MapReduce 的作业。Hunk 还能在 MapReduce 作业启动前就提供结果预览,以减少无用搜索的数量。

结合 Elastic MapReduce 使用 Hunk

亚马逊的 Elastic MapReduce 可以看做是对 Hadoop 的补充,同时也是 Hadoop 的竞争者。EMR 既可以运行在 Hadoop HDFS 集群上,也可以直接运行在 AWS S3 上。亚马逊宣称使用 AWS S3 的优势在于比 HDFS 集群更易于管理。

当运行 Elastic MapReduce 时,Hunk 提供了相同的抽象层和预览功能,就像它在 Hadoop 上做的一样。所以从用户的观点来看,在 Hadoop 和 EMR 之间切换不会造成什么变化。

云上的 Hunk

在云上托管 Hunk 的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对 Hunk 的运行实例进行手动配置以让它对应到正确的 Hadoop 或 AWS 集群上。

这个月的新版本里,Hunk 的运行实例可以在 AWS 上进行自动化配置,这包括自动发现 EMR 数据源,这样 Hunk 实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk 运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk 中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由 Hunk 来体现 Hadoop 和 EMR 集群处理的一种方式。从 Splunk 的用户界面上看,它们像是真正的索引,即使其数据处理是在 map-reduce 作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文: Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


感谢杨赛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-26 10:493683

评论

发布
暂无评论
发现更多内容

浅谈鸿蒙跨平台框架ArkUI-X

inBuilder低代码平台

鸿蒙 鸿蒙跨平台开发 ArkUI-X

Perfectly Clear Workbench for Mac 智能图像清晰度处理软件

小石头寻母记

EazyDraw for Mac 超赞的矢量图绘制工具

小石头寻母记

再看 AI 网关:助力 AI 应用创新的关键基础设施

阿里巴巴云原生

阿里云 云原生 AI 网关

AI 时代的数据通道:云消息队列 Kafka 的演进与实践

阿里巴巴云原生

kafka 阿里云 云原生

职责分离的艺术:剖析主从Reactor模型如何实现极致的并发性能

poemyang

RPC IO多路复用 Reactor多线程

AI智能体是加速器,而非开发者替代品

码语者

AI 智能体

房产全民经纪人平台:数字化房产经纪新生态,驱动交易高效协同

深圳亥时科技

Apex AI辅助编码助手的设计和实践|得物技术

得物技术

AI 智能编码 cursor AIcode

可千万不要小看谷歌Veo3.1的能力

苍何

凌晨 2 点的朋友圈,她靠微擎实现了 “带娃赚钱两不误”

微擎应用市场

低代码查询字段实操:2 大来源 + 3 类配置,数据筛选精准又高效

引迈信息

零代码改造 + 全链路追踪!Spring AI 最新可观测性详细解读

阿里巴巴云原生

阿里云 云原生 Spring AI

OpenAI的S2-pro人人可用了,免费无水印,真香!

苍何

ON1 Photo RAW MAX 2026 for Mac 强大的照片编辑软件

小石头寻母记

多模态文本智能大模型前沿技术与应用论坛在上海召开,合合信息推出多模态文本智能技术方案

合合技术团队

人工智能 大数据 算法

工业管理 项目管理经验总结(26)

万里无云万里天

项目管理 工业 工厂运维

近期 AI 领域的新发布所带来的启示

阿里巴巴云原生

阿里云 AI 云原生 agent

2025 金灵光杯|中邮证券一体化数据安全平台合规实践项目入围获奖!

原点安全

传帮带 人才梯队建设经验总结(14)

万里无云万里天

人才培养 工业 工厂运维

分布式 Multi Agent 安全高可用探索与实践

阿里巴巴云原生

阿里云 AI 云原生 agent

Boxy SVG for Mac 矢量图编辑器

小石头寻母记

“数”风流人物|从手搓Hadoop到智能数据平台构建,数新智能CTO原攀峰的“自我突破”

数新网络官方账号

IDC最新报告:谷云科技 iPaaS以34.4%的增速领先全行业

谷云科技RestCloud

IDC 集成平台 ipaas 市场份额

企业成本算不清,交付准不了?如何通过iPaaS处理在业务中产生的数据

谷云科技RestCloud

数据同步 数据孤岛 集成平台 ipaas

AD域清理工具

运维有小邓

AD域 AD域管理 AD域组管理

天润融通解析人工客服还能撑几年?数据已经给出答案

天润融通

意外发现10个神级n8n工作流,效率起飞!(附模板)

苍何

Acorn for Mac 轻量级图片处理软件

小石头寻母记

云栖实录 | AI 搜索智能探索:揭秘如何让搜索“有大脑”

阿里云大数据AI技术

阿里云 AI search 多模态 DeepSearch

单提交智能评审上线!用云效精准定位复杂 MR 代码问题

阿里巴巴云原生

阿里云 云原生 云效

大数据分析:结合 Hadoop或  Elastic MapReduce使用 Hunk_服务革新_Jonathan Allen_InfoQ精选文章