2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

大数据分析: 结合 Hadoop 或 Elastic MapReduce 使用 Hunk

  • 2014-10-26
  • 本文字数:1219 字

    阅读完需:约 4 分钟

Hunk Splunk 公司一款比较新的产品,用来对 Hadoop 和其它 NoSQL 数据存储进行探测和可视化,它的新版本将会支持亚马逊的 Elastic MapReduce

结合 Hadoop 使用 Hunk

Hadoop 由两个单元组成,首先是被称为 HDFS 的存储单元,HDFS 可以分布在成千上万个复制的节点上。接下来是 MapReduce 单元,它负责跟踪和管理被命名为 map-reduce jobs 的作业。

之前,开发者会用到 Splunk Hadoop Connect (SHC) 连接器。SHC 通过常用的推模型(push model)来输出数据到 Hadoop 中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过 Splunk 来探测数据时,原始的数据会被吸收到 Splunk Server 来检索和处理。就像人们猜想的那样,这个过程并没有发挥出 Hadoop 计算能力的优势。

Hunk 通过提供与 Hadoop MapReduce 节点协同工作的适配器来解决这个问题。Splunk 的查询被转化成 Hadoop MapReduce 的作业,这些作业在 Hadoop 集群中处理,最终只有结果被取回到 Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk 提供了抽象层,以便用户和开发者不需要关心怎么去写 Hadoop MapReduce 的作业。Hunk 还能在 MapReduce 作业启动前就提供结果预览,以减少无用搜索的数量。

结合 Elastic MapReduce 使用 Hunk

亚马逊的 Elastic MapReduce 可以看做是对 Hadoop 的补充,同时也是 Hadoop 的竞争者。EMR 既可以运行在 Hadoop HDFS 集群上,也可以直接运行在 AWS S3 上。亚马逊宣称使用 AWS S3 的优势在于比 HDFS 集群更易于管理。

当运行 Elastic MapReduce 时,Hunk 提供了相同的抽象层和预览功能,就像它在 Hadoop 上做的一样。所以从用户的观点来看,在 Hadoop 和 EMR 之间切换不会造成什么变化。

云上的 Hunk

在云上托管 Hunk 的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对 Hunk 的运行实例进行手动配置以让它对应到正确的 Hadoop 或 AWS 集群上。

这个月的新版本里,Hunk 的运行实例可以在 AWS 上进行自动化配置,这包括自动发现 EMR 数据源,这样 Hunk 实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk 运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk 中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由 Hunk 来体现 Hadoop 和 EMR 集群处理的一种方式。从 Splunk 的用户界面上看,它们像是真正的索引,即使其数据处理是在 map-reduce 作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文: Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


感谢杨赛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-26 10:493727

评论

发布
暂无评论
发现更多内容

Omnissa App Volumes 4, version 2412 - 实时应用程序交付系统

sysin

horizon Omnissa

INFINI Console 指标采集优化

极限实验室

console metrics

从0到1:基于SSM的校园社团活动报名小程序开发笔记(中)

CC同学

大模型能让智能推荐更智能吗?

JustYan

人工智能 大模型 智能推荐 生成式AI 生成式 AI 应用

Mellel 6:专业级文字处理,轻松驾驭长文创作

Rose

华为云X实例CPU性能测试详解与优化策略

轶天下事

自学记录鸿蒙API 13:实现多目标识别Object Detection

李游Leo

鸿蒙 HarmonyOS HarmonyOS NEXT

AIP智能体平台:引领教育培训的新时代

大东(AIP智能体运营专员)

人工智能

Omnissa ThinApp 2412 - 应用虚拟化软件

sysin

horizon Omnissa

部署 及 使用 etl crontab 和 etl engine

weigeonlyyou

Go 大数据 Influxdb ETL Click house

华为云Flexus云服务器X实例搭建部署H5美妆护肤分销商城、前端uniapp

轶天下事

阿里P8面试官不小心泄露了25年春招进大厂必备的Java面试场景题!

程序员高级码农

Java 编程 程序员 java面试 Java面试题

基于HarmonyOS 5.0(NEXT)与SpringCloud架构的跨平台应用开发与服务集成研究【实战】

申公豹

HarmonyOS

AIP智能体平台:助力软件行业数字化转型与智能升级

大东(AIP智能体运营专员)

人工智能

LLM Scalable Oversight新探:辩论法与博弈法的较量

代码忍者

淘宝京东电商商品SKU信息抓取API测试实战指南

代码忍者

淘宝API接口 京东API接口

华为云Flexus云服务器X实例之openEuler系统下玩转iSulad容器技术

轶天下事

使用Memtester 对华为云 X 实例进行内存性能测试

轶天下事

AIP智能体平台:推动多智能体系统创新与效率提升

大东(AIP智能体运营专员)

人工智能

Omnissa Horizon Clients 2412 发布 - 虚拟桌面基础架构 (VDI) 和应用软件

sysin

horizon

抢占先机!2025,三大认知降低To B赛道门槛

禅道项目管理

企业管理 经营管理

MacMagic for Mac(系统垃圾清理软件)v1.2.2激活版

Rose

Clone Fighter for Mac(重复文件查找删除软件)v2.1激活版

Rose

HarmonyOS 5.0 Next实战应用开发—‘我的家乡’【HarmonyOS Next华为公司完全自研的操作系统】

申公豹

HarmonyOS

Python 函数使用指南:定义、参数设置与变量作用域详解

敲代码不忘补水

Python 变量 函数 科技 计算机科学与技术

Python Class 类详解:定义、继承与特殊方法的使用

敲代码不忘补水

Python 继承 科技 计算机科学与技术

CLO Standalone OnlineAuth for Mac(3D可视化服装设计软件)v2024.2.160激活版

Rose

面试了个阿里P7大佬,他让我见识到什么才是“精通高并发与调优”

程序员高级码农

Java 编程 程序员 java面试 Java面试题

从0到100:基于Java的大学选修课选课小程序开发笔记(上)

CC同学

《计算机组成及汇编语言原理》阅读笔记:p128-p132

codists

计算机组成及汇编语言原理

AIP智能体平台:开启智能自动化新时代

大东(AIP智能体运营专员)

人工智能

大数据分析:结合 Hadoop或  Elastic MapReduce使用 Hunk_服务革新_Jonathan Allen_InfoQ精选文章