东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

大数据分析: 结合 Hadoop 或 Elastic MapReduce 使用 Hunk

  • 2014-10-26
  • 本文字数:1219 字

    阅读完需:约 4 分钟

Hunk Splunk 公司一款比较新的产品,用来对 Hadoop 和其它 NoSQL 数据存储进行探测和可视化,它的新版本将会支持亚马逊的 Elastic MapReduce

结合 Hadoop 使用 Hunk

Hadoop 由两个单元组成,首先是被称为 HDFS 的存储单元,HDFS 可以分布在成千上万个复制的节点上。接下来是 MapReduce 单元,它负责跟踪和管理被命名为 map-reduce jobs 的作业。

之前,开发者会用到 Splunk Hadoop Connect (SHC) 连接器。SHC 通过常用的推模型(push model)来输出数据到 Hadoop 中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过 Splunk 来探测数据时,原始的数据会被吸收到 Splunk Server 来检索和处理。就像人们猜想的那样,这个过程并没有发挥出 Hadoop 计算能力的优势。

Hunk 通过提供与 Hadoop MapReduce 节点协同工作的适配器来解决这个问题。Splunk 的查询被转化成 Hadoop MapReduce 的作业,这些作业在 Hadoop 集群中处理,最终只有结果被取回到 Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk 提供了抽象层,以便用户和开发者不需要关心怎么去写 Hadoop MapReduce 的作业。Hunk 还能在 MapReduce 作业启动前就提供结果预览,以减少无用搜索的数量。

结合 Elastic MapReduce 使用 Hunk

亚马逊的 Elastic MapReduce 可以看做是对 Hadoop 的补充,同时也是 Hadoop 的竞争者。EMR 既可以运行在 Hadoop HDFS 集群上,也可以直接运行在 AWS S3 上。亚马逊宣称使用 AWS S3 的优势在于比 HDFS 集群更易于管理。

当运行 Elastic MapReduce 时,Hunk 提供了相同的抽象层和预览功能,就像它在 Hadoop 上做的一样。所以从用户的观点来看,在 Hadoop 和 EMR 之间切换不会造成什么变化。

云上的 Hunk

在云上托管 Hunk 的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对 Hunk 的运行实例进行手动配置以让它对应到正确的 Hadoop 或 AWS 集群上。

这个月的新版本里,Hunk 的运行实例可以在 AWS 上进行自动化配置,这包括自动发现 EMR 数据源,这样 Hunk 实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk 运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk 中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由 Hunk 来体现 Hadoop 和 EMR 集群处理的一种方式。从 Splunk 的用户界面上看,它们像是真正的索引,即使其数据处理是在 map-reduce 作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文: Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


感谢杨赛对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-10-26 10:493040

评论

发布
暂无评论
发现更多内容

【玩转 EdgeOne】进阶玩法

二哈侠

Disjob—分布式任务调度框架

Ponfee

Java 分布式任务调度

Parallels Desktop 19.1.0 破解版 pd19虚拟机中文完美永久激活版下载-亲测可用

晴雯哥

重复文件查找软件推荐Duplicate File Finder Pro免激活最新

胖墩儿不胖y

Mac软件 重复文件查找工具 重复查找软件

Araxis Merge Pro 2023 for mac(文件对比合并工具)

展初云

Mac 文件对比工具

Mathworks Matlab R2023a(商业数学软件)特别版下载

影影绰绰一往直前

matlab MATLAB下载 MATLAB破解版 MATLAB R2023a

专业的磁盘分析管理 Disk Space Analyzer Pro免激活最新

mac大玩家j

磁盘管理 Mac软件 磁盘分析软件

Nautilus Chain 联合香港数码港举办 BIG DEMO DAY活动,释放何信号?

石头财经

Mac电脑应用卸载清理工具推荐:App Cleaner & Uninstaller Pro

彩云

Mac软件 应用卸载 应用程序卸载清理

XMind2023思维导图软件完美破解版 mac/win

影影绰绰一往直前

XMind下载 XMind2023 XMind破解版 XMind Pro

Nautilus Chain 联合香港数码港举办 BIG DEMO DAY活动,释放何信号?

股市老人

Mac系统维护和清理软件 MacCleaner 3 Pro

展初云

Mac 清理优化软件

Macos强大的文件对比合并工具:Araxis Merge pro

彩云

Mac软件推荐 Araxis Merge Pro

手把手带你打一场时间序列比赛—优化

打工人!

机器学习 模型融合

Nautilus Chain 联合香港数码港举办 BIG DEMO DAY活动,释放何信号?

EOSdreamer111

Mac抓取网站视频用什么工具:Downie 4

展初云

Mac Mac软件 视频下载工具

KeyShot Pro 2023(3D渲染和动画制作)中文特别版mac/win

iMac小白

KeyShot Pro KeyShot Pro2023 KeyShot Pro下载 KeyShot Pro破解版

MacDroid如何使用,MacDroid使用教程

胖墩儿不胖y

Mac软件 传输工具

Nautilus Chain 联合香港数码港举办 BIG DEMO DAY活动,释放何信号?

BlockChain先知

Nautilus Chain联合香港数码港举办BIG DEMO DAY活动,释放何信号?

小哈区块

Golang微服务框架Kratos轻松集成并使用Swagger UI

喵个咪

swagger protobuf OpenAPI Kratos #微服务

总结Nginx的安装、配置与设置开机自启?

百度搜索:蓝易云

nginx 云计算 Linux 运维 Web

用docker搭建selenium grid分布式环境实践

百度搜索:蓝易云

Docker 云计算 Linux 运维 selenium

Nautilus Chain联合香港数码港举办BIG DEMO DAY活动,释放何信号?

西柚子

Linux mkdir命令:创建目录(文件夹)

二哈侠

Ableton Live Suite 11(音乐创作软件)中文特别版mac/win

影影绰绰一往直前

Ableton Live 11 Suite Ableton Live Suite11下载 Ableton Live Suite破解

产品经理必备!9个提升效率的工具盘点,你都用过哪些?

彭宏豪95

产品经理 科技 在线白板 办公软件 在线协作

Rhinoceros 7 (犀牛7)中文特别版mac/win

影影绰绰一往直前

Rhinoceros 7 Rhinoceros 7下载 Rhinoceros 7破解版

释放搜索潜力:基于ES(ElasticSearch)打造高效的语义搜索系统,让信息尽在掌握

汀丶人工智能

人工智能 自然语言处理 向量检索 语义搜索 语义搜索系统

Python 中多态性的示例和类的继承多态性

小万哥

Python 程序员 软件 后端 开发

SketchUp Pro 2023 草图大师中文特别版mac/win

影影绰绰一往直前

SketchUp Pro 2023 SketchUp Pro 中文版 SketchUp Pro 2023下载 SketchUp Pro 2023破解

大数据分析:结合 Hadoop或  Elastic MapReduce使用 Hunk_服务革新_Jonathan Allen_InfoQ精选文章