最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

数据分析不使用 Hadoop 的五大理由

  • 2012-04-30
  • 本文字数:1649 字

    阅读完需:约 5 分钟

作为 Hadoop 曾经的超级粉丝,Joe Brightly 承认自己在很多方面非常热爱 Hadoop,比如“可以处理 PB 级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据……”但当他部署 Hadoop 用于分析的时候,他才意识到它并不是无所不能。

在 Quantivo,Joe 及其同事已经“探索了许多方法来部署 Hadoop 用于回答分析型查询”,直到最后,“它变得好像是用一个锤子来建造一个房屋的运动”,这并不是不可能,但是带来了“不必要的痛苦和可笑的低效成本”。

Joe 从五个方面分析了为什么数据分析不使用Hadoop 的理由

1:“Hadoop 是一个框架,不是一个解决方案”——他认为在解决大数据分析的问题上人们误认为 Hadoop 可以立即有效工作,而实际上“对于简单的查询,它是可以的。但对于难一些的分析问题,Hadoop 会迅速败下阵来,因为需要你直接开发 Map/Reduce 代码。出于这个原因,Hadoop 更像是 J2EE 编程环境而不是商业分析解决方案。” 所谓框架意味着你一定要在之上做个性化和业务相关的开发和实现,而这些都需要成本。

2:“Hadoop 的子项目 Hive Pig 都不错,但不能逾越其架构的限制。”——Joe 提出“Hive 和 Pig 都是帮助非专业工程师快速有效使用 Hadoop 的完善工具,用于把分析查询转换为常用的 SQL 或 Java Map/Reduce 任务,这些任务可以部署在 Hadoop 环境中。”其中 Hive 是基于 Hadoop 的一个数据仓库工具,它可以帮助实现数据汇总、即时查询以及分析存储在 Hadoop 兼容的文件系统的大型数据集等。而 Pig 是并行计算的高级数据流语言和执行框架。但作者认为“Hadoop 的 Map/Reduce 框架的一些限制,会导致效率低下,尤其是在节点间通信的情况(这种场合需要排序和连接)。”

3:“部署是很方便,快捷而且免费,但在后期维护和开发方面成本很高 ”——Joe 不否认“工程师可以在一个小时内下载、安装并发布一个简单的查询,因此 Hadoop 是非常受欢迎的。而且作为没有软件成本的开源项目使得它是替代甲骨文和 Teradata 的一个非常有吸引力的选择。但是就像很多通用开源框架一样,它并不会完全适配你的业务,因此,要想把开源框架业务化,你就不得不投入开发和维护。”Joe 也认为“一旦当你进入维护和开发阶段,Hadoop 的真正成本就会变得很明显。”

4:“对于大数据流水线和汇总非常有效,但对应用于特定的分析来说是非常可怕的。”——“Hadoop 擅长于大量数据的分析和汇总,或把原始数据转化成对另一个应用程序(如搜索或文本挖掘)更有效的东西‘流水线’- 这是它存在的意义。不过,如果你不知道要分析的问题,或如果你想探索数据的模式,Hadoop 的很快变得不可收拾。“这再次回到了业务本身,框架是为业务服务的,即便是大数据的分析和汇总,也难以脱离其数据的业务特性。所以对于特定的分析,仍然不得不在编程和执行 MapReduce 代码上花很多时间才能达到目的。

5:“性能除了‘不好’的时候都很好。”——“当你需要分析大量的数据时,Hadoop 允许你通过数千个节点并行计算,这一点上其潜力很大。但是,并非所有的分析工作可以很容易地进行并行处理,尤其是需要当用户交互驱动的分析。” 所以要想性能很好,你仍然需要专门为自己要解决的问题而设计和优化相应的 Hadoop 程序,否则会很慢。“因为每个 Map/Reduce 任务都要等到之前的工作完成。”所以就像关键路径一样,Hadoop 执行性能的快慢会取决于其最慢的 MapReduce 任务。

Joe 最后认为:“Hadoop 是一个用来做一些非常复杂的数据分析的杰出工具。但是具有讽刺意味的​​是,它也是需要大量的编程工作才能得到这些问题的答案。” 这一点不止在数据分析应用方面,它其实反映了目前使用开源框架时候不得不面对的选型平衡问题。当你在选型开源框架或代码的时候,既要考虑清楚它能够帮到你多少,节省多少时间和成本,提高多少效率。也要知道由此而产生多少新增的成本,比如工程师的学习成本、开发和维护成本,以及未来的扩展性,包括如果使用的框架升级了,你和你的团队是否要做相应的升级;甚至还要有安全性方面的考虑,毕竟开源框架的漏洞也是众所周知的。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2012-04-30 08:318459
用户头像

发布了 42 篇内容, 共 17.1 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

24H共享便民自助洗车加盟怎么样

共享电单车厂家

共享自助洗车 自助洗车加盟 24小时自助洗车 便民自助洗车

为什么都认为confluence非常好,好在哪里

PingCode

FutureTask

急需上岸的小谢

6月月更

阿里云 MSE 基于 Apache APISIX 的全链路灰度方案实践

API7.ai 技术团队

阿里云 MSE APISIX 网关 全链路灰度

基于 Apache APISIX 的自动化运维平台

API7.ai 技术团队

自动化运维 APISIX 网关 APISIX Summit

如何修改 Rancher v2.6 的 Rancher Server IP 地址

Rancher

Kubernetes k8s rancher

使用 Amazon EC2 降低 DeepRacer 的训练成本 DeepRacer-for-cloud 的实践操作

亚马逊云科技 (Amazon Web Services)

Amazon EC2 EC2

大数据平台迁移实践 | Apache DolphinScheduler 在当贝大数据环境中的应用

Apache DolphinScheduler

Apache 大数据 开源 DolphinScheduler workflow

python简介

左手の明天

Python Python解释器

凿开数据冰层,透出智能时代的光:华为云与开发者的结伴旅行

脑极体

自助洗车机洗车怎么收费和付费

共享电单车厂家

自助洗车加盟 自助洗车收费 自助洗车付费

开启全方位安全巡检

观测云

如何系统地学习 C++ 语言?太全面了!

Jackpop

测试进阶必备,这5款http接口自动化测试工具不要太香~

伤心的辣条

Python 程序人生 软件测试 自动化测试 接口自动化测试

瀑布式项目管理软件测评!

PingCode

Curve 进入 CNCF Sandbox,完善统一云原生开源存储拼图

网易数帆

开源 分布式 云原生 存储 cncf

APISIX 助力中东社交软件,实现本地化部署

API7.ai 技术团队

API网关 社交软件 APISIX Summit

从链上数据出发,分析stETH脱锚之后的市场动态

区块链前沿News

eth Hoo

文档管理系统对于企业有哪些优势

小炮

JDK7 HashMap如何实现?

源字节1号

软件开发 前端开发 后端开发 小程序开发

@开发者 云端一条生产线,让软件开发更敏捷、更安全

华为云开发者联盟

云计算 敏捷 华为云 devcloud

API 网关 Apache APISIX 助力雪球双活架构演进

API7.ai 技术团队

zookeeper 投资 网关 APISIX APISIX Summit

全球Top 2!腾讯计算机视觉能力再突破

脑极体

SRE,了解一下?35+岁程序员新选择

华为云开发者联盟

SRE 华为云

自助洗车市场悄然兴起你准备好了吗

共享电单车厂家

自助洗车 自助洗车加盟

融云 x 川航: 为民航通信安上“即时之翼”

融云 RongCloud

类似Confluence的软件有哪些

PingCode

“互联网+”大学生创新创业大赛来了,欢迎报名龙蜥社区赛题!

OpenAnolis小助手

开源 操作系统 互联网+ 龙蜥社区 大学生创新创业大赛

vue-表单输入绑定

小恺

6月月更

华为云重磅发布:“乐高式”自动驾驶研发开放平台,携手伙伴共建生态

华为云开发者联盟

自动驾驶 云计算 华为云

uni-app深入学习之模板运用【day4】

恒山其若陋兮

6月月更

数据分析不使用Hadoop的五大理由_大数据_晁晓娟_InfoQ精选文章