【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Hadoop,开发者纠结的十件事

  • 2014-10-27
  • 本文字数:1967 字

    阅读完需:约 6 分钟

开源数据处理平台 Hadoop 在大数据时代的今天有着非常广泛的应用。著名的大象图标遍布各行各业,从医疗记录到银行交易,从车票预定到房屋租赁,乃至很多科学数据处理,都可以见到 Hadoop 的身影。

在 Hadoop 生态繁荣的背后,是开发者们夜以继日的开发与支持。而在用户得益甚至赞赏这些应用的时候,开发者们却不得不面对 Hadoop 平台中一些可用性较差的地方。本文列举了网络上一些关于 Hadoop 的缺点,供大家探讨,部分观点来自 InfoWorld 及开发者博客。

1、 平台尚未成熟

虽然用途广泛,但不得不承认的是,Hadoop 目前仍在开发阶段。很多数据结构都不全,比如 Hadoop 一直不支持原生 datatime 数据类型,最近才在时间序列数据开发者的强烈建议下下引入此数据类型。其次,技术支持并不到位,无论是 Google 还是 Stack Overflow 上寻找的答案,都不足以解决开发者遇到的问题。

2、 数据模式模糊不清

Hadoop 目前对模式(Schema)的描述并不清晰,很多开发者在撰写 Pig 脚本的过程中,会花费超过 50% 的时间在调试对 Schema 的支持上。

3、 Pig 和 Hive 无法互通

Hive 和 Pig 用起来完全是两个东西。熟悉 SQL 的开发者可以在 Hive 中使用类似的脚本,但是在 Pig 中却不得不重新学习其语法。在 Pig 中无法使用 Hive 的 UDFS,也无法使用 HCatalog 访问 Pig 的 Hive 表。反过来,无法在 Hive 中使用 Pig 的 UDFS。这让开发者在两者切换使用的过程中颇为纠结,需要耗费精力重新撰写脚本来完成已有的工作。

4、 HDFS 存储共享函数库

鉴于 Hadoop 的复用机制,一旦开发者将 Pig 脚本保存于 HDFS,那么 Hadoop 将自动认为所有的 JAR 包的存储方式都应如此。通常情况下,这样的做法并无问题,但是有时候,当一个项目需要维护大量共享库的时候,这就变得非常复杂。而且,大部分时间 JAR 包通常都在安装客户端的时候一并安装过,Hadoop 这种存储方式使得 JAR 包多次存储。据悉,脚本存储的问题 Pig 新版本已修正,但是共享函数库存储的问题却仍然存在。

5、 报错信息不完整

这几乎是 Hadoop 系列工具的通病,经常在出了问题的时候,返回一个“运行失败,无更多错误信息”这样的报错提示,使得开发者无法进行更进一步的错误调试。还有,Hadoop 经常会抛出一些无法找到指针的异常(NPE),而这些问题则是由文件解析之类的操作造成,并不能属于 NPE 范畴。另外,由于采用 UDFS,导致很多报错最终以 udf 执行错误的样子呈现给开发者,而它们可能仅仅是语法错误或者类型错误。

6、 不兼容的安全机制

开发者经常会听到这样的说法:“已经有足够多的案例证明,想要保证 Hadoop 的安全性,建议使用 Kerberos,LDAP 直白易用。”但是现状就是,Hadoop 平台并未对此有友好的集成:没有 SAML、没有 OAuth,也没有很好的安全验证机制(开发者只能时不时的无奈面对再一次出现的登录窗口)。更有意思的是,Hadoop 平台中很多组件都自己支持 LDAP,且彼此不考虑兼容性。

7、 难以开发的 LDAP 连接器

对开发者来讲,用 Java 成功完成一个能用的 LDAP 连接器,至少需要修改上百次代码。而反过来看看完成的代码,连接器的功能还不完善。实际上,开发者们能感觉出 Knox 有点像一时冲动的产物。毕竟用 Apache 配置 mod_rewrite 模块就能完成的事情,非要用 Java 再写一遍,的确是让开发者头痛的事情。

8、 难以扩展的 Hive 表管理

如果开发者使用 Hive 进行表管理的话,在 Hive 执行了 drop 表命令后,会自动将表删除。但是如果这个表是外部的话,则不会自动删除。为什么 Hive 不能将这两个表同样对待呢?此外,既然 Hive 现在有向 RDBMS 发展的趋势,为什么不增加 Update 和 Delete?

9、 不兼容的 Namenode

Hadoop 的很多组件,如 Oozie、Knox 等,都不遵循新的 Namenode HA。开发者可以做一个 HA Hadoop,前提是他完全不想使用其他组件。

10、 出错的文档

Hadoop 的文档存在很多问题,开发者经常会发现文档的示例代码中有问题,有一些文档本身都没有遵循 Hadoop 的模式设计。鉴于这些文档在互联网上流传广泛,应该有相当一批人学习并尝试,因此都会遇到并纠结于这些错误。实际上,有些错误是完全可以避免的,只要文档的撰写人在完成文档的同时,自己动手运行一下示例代码。比如 Oozie 文档中充斥着大量过去版本的样例代码,开发者遇到错误的时候,很可能不是自己程序写错了,而是由于 Oozie 版本更替而导致之前教程中的函数不兼容造成,比如协议问题、模式有效性问题等等。有人形容 Oozie,称其类似 Ant 和 Maven,只是没有任何调试手段,而且代码非常善变。

此外,在 Hadoop 平台的适用范围方面,它对实时数据访问支持并不好,也无法高效存储大量小文件,而且目前尚不支持多用户。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-27 08:153600
用户头像

发布了 268 篇内容, 共 118.3 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

经过半年的努力,我终于成为了谷歌开发者专家(GDE)

拭心

android 面试 谷歌 GDE

DHorse v1.2.1 发布,基于k8s的发布平台

tiandizhiguai

DevOps k8s

浅析JVM GC配置指南 | 京东云技术团队

京东科技开发者

JVM 垃圾回收 GC 企业号 7 月 PK 榜

性能测试的理解误区

老张

性能测试 稳定性保障

中航机载新技术预研与应用工程师万胜来《IoTDB 在中航机载智能云制造系统》

Apache IoTDB

时序数据库 IoTDB Apache IoTDB 中国航天

Kubernetes:快速入门指南

NGINX开源社区

nginx Kubernetes 微服务

壹米滴答助力制造业、商贸业及电商企业提升商业流通效率

联营汇聚

手把手教你用 NebulaGraph AI 全家桶跑图算法

NebulaGraph

人工智能 图数据库

实时社群技术专题(二):百万级成员实时社群技术实现(消息系统篇)

JackJiang

网络编程 即时通讯 IM

【推荐】贵阳市等保测评机构看这里!

行云管家

贵阳 等保 等级保护 等保测评

【活动回顾】Data + AI 时代下的云数仓设计 @Qcon

Databend

2023IKCEST “一带一路” 国际大数据竞赛重磅启动!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

和鲸 × 于峻川丨以遥感领域为例,浅谈 AI for Science 带来的数据开放、跨学科协同及产学研一体

ModelWhale

遥感 AI for Science 协同科研 数据开放 产学研一体

使用GPT探索学习新东西的乐趣与惊喜 💡|社区征文

Five

学习 安卓 GPT 年中技术盘点

常规LED广告显示屏的运营成本怎么估算

Dylan

广告 项目 运营 成本 LED显示屏

视频交友源码开发搭建平台用户资料功能:小功能有大用处!

山东布谷科技

软件开发 视频 实时音视频 源码搭建 交友

我们搬家啦!新家园,新征程,新篇章

KaiwuDB

KaiwuDB 剪彩 揭牌

一文看懂基础模型的定义和工作原理

这我可不懂

人工智能 机器学习 基础模型 GPT

QCN9074+QCN9024-wifi card realizes high-speed data transmission and network traffic management.

wifi6-yiyi

wifi6

架构师日记-到底该如何搭建一个新系统 | 京东云技术团队

京东科技开发者

架构 架构设计 工程架构 企业号 7 月 PK 榜

极客欢聚,燃动夏日!开发者嘉年华等你来

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨

苹果APP安装包ipa如何安装在手机上|社区征文

雪奈椰子

年中技术盘点

龙蜥开发者说:参与开源要敢于担任不同角色 | 第 21 期

OpenAnolis小助手

开源 标准化 sig 龙蜥开发者说 T-one

向量数据库的崛起:从矢量搜索到深度学习 (二)

极限实验室

深度学习 数据库 搜索 极限科技

人人都是架构师-清晰架构 | 京东物流技术团队

京东科技开发者

架构 架构设计 企业号 7 月 PK 榜 清晰架构

sharding-jdbc分库连接数优化 | 京东物流技术团队

京东科技开发者

分库分表 Sharding sharding-jdbc 企业号 7 月 PK 榜

思维导图软件哪个好?试用百款导图软件只留下这15个。

彭宏豪95

思维导图 在线协作文档 mac思维导图 效率软件 笔记工具

云管平台和云服务器一样吗?两者有啥区别?

行云管家

云计算 云服务器

【IOS】教你如何在手机端轻松安装ipa文件-(安装器已失效21.10)|社区征文

雪奈椰子

掌握这些写简历投简历的“黑魔法”,告别简历已读不回!

王中阳Go

golang 简历优化 面试技巧 求职面试 后端面试

飞腾开发者平台上线龙蜥专区,为开发者提供硬核技术支持

OpenAnolis小助手

开源 开发者 生态 龙蜥社区 飞腾

Hadoop,开发者纠结的十件事_语言 & 开发_张天雷_InfoQ精选文章