写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007249
用户头像

发布了 1008 篇内容, 共 396.0 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

TCL 实业 x TiDB丨从分销转向零售,如何考虑中台建设和数据库选型?

TiDB 社区干货传送门

从供应商深度绑定,到走向真正的云原生,他们是这样做的

阿里云云效

阿里云 云原生 云效

脱敏效率提升70%!城商行:嘉为蓝鲸日志中心助力保障数据安全与合规

嘉为蓝鲸

运维 日志 日志管理 银行业

简化工作流程:选择最佳项目管理系统的5大要点

爱吃小舅的鱼

新增姿态估计标注,以及模型应用优化|ModelWhale 版本更新

ModelWhale

鉴权 模型应用 模型服务

谈一谈数据虚拟化的技术核心和应用架构

Aloudata

RP Data Fabric 逻辑数据编织

如何挑选最适合你的免费文档管理系统?

爱吃小舅的鱼

文档管理 免费

房地产行业具体怎么定义呢?需要堡垒机吗?

行云管家

网络安全 数据安全 堡垒机 房地产

“AI+Security”系列第2期(三):面向LLM(大语言模型)的漏洞挖掘与对齐防御研究

云起无垠

体育赛况资讯直播app开发搭建部署

V\TG【ch3nguang】

体育赛况资讯直播app开发

智谱AI与和鲸科技签署战略合作协议,共拓大模型产业应用与人才培养新未来

ModelWhale

人工智能 大模型 ChatGLM

从 MySQL 迁移到 TiDB:使用 SQL-Replay 工具进行真实线上流量回放测试 SOP

TiDB 社区干货传送门

华为云低代码AstroZero技巧教学1:表格的超链接赋能

华为云PaaS服务小智

低代码 华为云

Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程

汀丶人工智能

人工智能 大模型 xinference

企业该怎么适应数字化转型?

优秀

数字化转型

photoshop 运行弹窗This non-genuine Adobe app has been disabled 详细的解决方法

Rose

Apache RocketMQ 中文社区全新升级!

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

Detailed comparison of MT7915 and MT7916 chips: Technical parameters and application scenario analysis

wifi6-yiyi

wifi

全球化浪潮下的数据库革新:嘉里物流 TiDB 实践价值的设想

TiDB 社区干货传送门

2024福州等保测评机构名单大汇总

行云管家

等保 等保测评 福州

sync-diff-inspector比对表结构,索引

TiDB 社区干货传送门

万亿城商行如何借助 TiDB 构建面向未来的金融核心系统

TiDB 社区干货传送门

实践案例

从供应商深度绑定,到走向真正的云原生,他们是这样做的

阿里巴巴云原生

阿里云 云原生 云效

AI驱动的商品企划软件 零售企业市场致胜的智能化利器

第七在线

数业智能心大陆 AI解答如何应对焦虑

心大陆多智能体

智能体 焦虑 AI大模型 心理健康 数字心理

HTAP 数据库在国有大行反洗钱场景的应用

TiDB 社区干货传送门

更强模型、更低价格、更易落地,豆包大模型日均tokens使用量超5,000 亿,落地实践再进阶

新消费日报

Final Cut Pro教程:fcpx跟踪功能如何添加马赛克?

Rose

亚信安慧AntDB-M聚合下推—加速你的数据分析查询

亚信AntDB数据库

AntDB

TiKV存储节点计划内外停机,如何去处理?

TiDB 社区干货传送门

故障排查/诊断 TiKV 底层架构 7.x 实践

【技术分享】用AWS EC2搭建WordPress

伊克罗德信息科技

亚马逊云科技 EC2 MYSCALE

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章