写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007709
用户头像

发布了 1008 篇内容, 共 447.7 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

Vibe Coding 从入门到实践

火山引擎开发者社区

AI 火山引擎

嘉为蓝鲸CMeas研发效能洞察平台:研发效能周报按周期自动推送领导邮箱,数据统计零疏漏

嘉为蓝鲸

DevOps 研发效能 研发效能度量 研发效能洞察平台

哈尔滨二级等保实施重点:安全建设与管理的关键环节

等保测评

CAD中如何快速查找批注?3秒定位,告别手动查找!

在路上

cad cad看图 CAD看图王

五问五答,详解算子级血缘助企业数据管理主动防控与高效协同

Aloudata

数据血缘 数据变更 主动元数据 算子级血缘

嘉为蓝鲸CCI持续集成平台Stage准入:让CI/CD从“自动跑”到“可控跑”,部署更放心

嘉为蓝鲸

DevOps 研发效能 持续集成 CI/CD 持续集成平台

黑龙江等保测评公司选择关键维度:服务能力与适配性

等保测评

破界新生!MyEMS 开源能源管理系统重构智慧能源新范式

开源能源管理系统

开源 开源能源管理系统

区块链Web3项目费用评估方法

北京木奇移动技术有限公司

区块链开发 软件外包公司 RWA开发

抽象层破绽:Behringer Wing混音器与DigiMixer的技术适配挑战

qife122

系统集成 软件抽象

Go面试题从浅入深高频必刷「2025版」

王中阳Go

Go

YashanDB数据库的数据完整性保障机制

数据库砖家

YashanDB数据库的索引与搜索性能优化

数据库砖家

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

Apache Flink

大数据 flink

MyEMS:让能源管理从 “专业门槛” 走向 “全员参与”

开源能源管理系统

开源 开源能源管理系统

MyEMS 开源能源管理系统:技术架构驱动的能源管理革新

开源能源管理系统

开源 能源管理系统

哈尔滨工业大学鲲鹏昇腾科教创新孵化中心成立

极客天地

一文看懂:企业该如何正确实施ERP?ERP系统实施必要性讲解

优秀

ERP

Agent 架构综述:从 Prompt 到 Context

火山引擎开发者社区

Prompt 大型语言模型LLM

哪个CAD软件既可以CAD看图又可以绘图?

在路上

cad CAD看图软件 CAD看图王

区块链RWA系统开发周期

北京木奇移动技术有限公司

区块链开发 软件外包公司 RWA开发

数字化工厂及五大核心系统(ERP、PLM、MES、WMS、QMS)

万界星空科技

数字化 ERP mes QMS 制造业工厂

智能体防御 | 一文了解 3 种系统提示词加固方法

火山引擎开发者社区

智能体 系统提示词

打造可分析的监控报表体系,让洞察更精准高效

嘉为蓝鲸

智能监控 IT运维 数据监控 IT监控 IT运维监控

2025年,如何成为不被AI淘汰的技术人?

咕泡科技

人工智能 大模型 咕泡ai 咕泡科技 咕泡大模型

快节奏业务增长驱动下的App跨平台高效开发

xuyinyin

CST基础教程:如何从SYZ参数提取电容C和电感L --- 双端口

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

事件管理升级指南:ITSM系统靠自动化与协同让IT运维效率“撑杆跳”

嘉为蓝鲸

ITSM IT服务管理中心 IT服务管理 IT流程管理 ITIL事件管理

DeepSeek-V3.1 上线火山方舟

火山引擎开发者社区

字节跳动 火山引擎 DeepSeek 火山方舟

哈尔滨二级等保办理全流程:从准备到完成的清晰指引

等保测评

从零开始学MCP(7) | 实战:用 MCP 构建论文分析智能体

测吧(北京)科技有限公司

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章