写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007470
用户头像

发布了 1008 篇内容, 共 421.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

2021年最新Java大厂面试笔试题分享,Java入门教程免费视频

Java 面试 后端

2021年最新Java面试经历,别再说自己不会了

Java 面试 后端

“工业互联 在云之洲”丨“5G+AR”远程协助作业解决方案 赋能装备更智能

云计算,

2021年哔哩哔哩Java高级面试题及答案,大牛手把手教你

Java 面试 后端

如何画UML,几种简单的模型分析

编程 架构 面试 后端

2021年大厂Java高级面试题分享,程序员Java基础入门

Java 面试 后端

2021年抓住金三银四涨薪好时机,借花献佛

Java 面试 后端

2021年阿里Java面试题及答案,Java高级进阶学习资料

Java 面试 后端

2021年阿里Java高级面试题分享,【MySQL

Java 面试 后端

2021年你与字节跳动只差这份笔记,大神码了2000页Spring全家桶笔记

Java 面试 后端

2021年字节跳动、阿里等大厂最全Java面试题,1个月学会Java开发

Java 面试 后端

一个简单的产品分析模型

石云升

产品经理 产品思维 9月日更 产品分析

2021年春招Java面试题,大厂Java核心面试题出炉

Java 面试 后端

GraphQL 快速入门「3」GraphQL 架构

码语者

Rest GraphSL

2021年哔哩哔哩Java高级面试题及答案,Java实战视频下载

Java 面试 后端

2021年冲刺年薪40w,Java从基础到高级知识点汇总

Java 面试 后端

好看视频Android重构——围绕于播放器的重构实践

百度Geek说

性能优化 大前端 好看视频 播放器

说下你可能没用过的EventBus

艾小仙

2021年京东Java岗面试必问,我在华为做Java外包的真实经历

Java 面试 后端

2021年阿里Java面试题及答案,多图详解CLH锁的原理与实现

Java 面试 后端

QOE 驱动下的分布式实时网络构建:Agora SD-RTN 的演进

声网

Java 人工智能 分布式 网络

2021年腾讯Java高级面试题及答案,百度笔试题百度校招面试经验

Java 面试 后端

2021年这些高频面试知识点最后再发一次,面试官突击一问

Java 面试 后端

2021年抓住金三银四涨薪好时机,腾讯Java社招面试流程

Java 面试 后端

2021年最新腾讯Java面经,Java面试高级题目

Java 面试 后端

2021年网易Java岗面试必问,Java开发面试准备

Java 面试 后端

设计 | ClickHouse 分布式表实现数据同步

RadonDB

数据库 Clickhouse

2021年是意义非凡的一年,2021阿里+头条+腾讯等大厂Java笔试题分享

Java 面试 后端

2021年最新Java面试点梳理,阿里P7大牛整理

Java 面试 后端

2021我是如何拿到小米、京东、字节的offer,持久化数据安全RDB、AOF

Java 面试 后端

2021年华为Java面试真题解析,大厂面试必问

Java 面试 后端

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章