阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007117
用户头像

发布了 1008 篇内容, 共 374.3 次阅读, 收获喜欢 341 次。

关注

评论

发布
暂无评论
发现更多内容

架构师系列之8:python网站压测工具

桃花原记

架构师训练营第 11 周学习总结

netspecial

极客大学架构师训练营

vue高级进阶系列——用typescript玩转vue和vuex

徐小夕

Java vue.js Vue 大前端

Defi挖矿软件系统开发|Defi挖矿APP开发

系统开发

Spring视图解析流程

无用且垂死的星辰

两年竞业禁止、没有赔偿的CTO | 法庭上的CTO(1)

赵新龙

CTO 竞业禁止 试用期

公安警务大数据可视化平台开发建设

t13823115967

大数据 智慧公安

架构师训练营第二周课后作业

万有引力

区块链如何解决互联网为基础的广告困境?

CECBC

区块链 互联网广告

第二周 框架设计 作业一 「架构师训练营 3 期」

胡云飞

极客大学架构师训练营 框架设计

DeFi交易所系统APP开发|DeFi交易所软件开发

系统开发

第二周 框架设计 学习总结

胡云飞

极客大学架构师训练营 框架设计

Kafka 和 RocketMQ 之性能对比

中间件兴趣圈

kafka 源码分析 RocketMQ 中间件 性能分析

吴桐:2021年中国区块链产业发展的六大趋势

CECBC

区块链 新基建

架构师训练营第二周作业

J

极客大学架构师训练营

区块链中的保险行业

13828808769

区块链技术应用开发 保险理赔

可参考才是有价值的,架构设计的技改之路从来都不容易

互联网应用架构

架构设计

依赖倒置原则以及接口隔离方式实现接口设计

我们新四军不拿群众一针一线

Week 11 work

黄立

保障系统稳定高可用的方案

天天向上

极客大学架构师训练营

Spring 源码学习 06:AnnotatedBeanDefinitionReader

程序员小航

Java spring 源码 源码阅读

深入了解Linux共享内存及函数详解(含编程示例)

ShenDu_Linux

Linux 程序员 内存 进程

第二周作业

Geek_b9053c

依赖倒置原则

第一周作业

极客大学 极客大学架构师训练营

智慧公安大数据分析平台开发解决方案

t13823115967

大数据 智慧公安

Windows下常用软件配置

jiangling500

windows 软件配置

系统安全与高可用

天天向上

几个大厂的研发类面试题你知道多少?(C/C++工程师方向)

linux大本营

c++ Linux 后台开发 架构师

Defi系统APP开发|Defi软件开发

系统开发

架构师训练营第十一周

我是谁

极客大学架构师训练营

搞懂这篇文章,关于IO复用的问题就信手拈来了

程序员小灰

Linux 后台开发 io epoll Linux服务器开发

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章