50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

一个 Hadoop 老兵的自白

  • 2015-11-26
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的 Hadoop 版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。 Jim Scott MapR 企业战略 & 架构部门的负责人。2009 年,他接触了自己的第一个 Hadoop 版本 Cloudera 。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案

Append-only 文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如, HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable ,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX NFS 。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。 MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份 & 恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护 & 升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-11-26 18:007627
用户头像

发布了 1008 篇内容, 共 438.9 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

DAPP开发:探索NFT DAPP的世界创建和启动指南

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

MySQL索引结构演变历史

javaNice

MySQL

Linux 安装jdk

javaNice

Linux jdk

软件测试/人工智能丨人工智能取代软件测试团队

测试人

人工智能 软件测试

百度搜索万亿规模特征计算系统实践

百度Geek说

Python 数据库 百度搜索 企业号11月PK榜

透明LED电子大屏幕在商显市场中的应用与创新

Dylan

节能 LED 图像清晰度处理

制造业工厂万界星空科技云MES系统中的设备管理模块

万界星空科技

生产管理系统 mes 设备资产管理系统 制造业数字化

一种全新的日志异常检测评估框架:LightAD

华为云开发者联盟

人工智能 机器学习 深度学习 华为云 华为云开发者联盟

选择Amazon EC2,走进云端新时代

YoLo

服务器

学生开发者勇担青年使命,用AI守护少数人的“视界”

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 先锋开发者云上说 华为开发者大赛

OpenHarmony知识共享与论坛共建:更深层次的社区共建与繁荣

新消费日报

阿里云 E-MapReduce 全面开启 Serverless 时代

阿里云大数据AI技术

为什么云游戏被认为是行业的未来趋势?

Finovy Cloud

5G 游戏 vr 云计算, 云游戏

这么有趣的ts类型,不看真的会后悔!

秃头小帅oi

众包平台,解锁自由职业者的灵活空间

知者如C

Atlassian午餐会直播回顾:如何拓展Jira工作流,加强团队协作?

龙智—DevSecOps解决方案

Jira

数仓实时算子难以观测,快来试试算子级监控吧

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

InnoDB和MyISAM存储引擎对比

javaNice

MySQL

NLP领域预训练模型的发展方向

百度开发者中心

人工智能 nlp 大模型

从互联网到云计算再到 AI 原生,百度智能云数据库的演进

Baidu AICLOUD

redis 分布式数据库 云原生数据库

用二维码进行人员管理,人员信息一目了然

草料二维码

二维码 草料二维码

DAPP代币燃烧质押挖矿系统开发

l8l259l3365

Atlassian发布最新补贴政策,Jira/Confluence迁移上云最低可至零成本

龙智—DevSecOps解决方案

Jira Confluence Jira Service Management

大模型训练全新升级,训练步骤大幅缩短

百度开发者中心

人工智能 深度学习 大模型

8个比较流行的无/低代码后端数据平台

小狗围观科幻

面试官:如何实现微服务全链路灰度发布?

树上有只程序猿

微服务 灰度发布

使用Unity的游戏开发团队如何选择版本控制工具?20家头部3A游戏开发工作室中有19家选择Perforce Helix Core

龙智—DevSecOps解决方案

版本控制 Helix Core

大模型训练的GPU加速混合精度训练方案

百度开发者中心

gpu 大模型

一个Hadoop老兵的自白_语言 & 开发_谢丽_InfoQ精选文章