Apache Hadoop 2.3.0发布_开源_孙镜涛_InfoQ精选文章

都2023了！我不允许你还不了解AIGC！立即报名了解详情 



 写点什么

登录/注册

分布式计算开源框架 Hadoop 近日发布了今年的第一个版本 Hadoop-2.3.0，新版本不仅增强了核心平台的大量功能，同时还修复了大量 bug。

新版本对 HDFS 做了两个非常重要的增强：

支持异构的存储层次
通过数据节点为存储在 HDFS 中的数据提供了内存缓存功能

借助于 HDFS 对异构存储层次的支持，我们将能够在同一个 Hadoop 集群上使用不同的存储类型。此外我们还可以使用不同的存储媒介——例如商业磁盘、企业级磁盘、SSD 或者内存等——更好地权衡成本和收益。如果你想更详细地了解与该增强相关的信息，那么可以访问这里。

类似地，在新版本中我们还能使用Hadoop 集群中的可用内存集中地缓存并管理数据节点内存中的数据集。MapReduce、Hive、Pig 等类似的应用程序将能够申请内存进行缓存，然后直接从数据节点的地址空间中读取内容，通过完全避免磁盘操作极大地提高扫描效率。Hive 现在正在为ORC 文件实现一个非常有效的零复制读取路径，该功能就使用了这项新技术。

在 YARN 方面，令我们非常兴奋的事情是资源管理器自动故障转移功能已经进入尾声，虽然在 2.3.0 这个版本中该功能还没有被发布，但是极有可能会包含在 Hadoop-2.4 中。此外，2.3.0 版本还对 YARN 做了一些关键的运维方面的增强，例如更好的日志、错误处理和诊断等。

MapReduce 的一个关键增强是 MAPREDUCE-4421 。借助于该功能我们已经不再需要在每一台机器上安装 MapReduce 二进制程序，仅仅需要通过 YARN 分布式缓存将一个 MapReduce 包复制到 HDFS 中就可以了。

当然，新版本还包含大量的 bug 修复以及其他方面的增强。例如：

YarnClientImpl 类中的异步轮询操作引入了超时
修复了 RMFatalEventDispatcher 没有记录事件原因的问题
HA 配置不会影响节点管理器的 RPC 地址
RM Web UI 和 REST API 统一使用 YarnApplicationState
在 RpcResponseHeader 中包含 RPC 错误信息，而不是将其分开发送
向 jetty/httpserver 中添加了请求日志
修复了将 dfs.checksum.type 定义为 NULL 之后写文件和 hflush 会抛出 java.lang.ArrayIndexOutOfBoundsException 的问题

如果想要了解更多的信息，请点击这里。不得不说的是，整个社区在 Hadoop-2.3.0 版本的发布过程中再次发挥了非常重要的作用，他们提交了很多非常重要的内容。

最后，让我们展望一下 2.4 版本中将会包含的一些非常令人兴奋的功能：

HDFS 将会支持 ACL
关键的运营能力，例如 HDFS 支持滚动更新，使用 ProtoBufs 序列化 / 反序列化 FSImage
YARN 资源管理器自动故障转移功能
YARN 通用应用程序时间轴和历史服务，使得在 YARN 中开发和管理新框架及服务变得非常容易

感谢吴甘沙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

评论

发布

暂无评论

05 Prometheus之监控主机和容器

穿过生命散发芬芳

Prometheus 1月月更

LabVIEW图像模式匹配（基础篇—11）

不脱发的程序猿

机器视觉图像处理 LabVIEW 图像模式匹配

一篇从购买服务器到部署博客代码的详细教程

nginx 前端后端博客博客搭建

kubelet 的主动驱逐POD

Kubernetes kubelet

教你实现一个 iOS 重签名工具

37手游iOS技术运营团队

倒计时1天 | 超百位技术大咖齐聚开发者大会，与全球开发者一起“数聚未来”

OceanBase 数据库

OceanBase 开源开发者大会

新思科技：2022年软件安全行业七大趋势预测

InfoQ_434670063458

新思科技 2022 安全趋势

技术说｜拓维·建木边缘计算平台，让算力先行一步

云计算大数据边缘计算

开源demo| anyRTC 互动白板发布，助力实时互动场景

anyRTC开发者

音视频在线教育视频会议智慧协同开源demo

应急响应-Yara规则木马检测

网络安全应急响应

分享一个小故事

故事 1月月更

双碳绿色风中，乘势而起了哪些新能源？

一个cpp协程库的前世今生（十一）等待与返回值

AI开发平台系列1：AI开发平台“家族”概览

人工智能 ide AI 平台

关于ant design pro的权限方案设计

袋鼠云数栈

加密货币、去中心化金融和交易的演变：一种交易成本方法

数字人民币app公开上架应用市场试点区域外用户暂无法使用

云计算厂商们，你们辜负了中国的用户

云原生云计算架构师

服务发现与配置管理高可用最佳实践

阿里巴巴云原生

阿里云微服务高可用云原生 MSE

廖湘科：数据库需要充分利用开源和发展开源，广泛吸纳全产业力量

一周信创舆情观察（2021.12.27~2022.1.3）

共话数据库技术与行业数字化融合创新，探讨开源数据库未来发展

深入理解虚拟化

云计算容器虚拟机调度资源隔离

青藤：省心又省钱！安全运营服务正在成为甲方企业的主流选择

青藤云安全

恒源云(GPUSHARE)_字节跳动的mRASP预训练模型真香

字节跳动机器翻译语音识别

Linux之find命令的参数详解

从GitHub 到极狐GitLab 的迁移指南

GitHub 极狐GitLab 迁移指南

openGauss数据库源码解析系列文章——存储引擎源码解析（一）

龙蜥实验室来了！收下这份指南，秒级体验 Anolis OS

OpenAnolis小助手

国产操作系统龙蜥社区

多IOT设备上跑物联网应用，你也可以

物联网 IoT ios开发 Andriod开发

error: ‘slots_reference’ was not declared in this scope

需要帮助，请添加网站小助手，进入 InfoQ 技术交流群