写点什么

Apache Hadoop 2.3.0 发布

  • 2014-02-27
  • 本文字数:1144 字

    阅读完需:约 4 分钟

分布式计算开源框架 Hadoop 近日发布了今年的第一个版本 Hadoop-2.3.0,新版本不仅增强了核心平台的大量功能,同时还修复了大量 bug。

新版本对 HDFS 做了两个非常重要的增强:

借助于 HDFS 对异构存储层次的支持,我们将能够在同一个 Hadoop 集群上使用不同的存储类型。此外我们还可以使用不同的存储媒介——例如商业磁盘、企业级磁盘、SSD 或者内存等——更好地权衡成本和收益。如果你想更详细地了解与该增强相关的信息,那么可以访问这里

类似地,在新版本中我们还能使用Hadoop 集群中的可用内存集中地缓存并管理数据节点内存中的数据集。MapReduce、Hive、Pig 等类似的应用程序将能够申请内存进行缓存,然后直接从数据节点的地址空间中读取内容,通过完全避免磁盘操作极大地提高扫描效率。Hive 现在正在为ORC 文件实现一个非常有效的零复制读取路径,该功能就使用了这项新技术。

YARN 方面,令我们非常兴奋的事情是资源管理器自动故障转移功能已经进入尾声,虽然在 2.3.0 这个版本中该功能还没有被发布,但是极有可能会包含在 Hadoop-2.4 中。此外,2.3.0 版本还对 YARN 做了一些关键的运维方面的增强,例如更好的日志、错误处理和诊断等。

MapReduce 的一个关键增强是 MAPREDUCE-4421 。借助于该功能我们已经不再需要在每一台机器上安装 MapReduce 二进制程序,仅仅需要通过 YARN 分布式缓存将一个 MapReduce 包复制到 HDFS 中就可以了。

当然,新版本还包含大量的 bug 修复以及其他方面的增强。例如:

  • YarnClientImpl 类中的异步轮询操作引入了超时
  • 修复了 RMFatalEventDispatcher 没有记录事件原因的问题
  • HA 配置不会影响节点管理器的 RPC 地址
  • RM Web UI 和 REST API 统一使用 YarnApplicationState
  • 在 RpcResponseHeader 中包含 RPC 错误信息,而不是将其分开发送
  • 向 jetty/httpserver 中添加了请求日志
  • 修复了将 dfs.checksum.type 定义为 NULL 之后写文件和 hflush 会抛出 java.lang.ArrayIndexOutOfBoundsException 的问题

如果想要了解更多的信息,请点击这里。不得不说的是,整个社区在 Hadoop-2.3.0 版本的发布过程中再次发挥了非常重要的作用,他们提交了很多非常重要的内容。

最后,让我们展望一下 2.4 版本中将会包含的一些非常令人兴奋的功能:

  • HDFS 将会支持 ACL
  • 关键的运营能力,例如 HDFS 支持滚动更新,使用 ProtoBufs 序列化 / 反序列化 FSImage
  • YARN 资源管理器自动故障转移功能
  • YARN 通用应用程序时间轴和历史服务,使得在 YARN 中开发和管理新框架及服务变得非常容易

感谢吴甘沙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-27 07:553174
用户头像

发布了 321 篇内容, 共 111.1 次阅读, 收获喜欢 17 次。

关注

评论

发布
暂无评论
发现更多内容

重点人员动态管控系统开发,智慧公安情报研判系统搭建

电微13828808271

Apache Pulsar 荣获中国开源云联盟「2021 优秀开源项目」

Apache Pulsar

大数据 云原生 开源项目 Apache Pulsar 消息系统 Apache Pulsar 社区

用明道云集成多平台多部门数据,发挥数据分析的力量

明道云

Moment.js 转换 UTC 格式的 2 个小问题

HoneyMoose

云小课 | DSC:快速识别敏感数据并脱敏

华为云开发者联盟

华为云 识别 数据脱敏 数据安全中心 敏感数据

一文帮你掌握TDengine的降采样查询+跨时区统计

TDengine

数据库 tdengine 后端

云管理软件哪家好?有哪些功能?咨询电话多少?

行云管家

云计算 云服务 云平台 云资源 云管理

作业三总结

Geek_1d37ea

架构训练营

8大原则带你秒懂Happens-Before原则

华为云开发者联盟

线程 并发 Happens-Bfore Java内存

TDSQL | 多类型数据库统一管理,腾讯云数据库DBhouse工具重磅发布

腾讯云数据库

数据库 tdsql

校招 C++ 大概学习到什么程度?

博文视点Broadview

ABAP Netweaver和git的快捷方式

Jerry Wang

SAP Netweaver CloudFoundry 11月日更

10行代码,撸一个在线个人简历页面!

老表

Python GitHub Linux web开发 跟老表学云服务器

金融级数据库新坐标:腾讯云TDSQL发布全自研新敏态引擎

腾讯云数据库

数据库 tdsql

TypeScript 针对 JavaScript 做了什么

HoneyMoose

架构实战营模块八作业

Geek_d18264

架构实战营

企业采购管理的这些痛点,如何解决?

低代码小观

企业管理 管理系统 管理工具 采购管理 企业采购管理

【Promise 源码学习】第八篇 - 完善 Promise 并通过 promise-aplus-tests 测试

Brave

源码 Promise 11月日更

智联招聘的Web模块扩展落地方案

智联大前端

组件化 SSR

TDSQL首次登上腾讯财报!金融机构核心系统落地实现规模化复制

腾讯云数据库

数据库 tdsql

新机遇,拨开证劵企业生态转型迷雾

大咖说

云计算 阿里云 数字化转型 数字化 企业上云

在SAP云平台的CloudFoundry环境下消费ABAP On-Premise OData服务

Jerry Wang

SAP abap CloudFoundry 11月日更

JDK的第三个LTS版本JDK17来了

程序那些事

程序那些事 11月日更 jdk17 java17

模块三作业

Geek_1d37ea

架构训练营

一定要过等保吗?过了等保是不是非常安全?

行云管家

网络安全 等保 堡垒机 等级保护

新时代下如何构建TDSQL-C数据库产品

腾讯云数据库

数据库 tdsql

用一个极致简单的场景演练领域建模

神帅

DDD 领域建模

国家质量基础设施(NQI)一站式综合服务平台开发搭建

电微13828808271

OPPO 图数据库平台建设及业务落地

NebulaGraph

图数据库 知识图谱 图数据库实战 分布式图数据库

100G云服务器诞生记

科技热闻

Apache Hadoop 2.3.0发布_Apache_孙镜涛_InfoQ精选文章