Cloudera Distribution Containing Apache Hadoop 5 概述

  • Alex Giamas
  • 马德奎

2014 年 4 月 23 日

话题:IBM大数据语言 & 开发架构AI

近日,Cloudera 发布了最新的软件发行版CDH5。此次发布距离上一个主要版本发布将近 20 个月了,CDH4似乎已经在 Big Data 世界里存在了好多年。

在从包括英特尔和谷歌风投在内的投资公司那里获得了 9 亿美元的资金后,Cloudera 正全速发展,将 Hadoop 从一个面向数据科学家的利基工具转成一个存储和处理所有数据的集中地。按 Tim Stevens 的说法Cloudera Enterprise 5“是一个真正的企业级数据中心”。

Cloudera Enterprise 5 包含 CDH5、Cloudera Manager 5 和Cloudera Navigator,其中 Cloudera Navigator 是一款面向 Big Data 数据管理方面的工具。

CDH5 的主要特点是使用 YARN 提供了可用于生产环境的 MR2。Cloudera Manager 也支持 MR2,而且 CDH5 还向后兼容 MR1。不过,Cloudera建议将 YARN 和 CDH5 一起使用。使用 YARN,用户可以并行运行 SQL、MapReduce 和 Spark 工作负载,而且可以获得更好的整体资源利用率。

现在,Apache Spark包含在 CDH5 中。Cloudera 宣称,使用 Spark,作业的部分或全部阶段都是在内存中运行,作业执行速度快 5 到 100 倍。最近,Spark 从 Apache 孵化器毕业,在整个 2013 年发展势头强劲,有超过 100 名贡献者为项目提供帮助。将 Spark 集成进 CDH5 可以扩展 Hadoop 的用途,使其不局限于批处理,还可用于实时分析。除 Cloudera 之外,MapR 最近也宣布在面向 Apache Hadoop 的 MapR 发行版中支持整个Spark 技术栈

有了 CDH5,SQL 查询现在通过 Cloudera Impala 以及 Hive 包含在 CDH 中。SQL 支持的特性差异可能正是这两种解决方案的独特之处。

Cloudera 搜索集成进 CDH5,这也意味着任何文件或对象都可以近乎实时地索引和搜索。该功能基于Apache Solr,尽管其目的不是成为一个通用的搜索解决方案,但它提供了面向 CDH 中所有数据的全文搜索功能。

Cloudera Enterprise 5 可以集成超过 100 款合作伙伴产品,这有助于将 CDH 数据集与流行的预测分析工具集成。数据科学家可以使用他们最喜欢的工具,如 SAS 或 Revolution Analytics,而且工程开销更小。

此外,它还包含完备的灾难恢复、自动备份与还原工具以及更好的访问控制。Cloudera 将 IBM 和 Pivotal 看作其主要竞争对手,而不是 Hortonworks 和 MapR,企业数据中心是其努力的中心。

查看英文原文:A Roundup of Cloudera Distribution Containing Apache Hadoop 5

IBM大数据语言 & 开发架构AI