使用 Apache Ambari 管理 Hadoop

  • Boris Lublinsky
  • 臧秀涛

2012 年 12 月 21 日

话题:开源DevOps语言 & 开发架构

随着 Hadoop 越来越普及,对合适的管理平台的需求成为当前亟待解决的问题。已经有几个商业性的 Hadoop 管理平台,如Cloudera Enterprise Manager,但Apache Ambari是第一个开源实现。Apache Ambari 是一种基于 Web 的工具,支持 Apache Hadoop 集群的供应、管理和监控。Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop 和 Hcatalog 等。

Shaun Connolly 是 Hortonworks 公司负责公司战略的副总裁,他在一篇新的博客文章“Apache Amabri: Hadoop Operations, Innovtation, and Enterprise Readiness”中强调,在这一年里,Ambari 主要取得了以下成绩:

  • 通过一步一步的安装向导简化了集群供应。
  • 预先配置好关键的运维指标(metrics),可以直接查看 Hadoop Core(HDFS 和 MapReduce)及相关项目(如 HBase、Hive 和 HCatalog)是否健康。
  • 支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。
  • 通过一个完整的 RESTful API 把监控信息暴露出来,集成了现有的运维工具。
  • 用户界面非常直观,用户可以轻松有效地查看信息并控制集群。

Ambari 使用Ganglia收集度量指标,用Nagios支持系统报警,当需要引起管理员的关注时(比如,节点停机或磁盘剩余空间不足等问题),系统将向其发送邮件。

此外,Ambari 能够安装安全的(基于 Kerberos)Hadoop 集群,以此实现了对 Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了 LDAP 和 Active Directory。

Apache Ambari 当前是6 个顶级的开源 Hadoop 管理工具之一。据 Connolly 介绍,因为“稳定性和易管理性是 Hadoop 企业应用的两个关键需求”,因此 Ambari 是 Hadoop 生态系统中的一个重要部分。

查看英文原文Managing Hadoop with Apache Ambari

开源DevOps语言 & 开发架构