来自 Amazon、Cloudera、Microsoft 与 IBM 的 Hadoop-as-a-Service

  • Abel Avram
  • 丁雪丰

2011 年 11 月 5 日

话题:IBM微软AWS云计算DevOps大数据架构AI

如今,公司越来越多地依赖大数据进行决策。Amazon、Cloudera 和 IBM 都发布了它们的 Hadoop-as-a-Service 产品,Microsoft 的类似产品也将在明年问世。

Amazon 是最早推出AWS Elastic MapReduce的,可以追溯到 2009 年,在 EC2 和 S3 上运行Apache Hadoop。同 Amazon 的其他 IaaS 产品一样,这项服务提供了大数据分析所需的最基本的硬件和软件,把很多配置和编程的工作留给了客户,这需要不少专业知识。假定公司有这样的能力,它可以成功配置并运行 Hadoop 任务,就像 New York Times 一样,以相当低廉的价格,在 100 个 Amazon EC2 实例上运行了一个 24 小时的 Hadoop 任务,将内容为 1851 年到 1922 年发表的公开文章的 1100 万张图片转换成了 1.5TB 的 PDF 文档。

Cloudera 将 Amazon 的 MapReduce 服务又超正确的方向上推进了一步,推出了CDH3,这是一个调优过的 Hadoop AMI,包含很多附加软件,可以帮助管理、运行 Hadoop 上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr 等等,其中大多数都是开源项目。但是目前还是有些问题,仍然需要大量的专业知识,安装、配置一些东西,CDH3 安装指南(PDF)还是有不下 175 页的篇幅是在说明如何从基础开始,对 JDK、CDH3、Snappy 以及系统的其他部分进行配置的。

Microsoft 最近在 PASS Summit 2011 上宣布他们会在 Windows Azure 和 SQL Server 中整合 Hadoop-as-a-Service 服务,在 2012 年提供给那些在其平台上处理大数据的公司。目前还没有太多的细节,只知道 Microsoft 承诺会保持与 Apache Hadoop 的兼容性,并且将代码贡献给开源项目。他们还提供了一个基于 Sqoop 的SQL Server-Hadoop Connector,这让 SQL 数据表与 Hadoop 的 HDFS 之间的双向数据传输成为可能,因为 Hadoop 需要将数据保存在自己的文件系统中以保证能够高效地处理大量的数据。

IBM 也发布了自己的产品,使用 IBM InfoSphere BigInsights 软件,在 SmartCloud Enterprise 上运行 HadoopBigInsights有两个版本,基础版是免费的,非常适合项目评估,企业版用于生产环境。IBM 的解决方案是迄今为止看起来最为成熟的,基于Watson技术,这是一个 AI 系统,它打败了两名今年的 Jeopardy! 最佳选手(译注:Jeopardy! 是美国的一个电视智力竞猜节目,比赛问题内容涵盖多个方面,1964 年开播至今)。Watson 并非在大集群上运行 Hadoop 来回答问题,而是包含了超过 100 项技术来“分析自然语言,识别源数据,发现并生成假设,寻找证据并评分,对假设做合并和分级”。因此,这并不仅仅是一个运行大数据任务的平台,它还提供了发现数据并解释它的能力,这是处理问题的过程中最复杂的部分之一。

与 Cloudera 的解决方案类似,IBM 的BigInsights包含了 Hadoop 以外的很多开源项目,例如:

  • Pig,针对 Hadoop 的高级编程语言及运行时环境。
  • Jaql,基于 JavaScript Object Notation(JSON)的高级查询语言,它也支持 SQL。
  • Hive,用于支持 Hadoop 文件的批量查询和分析的数据仓库基础设施。
  • HBase,用于在 Hadoop 中支持大型稀疏表的列存储数据环境。
  • Flume,收集数据并将其加载到 Hadoop 中的设施。
  • Lucene,文本检索与索引技术。
  • Avro,数据序列化技术。
  • ZooKeeper,针对分布式应用程序的协调服务。
  • Oozie,工作流 / 任务协作技术。

BigInsights 还包含了 IBM 开发的定制技术:一个文本分析引擎、一个用于商业分析的数据挖掘工具,与企业软件的整合和 Hadoop 增强让管理更加方便,性能更加优越。

BigInsights 并没有替代 OLAP(Online Analytical Processing)或 OLTP(Online Transaction Processing)应用程序,但它可以整合其中,用于“过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在 DBMS 或数据仓库中”。

IBM 的 Hadoop 解决方案已经问世了,客户可以进行测试。

另一个值得一提的解决方案是EMC Greenplum Analytics Workbench,一个 1000+ 物理节点的集群在运行 Hadoop 集成测试,是由 EMC 及 Intel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch 和 VMware 这些合作伙伴一同推出的。Greenplum并不提供 Hadoop-as-a-Service,而是提供了一个超过 10000 虚拟节点和 24 PB 存储容量的平台,用于对 Hadoop 本身进行测试。

根据 2011 TDWI 的一份调查,34% 的企业使用大数据分析来帮助制定决策。大数据和 Hadoop 将在未来扮演更重要的角色。

查看英文原文:Hadoop-as-a-Service from Amazon, Cloudera, Microsoft and IBM

IBM微软AWS云计算DevOps大数据架构AI