11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

来自 Amazon、Cloudera、Microsoft 与 IBM 的 Hadoop-as-a-Service

  • 2011-11-05
  • 本文字数:1808 字

    阅读完需:约 6 分钟

如今,公司越来越多地依赖大数据进行决策。Amazon、Cloudera 和 IBM 都发布了它们的 Hadoop-as-a-Service 产品,Microsoft 的类似产品也将在明年问世。

Amazon 是最早推出 AWS Elastic MapReduce 的,可以追溯到 2009 年,在 EC2 和 S3 上运行 Apache Hadoop 。同 Amazon 的其他 IaaS 产品一样,这项服务提供了大数据分析所需的最基本的硬件和软件,把很多配置和编程的工作留给了客户,这需要不少专业知识。假定公司有这样的能力,它可以成功配置并运行 Hadoop 任务,就像 New York Times 一样,以相当低廉的价格,在 100 个 Amazon EC2 实例上运行了一个 24 小时的 Hadoop 任务,将内容为 1851 年到 1922 年发表的公开文章的 1100 万张图片转换成了 1.5TB 的 PDF 文档。

Cloudera 将 Amazon 的 MapReduce 服务又超正确的方向上推进了一步,推出了 CDH3 ,这是一个调优过的 Hadoop AMI,包含很多附加软件,可以帮助管理、运行 Hadoop 上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr 等等,其中大多数都是开源项目。但是目前还是有些问题,仍然需要大量的专业知识,安装、配置一些东西, CDH3 安装指南(PDF)还是有不下 175 页的篇幅是在说明如何从基础开始,对 JDK、CDH3、Snappy 以及系统的其他部分进行配置的。

Microsoft 最近在PASS Summit 2011 上宣布他们会在Windows Azure 和SQL Server 中整合Hadoop-as-a-Service 服务,在2012 年提供给那些在其平台上处理大数据的公司。目前还没有太多的细节,只知道Microsoft 承诺会保持与Apache Hadoop 的兼容性,并且将代码贡献给开源项目。他们还提供了一个基于Sqoop 的 SQL Server-Hadoop Connector ,这让 SQL 数据表与 Hadoop 的 HDFS 之间的双向数据传输成为可能,因为 Hadoop 需要将数据保存在自己的文件系统中以保证能够高效地处理大量的数据。

IBM 也发布了自己的产品,使用 IBM InfoSphere BigInsights 软件,在SmartCloud Enterprise 上运行Hadoop BigInsights 有两个版本,基础版是免费的,非常适合项目评估,企业版用于生产环境。IBM 的解决方案是迄今为止看起来最为成熟的,基于 Watson 技术,这是一个 AI 系统,它打败了两名今年的 Jeopardy! 最佳选手(译注:Jeopardy! 是美国的一个电视智力竞猜节目,比赛问题内容涵盖多个方面,1964 年开播至今)。Watson 并非在大集群上运行 Hadoop 来回答问题,而是包含了超过100 项技术来“分析自然语言,识别源数据,发现并生成假设,寻找证据并评分,对假设做合并和分级”。因此,这并不仅仅是一个运行大数据任务的平台,它还提供了发现数据并解释它的能力,这是处理问题的过程中最复杂的部分之一。

与Cloudera 的解决方案类似,IBM 的 BigInsights 包含了 Hadoop 以外的很多开源项目,例如:

  • Pig,针对 Hadoop 的高级编程语言及运行时环境。
  • Jaql,基于 JavaScript Object Notation(JSON)的高级查询语言,它也支持 SQL。
  • Hive,用于支持 Hadoop 文件的批量查询和分析的数据仓库基础设施。
  • HBase,用于在 Hadoop 中支持大型稀疏表的列存储数据环境。
  • Flume,收集数据并将其加载到 Hadoop 中的设施。
  • Lucene,文本检索与索引技术。
  • Avro,数据序列化技术。
  • ZooKeeper,针对分布式应用程序的协调服务。
  • Oozie,工作流 / 任务协作技术。

BigInsights 还包含了 IBM 开发的定制技术:一个文本分析引擎、一个用于商业分析的数据挖掘工具,与企业软件的整合和 Hadoop 增强让管理更加方便,性能更加优越。

BigInsights 并没有替代 OLAP(Online Analytical Processing)或 OLTP(Online Transaction Processing)应用程序,但它可以整合其中,用于“过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在 DBMS 或数据仓库中”。

IBM 的 Hadoop 解决方案已经问世了,客户可以进行测试。

另一个值得一提的解决方案是 EMC Greenplum Analytics Workbench ,一个 1000+ 物理节点的集群在运行 Hadoop 集成测试,是由 EMC 及 Intel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch 和 VMware 这些合作伙伴一同推出的。 Greenplum 并不提供 Hadoop-as-a-Service,而是提供了一个超过 10000 虚拟节点和 24 PB 存储容量的平台,用于对 Hadoop 本身进行测试。

根据 2011 TDWI 的一份调查, 34% 的企业使用大数据分析来帮助制定决策。大数据和 Hadoop 将在未来扮演更重要的角色。

查看英文原文: Hadoop-as-a-Service from Amazon, Cloudera, Microsoft and IBM

2011-11-05 22:493142
用户头像

发布了 135 篇内容, 共 55.5 次阅读, 收获喜欢 43 次。

关注

评论

发布
暂无评论
发现更多内容

天天在都在谈的S3协议到底是什么?一文带你了解S3背后的故事

wljslmz

对象存储 S3 6月月更

自助洗车到底有哪些不一样的地方

车白兔自助洗车机加盟

自助洗车加盟 24小时自助洗车

数字藏品系统开发,NFT艺术品交易平台搭建

薇電13242772558

NFT 数字藏品

Move Protocol Beta测试版进行时,瓜分生态核心权益MOMO

鳄鱼视界

Move Protocol Beta测试版再调整,扩大总奖池

股市老人

Move Protocol Beta测试版稳定,临时决定奖池规模再扩大

西柚子

启动!阿里巴巴编程之夏2022

阿里巴巴云原生

阿里云 云原生 编程之夏

秒云云原生信创全兼容解决方案再升级,助力信创产业加速落地

秒云

运维 云原生 信创 智能运维 信创云

Dubbo3 官方文档贡献者征集令

阿里巴巴云原生

阿里云 开源 云原生 dubbo

Move Protocol Beta测试版稳定,临时决定奖池规模再扩大

小哈区块

Docker入坑篇

青柚1943

Docker DevOps 云原生 容器化

揭秘支撑百度搜索、Feed、小程序三大业务的MVVM框架设计思想,San 核心人员倾力打造

图灵教育

前端开发 好书推荐 框架设计

自助洗车方便主要体现在哪方面

车白兔自助洗车机加盟

自助洗车 自助洗车加盟

自助洗车为什么可以做到24小时营业

车白兔自助洗车机加盟

自助洗车机 自助洗车加盟 24小时自助洗车

如何使用 DATAX 以 UPSERT 语义更新下游 ORACLE 数据库中的数据

明哥的IT随笔

oracle 大数据 数据仓库 DataX

你的城市有24小时共享自助洗车吗

车白兔自助洗车机加盟

自助洗车加盟 自助洗车店

有哪些好用的工作汇报工具

优秀

低代码 工具软件

昇腾科研创新使能计划赋能开发者  华为计算提供三大维度支持

Geek_2d6073

Nebula Graph入驻阿里云计算巢,助力企业打造云上超大规模图数据库

阿里云弹性计算

spark 分布式 云原生 图数据库 计算巢

Move Protocol Beta测试版稳定,临时决定奖池规模再扩大

EOSdreamer111

Gartner 网络研讨会 “九问数字化转型” 会后感

明哥的IT随笔

数字化转型

北京web前端培训 | React全家桶之入门介绍

@零度

React web前端开发

自助洗车一次费用不到10元你敢信

车白兔自助洗车机加盟

自助洗车加盟 自助洗车费用

在线文档协作:办公必备高效率神器

小炮

深入剖析 HIVE 的锁和事务机制

明哥的IT随笔

大数据 hive 数据仓库

数据库主键一定要自增吗?有哪些场景不建议自增?

CRMEB

力扣每日一练之双指针1Day8

京与旧铺

6月月更

为 Serverless Devs 插上 Terraform 的翅膀,实现企业级多环境部署(上)

阿里巴巴云原生

阿里云 Serverless 云原生 开源项目

带你区分几种并行

华为云开发者联盟

后端 开发 华为云

Serverless 时代下微服务应用全托管解决方案

阿里巴巴云原生

阿里云 Serverless 微服务 云原生

来自Amazon、Cloudera、Microsoft与IBM的Hadoop-as-a-Service_IBM_Abel Avram_InfoQ精选文章