Amazon 在 Hadoop 2010 峰会上带来 Elastic MapReduce 更新

阅读数:1548 2010 年 7 月 14 日

话题:架构AWS云计算DevOps

Amazon Elastic MapReduce(EMR) 的总经理 Peter Sirota 在 2010 年的Hadoop 峰会 上作了主题演讲,介绍了一个由 Amazon 托管的Hadoop服务,并且还包括了基于 web 管理工具。Sirota 指出了如下一些来自客户的常见的用例:

  • 数据挖掘与商业智能,包括日志处理,点击流分析,相似性分析,精准广告投放 (他认为这一用例比重非常大)。
  • 数据仓库,特别是使用 Pig 和 Hive。
  • 生物信息技术 (基因分析)。
  • 金融模拟 (例如,蒙特卡洛模拟)。
  • 文件处理 (例如,jpeg 大小改修)。
  • web 索引。

Sirota 谈到,用户可以在 Amazon 的 S3 存储系统中存储以百计的 PB 级的数据。他宣称 Amazon 已经提供支持基于 Hadoop 0.20 的新的软件栈,同时基于 Hadoop 0.18 的设施“也不会这么快退休”。Amazon 的 EMR 软件与管理控制台相集成,并且能原生支持 Amazon 的S3 云存储设施。

新软件栈

旧软件栈
Hadoop 0.20 Hadoop 0.18
Pig 0.6 Pig 0.3
Hive 0.5 Hive 0.4
Cascading 1.1 Cascading 1.1

Sirota 注意到,客户要求更高的集群灵活性,更好的应用开发工具,更好的分析能力和更多的支持选择。接下来他公告了新功能和在各个领域的合作。 Sirota 表示,他们支持用户在运行的集群中增加和移除节点,这能够调整运行时的任务——将计算能力加倍能够将原来需要 6 小时完成的任务减小到 3 小时完成。他同时指出能够支持用户方便的更改集群的大小,可以使用较小的节点集合来使用 Hive 处理查询,用较大的节点集合来进行更新 Hadoop 系统的批处理过程,与此同时保证 EMR 集群正常的运行。

Sirota 还预告了即将推出的 elastic mapreduce 的即期价格 (spot pricing),这是超出 EC2 计量而使用 EMR 的 Amazon市场价格的延伸。它允许竞拍一定量的附加节点。如果在该出价下还有可获得的容量,那么节点就会被加入到 EMR 集群,尽管在市场价超过该竞拍价时这些节点会被移去。他给出了一个使用四个随需节点,并加入第五个附加节点的任务作为例子。这一选项可以为计算环境节省成本,而对于计算完成的速度又提供了很大的灵活性。

Sirota 同时还宣布了 EMR 新的银牌和金牌支持服务级别,金牌支持包括 7x24 以及紧急情况下 1 小时的响应时间。Sirota 接着介绍了 Amazon 的合作伙伴,与Karmasphere在开发工具和监控方展开合作,Datameer提供商业用户分析的合作,Microstrategy提供总体的 Hadoop 支持服务,包括 EMR 支持,以及通过 Hive 与他们的商业智能工具集成。

Amazon 在 Hadoop 峰会上召开了一个 Elastic MapReduce 的客户座谈会,专门介绍了来自 Razorfish,Netflix ,Spiral Genetic 以及 Coldlight Solutions 的案例, James Hamilton 的博文对此作了总结。

Amazon 表明了其对于提升 Elastic MapReduce 有着显著的持续投入,并对于使用托管服务搭建的大规模应用给出了一些有趣的见解。

查看英文原文:Amazon Elastic MapReduce Updates from Hadoop Summit 2010