Hadoop 即服务提供商 Qubole 现在运行在 Google Compute Engine 上

  • Michael Hausenblas
  • 孙镜涛

2013 年 12 月 29 日

话题:DevOps大数据语言 & 开发架构AI

Qubole 是一家托管的 Hadoop 即服务提供商,用户现在能够在 Google Compute Engine(GCE)上使用该服务了。在这之前 Qubole 只能在 Amazon 的 AWS 上使用,在 Google 宣布对公众开放 GCE之后不久 Qubole 就宣布了这一消息。

社区对该消息的反映大部分都是积极的,人们好像认为大数据主题会成为 GCE 潜在的杀手级应用。来自于 DataStax 的 Alex Popescu 这样写道:

如果你仔细看看这些内容,那么你将会注意到这样一个主题:覆盖来自于任意角度的数据;使用 DataStax 的 Cassandra/DSE 处理 OLTP,使用 DataTorrent 进行流处理,Qubole 用于 Hadoop,MapR 用于 Hadoop 这样的解决方案。我能够看见这种情况持续了一段时间,同时正在让 Google Compute Engine 成为 Amazon Web 服务的一个强力竞争者。

Hadoop 即服务(HaaS 也被称为云端 Hadoop)也带来了一些不同的选项:

  • 动摇你自己的部署,也就是在一个像 GCE 或者 EC2 这样的 IaaS 平台上安装 Apache Hadoop 或者一个分布式服务(例如 Cloudera、Hortonworks、MapR)。这样能够对运行的服务进行细粒度的控制,但是也带来了部署和管理上的复杂性。
  • 预打包的服务,例如 Amazon 的EMR或者Savvis 的大数据服务,该服务有助于降低部署复杂性并且为已安装的服务提供中层控制。
  • 托管的 HaaS,例如 Qubole 和Mortar,有希望降低部署和管理的复杂性

与本地部署相比 HaaS 的关键区别在于:弹性、现货定价、计算和存储之间的分离(例如像 Amazon S3 或者Google 云存储这样的最终一致性对象存储)和增强的安全标准。像 Qubole 这样的托管 HaaS 服务往往用于开发场景,用于评估和测试、短暂运行的分析工作以及实现混合云设置。但是它们也有各自的一些限制:

  • 将数据放入云端同时再次将其从云端取出都有它们各自的价格标记。
  • 由于法律规定可能会涉及到隐私和数据保护问题,这可能会阻止或者限制用例。
  • 24/7 操作的 TCO 必须在具体分析的基础上进行计算。
  • Hadoop、Hive 等服务和最终一致性对象存储一般会存在不匹配的情况。

Ashish Thusoo 和 Joydeep Sen Sarma 在 Facebook 工作期间丰富了自己运行 Hadoop 和 Hive 的经验,在那里他们管理着一个数据基础设施团队。然后,在 2012 年 6 月,他们创建了Qubole,并且在 2013 年 4 月获得了700 万美元的 A 轮融资。Joydeep 深入介绍了他们在实现自己的 HaaS 服务时所面对的挑战,同时在他的 Hive London Meetup 谈话“云友好的 Hadoop 和 Hive”中还对内部原理做了讲解。另外,Christian Prokopp (Rangespan 的数据科学家) 最近还写了一个详细的纲要以及 Qubole 与 EMR 之间的对比。

查看英文原文:Hadoop-as-a-Service Provider Qubole Now Runs on Google Compute Engine

DevOps大数据语言 & 开发架构AI