谷歌推出 Dataproc,让 Spark、Hadoop 更便宜更快更简单

  • 谢丽

2015 年 10 月 7 日

话题:语言 & 开发架构Spark

近日,谷歌发布了 Google Cloud Dataproc 服务 Beta 测试版。Cloud Dataproc 是一个托管的 Spark 与 Hadoop 服务,可以帮助用户快速创建集群、简化集群管理及降低使用成本。借助该服务,用户无需考虑部署、扩展、监控等管理工作,可以将全部精力都集中到数据处理上。

与传统的本地产品或其它存在竞争关系的云服务相比,Cloud Dataproc 有如下优势:

  • 成本低:Cloud Dataproc 的定价为每颗虚拟 CPU 每小时 1 美分。它还可以包含可抢占实例,使使用成本进一步降低。另外,Cloud Dataproc 按分钟计费,最小计费周期为 10 分钟。
  • 速度快:在本地或 IaaS 提供商那里创建 Spark 与 Hadoop 集群需要 5 到 30 分钟不等。相比之下,Cloud Dataproc 启动、扩展和关闭都非常快,每个操作平均大约只需要 90 秒。
  • 一体化:Cloud Dataproc 内置集成了其它谷歌云平台服务,如BigQueryCloud StorageCloud BigtableCloud LoggingCloud Monitoring。这相当于提供了一个完整的数据平台。
  • 托管:Cloud Dataproc 使用户可以在没有系统管理员或专门软件的协助下就可以使用 Spark 与 Hadoop 集群。用户可以通过谷歌开发者控制台、Google Cloud SDK或 Cloud Dataproc REST API 管理集群和 Spark 或 Hadoop 任务。
  • 简单熟悉:用户不用为了使用 Cloud Dataproc 学习新的工具或 API。现有的项目无需重新开发就可以迁移到 Cloud Dataproc 上。Spark、Hadoop、Pig及 Hive 都会经常更新。目前,Spark 的版本为 1.5,而 Hadoop 的版本为 2.7.1。

总之,正如 Cloud Dataproc 项目经理 James Malone 所言:

Cloud Dataproc 让你可以随时访问简单、快速但功能强大的、托管的 Spark 与 Hadoop 集群。

感兴趣的读者可以查看 Cloud Dataproc官方网站,按照入门指南试用,或者在Stack Overflow上提问及反馈。


感谢郭蕾对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

语言 & 开发架构Spark