写点什么

Google 抛弃 MapReduce 使用 Cloud Dataflow

  • 2014-06-27
  • 本文字数:1134 字

    阅读完需:约 4 分钟

2004 年 Google 发表了一篇非常具有影响力的论文向全世界介绍了 MapReduce 框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce 已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是 Apache Hadoop 的基础,被很多知名厂商所使用为其客户提供优质的数据服务。但是从最近在 San Francisco 召开的 Google I/O 大会上获悉 Google 已经抛弃了 MapReduce 框架转而使用一个新的云分析系统,它的名字叫做 Cloud Dataflow。来自于 Data Center Knowledge 的 Yevgeniy Sverdlik 就发表了一篇文章对此做了介绍,下面是编者按照其文章组织的一些内容。

Google 之所以抛弃 MapReduce 的原因很可能是它已经难以处理 Google 目前所要分析的数据量了。Mountain View 公司负责技术基础设施的高级副总裁 Urs Hölzle 说:一旦数据量达到了 PB 级 MapReduce 就会变得难以处理。在 San Francisco 召开的 Google I/O 大会上 Hölzle 做了一个主题演讲,他提到他们从几年之前就已经不再使用 MapReduce 了。

对于 Cloud Dataflow Google 将会把它作为云平台上的一个服务提供给开发者,这些服务并没有 MapReduce 那样的扩展限制。Hölzle 说“Cloud Dataflow 是十多年分析经验的结晶,它将比市面上任何其他的系统运行的更快,扩展性也更好”。

“Cloud Dataflow 是一个完全托管的服务,它能够自动优化、部署、管理和扩展。它能够让开发者很容易地使用统一的编程为批处理和流服务创建复杂的管道”Hölzle 表示。

谷歌想到的这些所有的特性处理都无法在 MapReduce 上完成:它很难迅速地获取数据,它需要很多不同的技术,批处理和流无关,同时还需要部署并运维 MapReduce 集群。

Hölzle 还在他的主题演讲上展示了谷歌云平台上的一些其他的新服务:

  • Cloud Save是一个 API,它使应用程序能够将单个用户的数据保存在云端或其他地方,同时使用它不需要任何服务器端的编码。 Google PaaS(提供 App Engine)用户和 IaaS(提供 Compute Engine)用户都可以利用这个特性构建 App。
  • Cloud Debugging 让开发者能够更容易地筛选出部署在云端多台服务器上的软件代码中的 bug。
  • Cloud Tracing 提供了不同组之间的延迟统计(例如数据库服务调用的延迟)和分析报告。
  • Cloud Monitoring 是一款智能监控系统,它是与 Stackdriver(谷歌 5 月份收购的一个云监控初创公司)集成而产生的结果。该系统监控云基础设施资源,例如磁盘和虚拟机,还有 Google 服务的服务级别以及十几个非谷歌提供的开源软件包。

感谢景琦对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-27 23:347594
用户头像

发布了 321 篇内容, 共 133.7 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

阿里二面,面试官居然把 TCP 三次握手问的这么细致

Java 编程 架构 面试 网络

『BATcoder』都2021年了,是时候安装Ubuntu了!

刘望舒

android Android进阶

框架是教科书,但是思考架构更有价值

吴脑的键客

架构师 知识图谱

shell学习

我是程序员小贱

3月日更

MySQL主从架构原理

无心

MySQL

第八章作业—张红珊

zzz

刘华:看板那么好,为什么都成了摆设?

刘华Kenneth

架构 敏捷 精益 看板

用栈、回溯算法设计迷宫程序

不脱发的程序猿

回溯算法 28天写作 3月日更 迷宫程序

智能时代的TCL之舞

脑极体

Redis 作为缓存是如何工作的

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

力扣(LeetCode)刷题,简单+中等题(第26期)

不脱发的程序猿

面试 LeetCode 28天写作 算法面经 3月日更

在公司九年被裁是谁的问题?

石云升

离职 28天写作 职场经验 3月日更

操作系统的内存管理(中)

鲁米

操作系统 内存管理

区块链列入数字经济重点产业 机构预测其大规模应用将加速

CECBC

数字经济

加密解密之 crypto-js 知识

浩浩子

深圳应用区块链提升政务服务效能调查

CECBC

电子发票

位运算符在 JS 中的妙用

浩浩子

Img、net & page新展望:连接感知

云小梦

JavaScript html 网络 用户体验 连接感知

ARTS-week 4

steve_lee

一个视频带你编译自己的Android系统!

刘望舒

android Android进阶

金三试水Java社招,历经“阿里+字节+bigo”等5家面经

Java架构师迁哥

我对PageRank 算法的理解

跳蚤

是时候下载Android11系统源码和内核源码了~

刘望舒

android Android进阶

2021拼多多(Java岗)面经最新分享

比伯

Java 编程 架构 面试 计算机

MySQL 锁

无心

MySQL

推荐引擎概述

跳蚤

如何学习数据结构与算法

C语言与CPP编程

数据结构 算法

音视频开发经验之路【三】吐血干货,直播首屏耗时400ms以下的优化实践

鱼哥

音视频

你真的知道基于区块链的「云计算」是什么吗?

CECBC

云计算

Java 并发基础(一):synchronized 锁同步

看山

Java Java并发 并发编程

使用 Typescript 的一些注意事项

浩浩子

Google抛弃MapReduce使用Cloud Dataflow_Google_孙镜涛_InfoQ精选文章