2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Google 抛弃 MapReduce 使用 Cloud Dataflow

  • 2014-06-27
  • 本文字数:1134 字

    阅读完需:约 4 分钟

2004 年 Google 发表了一篇非常具有影响力的论文向全世界介绍了 MapReduce 框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce 已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是 Apache Hadoop 的基础,被很多知名厂商所使用为其客户提供优质的数据服务。但是从最近在 San Francisco 召开的 Google I/O 大会上获悉 Google 已经抛弃了 MapReduce 框架转而使用一个新的云分析系统,它的名字叫做 Cloud Dataflow。来自于 Data Center Knowledge 的 Yevgeniy Sverdlik 就发表了一篇文章对此做了介绍,下面是编者按照其文章组织的一些内容。

Google 之所以抛弃 MapReduce 的原因很可能是它已经难以处理 Google 目前所要分析的数据量了。Mountain View 公司负责技术基础设施的高级副总裁 Urs Hölzle 说:一旦数据量达到了 PB 级 MapReduce 就会变得难以处理。在 San Francisco 召开的 Google I/O 大会上 Hölzle 做了一个主题演讲,他提到他们从几年之前就已经不再使用 MapReduce 了。

对于 Cloud Dataflow Google 将会把它作为云平台上的一个服务提供给开发者,这些服务并没有 MapReduce 那样的扩展限制。Hölzle 说“Cloud Dataflow 是十多年分析经验的结晶,它将比市面上任何其他的系统运行的更快,扩展性也更好”。

“Cloud Dataflow 是一个完全托管的服务,它能够自动优化、部署、管理和扩展。它能够让开发者很容易地使用统一的编程为批处理和流服务创建复杂的管道”Hölzle 表示。

谷歌想到的这些所有的特性处理都无法在 MapReduce 上完成:它很难迅速地获取数据,它需要很多不同的技术,批处理和流无关,同时还需要部署并运维 MapReduce 集群。

Hölzle 还在他的主题演讲上展示了谷歌云平台上的一些其他的新服务:

  • Cloud Save是一个 API,它使应用程序能够将单个用户的数据保存在云端或其他地方,同时使用它不需要任何服务器端的编码。 Google PaaS(提供 App Engine)用户和 IaaS(提供 Compute Engine)用户都可以利用这个特性构建 App。
  • Cloud Debugging 让开发者能够更容易地筛选出部署在云端多台服务器上的软件代码中的 bug。
  • Cloud Tracing 提供了不同组之间的延迟统计(例如数据库服务调用的延迟)和分析报告。
  • Cloud Monitoring 是一款智能监控系统,它是与 Stackdriver(谷歌 5 月份收购的一个云监控初创公司)集成而产生的结果。该系统监控云基础设施资源,例如磁盘和虚拟机,还有 Google 服务的服务级别以及十几个非谷歌提供的开源软件包。

感谢景琦对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-27 23:347562
用户头像

发布了 321 篇内容, 共 132.7 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

一个平台让开发效率提升90%?看看中小企业如何靠iPaaS完成数字化转型

谷云科技RestCloud

数据处理 集成平台 ipaas

ASAP:仿真与真实世界物理对齐的人形机器人全身敏捷技能学习

qife122

人形机器人 机器人学习

工业数字化 信息化经验总结(4)

万里无云万里天

数字化转型 信息化 工业 工厂运维

当DevOps落地实施撞上技术债务,如何量化债务突破困局

禅道项目管理

DevOps 软件开发 技术债务 效能管理 禅道项目管理软件

元图 CAD 插件化革命:突破效率瓶颈,重构智能协作新范式

元图CAD

插件化 场景化解决方案 元图cad 模块化赋能

不增加 GPU,首 Token 延迟下降 50%|LLM 服务负载均衡的新实践

阿里巴巴云原生

阿里云 gpu 云原生 Higress

ODPS 十五周年实录 | Data + AI,MaxCompute 下一个15年的新增长引擎

阿里云大数据AI技术

Python 阿里云 pandas MaxCompute ODPS

《2025年,传统企业如何低成本引入AI?》

石头哥谈架构

@all,文心快码与你相约8月28日云智大会!

Comate编码助手

AI 编程 文心快码 文心快码Zulu 2025百度云智大会

拥抱 AI 原生!8月29日深圳,企业实践工作坊火热报名中

阿里巴巴云原生

阿里云 云原生

【跨国数仓迁移最佳实践7】基于MaxCompute多租的大数据平台架构

阿里云大数据AI技术

MaxCompute BigQuery

可可图片编辑 HarmonyOS(2) 选择图片和保存到图库

万少

HarmonyOS

BeeWorks:企业级局域网即时通讯软件

BeeWorks

即时通讯 IM 私有化部署

AppsFlyer 电商 App 营销现状报告:从 iOS 买量到再营销,中国电商重塑全球投放逻辑

财见

大模型那么懂你,为什么(白话篇)

石头哥谈架构

非传统创新者奖学金:从校园“麻烦制造者”到网络安全领航者

qife122

网络安全 黑客精神

AI时代下的黑客技术演进:提示工程与渗透测试未来

qife122

网络安全 提示工程

AI测试平台进阶:多模态模型对比评测实战解析

测试人

软件测试

技术解读 | OceanBase高并发场景下的性能保障

老纪的技术唠嗑局

性能优化 oceanbase

内网环境的即时通讯软件,企业用应该选哪款?

BeeWorks

即时通讯 IM 私有化部署

用户访问权限审查最佳实践

运维有小邓

AD域 AD域管理

使用Bright Data API轻松构建LinkedIn职位数据采集系统

Leo

Playwright与PyTest结合指南

测吧(北京)科技有限公司

#人工智能

阿里云 ECS 可观测性最佳实践

观测云

阿里云

一看就是AI做的网页?ClaudeCode+5句提示词5分钟告别「蓝紫色」AI味儿

阿星AI工作室

AI 产品经理 AI编程 aicoding vibecoding

爬虫新神器:基于MCP的智能体,让数据获取“一键通关”

阿Q说代码

数据分析 智能体 数据获取 MCP 亮数据

工业数字化 信息化经验总结(5)

万里无云万里天

数字化转型 信息化 工业 工厂运维

掘金AI时代计算产业红利的商业伙伴,为什么跟华为组队?

脑极体

AI

在AI技术唾手可得的时代,挖掘新需求成为创新关键——某知名向量搜索框架需求洞察

qife122

需求分析 AI技术

Google抛弃MapReduce使用Cloud Dataflow_Google_孙镜涛_InfoQ精选文章