在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Google 抛弃 MapReduce 使用 Cloud Dataflow

  • 2014-06-27
  • 本文字数:1134 字

    阅读完需:约 4 分钟

2004 年 Google 发表了一篇非常具有影响力的论文向全世界介绍了 MapReduce 框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce 已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是 Apache Hadoop 的基础,被很多知名厂商所使用为其客户提供优质的数据服务。但是从最近在 San Francisco 召开的 Google I/O 大会上获悉 Google 已经抛弃了 MapReduce 框架转而使用一个新的云分析系统,它的名字叫做 Cloud Dataflow。来自于 Data Center Knowledge 的 Yevgeniy Sverdlik 就发表了一篇文章对此做了介绍,下面是编者按照其文章组织的一些内容。

Google 之所以抛弃 MapReduce 的原因很可能是它已经难以处理 Google 目前所要分析的数据量了。Mountain View 公司负责技术基础设施的高级副总裁 Urs Hölzle 说:一旦数据量达到了 PB 级 MapReduce 就会变得难以处理。在 San Francisco 召开的 Google I/O 大会上 Hölzle 做了一个主题演讲,他提到他们从几年之前就已经不再使用 MapReduce 了。

对于 Cloud Dataflow Google 将会把它作为云平台上的一个服务提供给开发者,这些服务并没有 MapReduce 那样的扩展限制。Hölzle 说“Cloud Dataflow 是十多年分析经验的结晶,它将比市面上任何其他的系统运行的更快,扩展性也更好”。

“Cloud Dataflow 是一个完全托管的服务,它能够自动优化、部署、管理和扩展。它能够让开发者很容易地使用统一的编程为批处理和流服务创建复杂的管道”Hölzle 表示。

谷歌想到的这些所有的特性处理都无法在 MapReduce 上完成:它很难迅速地获取数据,它需要很多不同的技术,批处理和流无关,同时还需要部署并运维 MapReduce 集群。

Hölzle 还在他的主题演讲上展示了谷歌云平台上的一些其他的新服务:

  • Cloud Save是一个 API,它使应用程序能够将单个用户的数据保存在云端或其他地方,同时使用它不需要任何服务器端的编码。 Google PaaS(提供 App Engine)用户和 IaaS(提供 Compute Engine)用户都可以利用这个特性构建 App。
  • Cloud Debugging 让开发者能够更容易地筛选出部署在云端多台服务器上的软件代码中的 bug。
  • Cloud Tracing 提供了不同组之间的延迟统计(例如数据库服务调用的延迟)和分析报告。
  • Cloud Monitoring 是一款智能监控系统,它是与 Stackdriver(谷歌 5 月份收购的一个云监控初创公司)集成而产生的结果。该系统监控云基础设施资源,例如磁盘和虚拟机,还有 Google 服务的服务级别以及十几个非谷歌提供的开源软件包。

感谢景琦对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-27 23:347632
用户头像

发布了 321 篇内容, 共 134.8 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

在IIS上部署ASP.NET Core Web API和Blazor Wasm

追逐时光者

.net blazor

Windows10 IIS Web服务器安装配置

追逐时光者

微软 IIS

Java开发者快速上手.NET指南

追逐时光者

Java C# .net 微软

0.9B PaddleOCR-VL 登顶 SOTA!GPUStack 高效推理部署实战指南

GPUStack

OCR 多模态 大模型 模型推理 PaddleOCR

Elasticsearch 国产化替代 — 信创政策到技术选型的全面指南调研报告 V1.0

新消费日报

实际工作中 Git Commit 代码提交规范是什么样的?

追逐时光者

git

使用Microsoft.Extensions.AI简化.NET中的AI集成

追逐时光者

.net AI

直播预告 | 时序数据赋能核电数字化转型,TDengine 引领创新新范式

TDengine

tdengine

工业管理 项目管理经验总结(25)

万里无云万里天

项目管理 工业 工厂运维

在 .NET 中使用 Sqids 快速的为数字 ID 披上神秘短串,轻松隐藏敏感数字!

追逐时光者

.net

ML.NET:一个.NET开源、免费、跨平台的机器学习框架

追逐时光者

.net AI

使用dnSpyEx对.NET Core程序集进行反编译、编辑和调试

追逐时光者

.net 微软

C#数据结构与算法实战入门指南

追逐时光者

C# .net

低代码列表设计实操:3 大配置模块 + PC/APP 差异,数据展示更精准

引迈信息

从数据孤岛到数据中台:ETL + iPaaS如何重塑企业数据架构

谷云科技RestCloud

数据中台 数据同步 ETL 集成平台 ipaas

在.NET Web API设置响应输出Json数据格式常用的两种方式

追逐时光者

C# .net 微软 WebApi

​火山引擎发布Data Agent新能力,推动用户洞察进入“智能3.0时代”

科技新消息

用AI重构人机关系,OPPO智慧服务带来了更“懂你”的体验

Alter

AI OPPO

C# 12 新增功能实操!

追逐时光者

C# 微软

EF Core 10 现已支持 LeftJoin 和 RightJoin 运算符查询了!

追逐时光者

C# .net 微软 EF Core

.NET 9 中 LINQ 新增功能实操

追逐时光者

C# .net

C#集合数据去重的5种方式及其性能对比测试分析

追逐时光者

C# .net

报名启动|隐语开源社区Meetup北京站 x 可信数据空间技术全景解析来啦

隐语SecretFlow

C#字符串拼接的6种方式及其性能分析对比

追逐时光者

C# .net

springboot项目集成dolphinscheduler调度器 项目管理

刘大猫

人工智能 云计算 大数据 算法 物联网

从数据库到价值:ETL 工具如何打通南大通用数据库与企业应用

谷云科技RestCloud

数据库 数据传输 数据同步 ETL gbase

工业设计 自控设计经验总结(15)

万里无云万里天

设计师 工业 工厂运维

从C10K到Reactor:事件驱动,如何重塑高并发服务器的网络架构

poemyang

RPC 事件驱动架构

使用 BenchmarkDotNet 对 .NET 代码进行性能基准测试

追逐时光者

C# .net

云栖实录|阿里云 Milvus:AI 时代的专业级向量数据库

阿里云大数据AI技术

阿里云 Milvus 向量数据

DeepWiki:AI驱动、免费且实用的 GitHub 源码阅读与分析神器!

追逐时光者

git GitHub AI

Google抛弃MapReduce使用Cloud Dataflow_Google_孙镜涛_InfoQ精选文章