2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Google 抛弃 MapReduce 使用 Cloud Dataflow

  • 2014-06-27
  • 本文字数:1134 字

    阅读完需:约 4 分钟

2004 年 Google 发表了一篇非常具有影响力的论文向全世界介绍了 MapReduce 框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce 已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是 Apache Hadoop 的基础,被很多知名厂商所使用为其客户提供优质的数据服务。但是从最近在 San Francisco 召开的 Google I/O 大会上获悉 Google 已经抛弃了 MapReduce 框架转而使用一个新的云分析系统,它的名字叫做 Cloud Dataflow。来自于 Data Center Knowledge 的 Yevgeniy Sverdlik 就发表了一篇文章对此做了介绍,下面是编者按照其文章组织的一些内容。

Google 之所以抛弃 MapReduce 的原因很可能是它已经难以处理 Google 目前所要分析的数据量了。Mountain View 公司负责技术基础设施的高级副总裁 Urs Hölzle 说:一旦数据量达到了 PB 级 MapReduce 就会变得难以处理。在 San Francisco 召开的 Google I/O 大会上 Hölzle 做了一个主题演讲,他提到他们从几年之前就已经不再使用 MapReduce 了。

对于 Cloud Dataflow Google 将会把它作为云平台上的一个服务提供给开发者,这些服务并没有 MapReduce 那样的扩展限制。Hölzle 说“Cloud Dataflow 是十多年分析经验的结晶,它将比市面上任何其他的系统运行的更快,扩展性也更好”。

“Cloud Dataflow 是一个完全托管的服务,它能够自动优化、部署、管理和扩展。它能够让开发者很容易地使用统一的编程为批处理和流服务创建复杂的管道”Hölzle 表示。

谷歌想到的这些所有的特性处理都无法在 MapReduce 上完成:它很难迅速地获取数据,它需要很多不同的技术,批处理和流无关,同时还需要部署并运维 MapReduce 集群。

Hölzle 还在他的主题演讲上展示了谷歌云平台上的一些其他的新服务:

  • Cloud Save是一个 API,它使应用程序能够将单个用户的数据保存在云端或其他地方,同时使用它不需要任何服务器端的编码。 Google PaaS(提供 App Engine)用户和 IaaS(提供 Compute Engine)用户都可以利用这个特性构建 App。
  • Cloud Debugging 让开发者能够更容易地筛选出部署在云端多台服务器上的软件代码中的 bug。
  • Cloud Tracing 提供了不同组之间的延迟统计(例如数据库服务调用的延迟)和分析报告。
  • Cloud Monitoring 是一款智能监控系统,它是与 Stackdriver(谷歌 5 月份收购的一个云监控初创公司)集成而产生的结果。该系统监控云基础设施资源,例如磁盘和虚拟机,还有 Google 服务的服务级别以及十几个非谷歌提供的开源软件包。

感谢景琦对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-27 23:347550
用户头像

发布了 321 篇内容, 共 132.5 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

中小企业搭建网站选择虚拟主机还是云服务器?华为云有话说

平平无奇爱好科技

HAG即将完成首期募资,确认采用比特大陆S21矿机

股市老人

云上应用技术架构- CDN、流媒体、边缘计算

深蓝

云上应用技术架构-API网关

深蓝

华为云耀云服务器L实例:保障网站的稳定性和高可用性

平平无奇爱好科技

中小企业网站开发“速通神器”,华为云耀云服务器L实例实至名归.

平平无奇爱好科技

云上应用技术架构-WebAssembly (WASM)

深蓝

亚马逊EC2云服务器一键部署wordpress博客

乌龟哥哥

AWS

云上应用技术架构 - 负载均衡

深蓝

云上应用技术架构-函数计算、Serverless、小程序

深蓝

SQL 中的 NULL 值:定义、测试和处理空数据,以及 SQL UPDATE 语句的使用

小万哥

MySQL sql 程序员 后端 开发

软件质量:问题在哪,如何改善?

peak徐

质量管理 研发管理

【亚马逊云科技产品测评】活动征文|aws云服务器 + 微服务Spring Cloud Nacos 实战

青花锁

微服务 ws云服务器 Spring Cloud Nacos

华为云耀云服务器L实例:让初创企业更有精力专注打磨产品

平平无奇爱好科技

华为云耀云服务器L实例,轻量应用服务器更适合中小企业选择

平平无奇爱好科技

不止源自华为云,这款轻量应用服务器是中小成长企业的“非ban必选”存在

平平无奇爱好科技

汽车之家质效流水线——奔向未来软件交付的关键里程碑

之家技术

ci CD 流水线 效能 释产能

全景观察 Bitscrunch,AI 驱动的分布式 NFT 数据网络

股市老人

【数据库】你听说过矢量数据库吗?

许思王

数据库 矢量数据库

华为云耀云服务器L实例:轻量应用助力企业简单上云

平平无奇爱好科技

初创企业建站两眼一抹黑?华为云耀云服务器L实例让你不迷茫!

平平无奇爱好科技

如何利用亚马逊云科技和大型语言模型构建智能化的企业业务知识库

E₀=mc²

AI AWS NLP 大模型 亚马逊云科技 LLM

华为云耀云服务器L实例:为云游戏开发者提供专业的轻量应用产品

平平无奇爱好科技

云上应用技术架构-从单体到分布式

深蓝

10款好用的iPad笔记软件盘点,每一款都有口皆碑!

彭宏豪95

ipad 效率工具 在线白板 办公软件 笔记软件

探索大模型语言(LLM)科技的革新

屿小夏

机器学习 大数据 AI 云服务 大模型

我们是这样用观测云和第三方公司协作的

代码半亩

快照 告警 可观测 异常追踪

云上应用技术架构 - 缓存与队列

深蓝

华为云耀云服务器L实例,是否是企业简单上云的最佳选择?

平平无奇爱好科技

集成 NVDC 电源路径管理的1-4节电池升降压充电IC解决方案

芯动大师

Google抛弃MapReduce使用Cloud Dataflow_Google_孙镜涛_InfoQ精选文章