写点什么

MapReduce 模式、算法和用例

  • 2012-02-15
  • 本文字数:838 字

    阅读完需:约 3 分钟

随着 Hadoop 和大数据应用的爆发式增长,很多人正在寻找将他们已有的实现转为 MapReduce 方式的方法。不幸的是,除了《应用 MapReduce 进行数据密集的文本处理》《Mahout in Action》几本有名书籍之外,很少有关设计 MapReduce 实现的出版物。在新文章“MapReduce 模式、算法和用例”中,Ilya Katsov 提供了一个系统化的综述,阐述了能够应用 MapReduce 框架解决的问题。

文章开始描述了一个非常简单的、作为通用的并行计算框架的 MapReduce 应用,这个框架适用于很多要求大量节点进行的计算和数据密集型计算,包括物理和工程仿真,数值分析,性能测试等等。接下来是一组算法,通常用于日志分析、ETL 和数据查询,包括计数及求和,数据整理(基于特定函数),过滤,解析,验证和排序。

第二大部分是关于 MapReduce 模式,Katsov 讨论了包括多关系形 MapReduce 模式,通常用于数据仓库应用程序。这些模式在 Hive 和 Pig 实现中广泛使用,并包括基于推断 / 函数的数据选择,数据预测、数据联合、差分、交集和分组等聚集计算。另一个讨论是关于实现数据关联和包含等算法,例如 repartition join 和重复联合。

更进一步,这篇文章讨论了更为复杂的 MapReduce 处理算法,包括图处理、搜索算法(广度优先搜索)、page rank 数据集合算法,这些算法应用于图分析、web 索引和通用搜索应用。文章也涵盖了常见的、需要互相关计算的文本分析和市场分析的用例。这部分包含了”pairs“和”stripes”设计模式和它们的相对优劣。

最后,Katsov 给出了一个在机器学习领域实现更复杂 MapReduce 的很好的参考书目。

文中描述的大多数算法都有伪代码描述及它们的适用性,优势、劣势和一些真实的用例。

如今很多人仍面临应用 Hadoop 和 MapReduce 解决业务问题的困扰。有些人仍然认为 MapReduce 是“搜索业务问题领域的技术手段”。这篇文章是填补 MapReduce 算法、用例和设计模式空缺的重要一步。它展示了 MapReduce 强大的力量,而不仅仅是用那个声名狼藉的“词语计数”例子,并显示了 MapReduce 可以解决众多实际问题的方式。

2012-02-15 08:526922
用户头像

发布了 32 篇内容, 共 97857 次阅读, 收获喜欢 1 次。

关注

评论

发布
暂无评论
发现更多内容

打破生态壁垒!ThinkPad X1 Carbon Aura AI“一磕即传”刷新多设备协作效率

科技范儿

华为阅读2024年度榜单发布,涵盖影视原著、个人成长、企业管理精品书籍

最新动态

具身智能领域,全球Top50华人图谱梳理

机器人头条

科技 大模型 人形机器人 具身智能

人工智能与物联网:从智慧家居到智能城市的未来蓝图

天津汇柏科技有限公司

物联网 AI 人工智能

Flexus X实例CPU、内存及磁盘性能实测与分析

YG科技

采用Flexus云服务器X实例搭建RTSP直播服务器

YG科技

巧用mask属性创建一个纯CSS图标库

不在线第一只蜗牛

CSS 前端

使用内容分发网络的一点小经验

为自己带盐

腾讯云 CDN

长三角,如何把数据要素变成新长江?

脑极体

AI

VXLAN 网络中报文转发过程

天翼云开发者社区

VXLAN

基于Flexus X实例云服务器的实际场景-等保三级服务器设置

YG科技

服务网格的基本概念

天翼云开发者社区

服务网格

828华为云征文 |Flexus X实例与华为云EulerOS的Tomcat安装指南

YG科技

华为云Flexus云服务器X实例的购买及使用体验

YG科技

如何选择合适的云服务器--X实例购买指南和配置详细说明

YG科技

华为Flexus云服务器X实例 使用流程

YG科技

华为云Flexus X实例使用测评——上手初体验,比想象的更丝滑

YG科技

基于Flexus X实例云服务器的评测-大模型对比评测

YG科技

快讯|复旦校友会、浙大MBA、中欧EMBA来访奇点云

奇点云

混合云架构中私网环境下通过VPN实现云上云下互通

天翼云开发者社区

混合云

MapReduce模式、算法和用例_架构_Boris Lublinsky_InfoQ精选文章