【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

MapReduce 模式、算法和用例

  • 2012-02-15
  • 本文字数:838 字

    阅读完需:约 3 分钟

随着 Hadoop 和大数据应用的爆发式增长,很多人正在寻找将他们已有的实现转为 MapReduce 方式的方法。不幸的是,除了《应用 MapReduce 进行数据密集的文本处理》《Mahout in Action》几本有名书籍之外,很少有关设计 MapReduce 实现的出版物。在新文章“MapReduce 模式、算法和用例”中,Ilya Katsov 提供了一个系统化的综述,阐述了能够应用 MapReduce 框架解决的问题。

文章开始描述了一个非常简单的、作为通用的并行计算框架的 MapReduce 应用,这个框架适用于很多要求大量节点进行的计算和数据密集型计算,包括物理和工程仿真,数值分析,性能测试等等。接下来是一组算法,通常用于日志分析、ETL 和数据查询,包括计数及求和,数据整理(基于特定函数),过滤,解析,验证和排序。

第二大部分是关于 MapReduce 模式,Katsov 讨论了包括多关系形 MapReduce 模式,通常用于数据仓库应用程序。这些模式在 Hive 和 Pig 实现中广泛使用,并包括基于推断 / 函数的数据选择,数据预测、数据联合、差分、交集和分组等聚集计算。另一个讨论是关于实现数据关联和包含等算法,例如 repartition join 和重复联合。

更进一步,这篇文章讨论了更为复杂的 MapReduce 处理算法,包括图处理、搜索算法(广度优先搜索)、page rank 数据集合算法,这些算法应用于图分析、web 索引和通用搜索应用。文章也涵盖了常见的、需要互相关计算的文本分析和市场分析的用例。这部分包含了”pairs“和”stripes”设计模式和它们的相对优劣。

最后,Katsov 给出了一个在机器学习领域实现更复杂 MapReduce 的很好的参考书目。

文中描述的大多数算法都有伪代码描述及它们的适用性,优势、劣势和一些真实的用例。

如今很多人仍面临应用 Hadoop 和 MapReduce 解决业务问题的困扰。有些人仍然认为 MapReduce 是“搜索业务问题领域的技术手段”。这篇文章是填补 MapReduce 算法、用例和设计模式空缺的重要一步。它展示了 MapReduce 强大的力量,而不仅仅是用那个声名狼藉的“词语计数”例子,并显示了 MapReduce 可以解决众多实际问题的方式。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2012-02-15 08:526483
用户头像

发布了 32 篇内容, 共 84211 次阅读, 收获喜欢 1 次。

关注

评论

发布
暂无评论
发现更多内容

MAUI使用Masa blazor组件库

沙漠尽头的狼

假如,程序员面试的时候说真话

AlwaysBeta

程序员 面试

口令安全是什么意思?等保2.0政策中口令安全标准条款有哪些?

行云管家

网络安全 口令安全 等保 等保2.0 口令

删除视图——基于函数的视图 Django

海拥(haiyong.site)

Python django 6月月更

网络安全的五大特点有哪些?五大属性是什么?

行云管家

网络安全 数据安全 网络安全法

云上人和物联科技加入龙蜥社区,携手打造软硬件服务生态

OpenAnolis小助手

开源 生态 龙蜥社区 CLA 云上人和物联科技

CAT敏捷团队教练工作坊 (Coaching Agile Teams) | 8月20日开课

ShineScrum捷行

教练 敏捷教练 高管教练 专业教练 ACC

重磅直播|BizDevOps:数字化转型浪潮下的技术破局之路

阿里云云效

阿里云 DevOps 研发效能 BizDevOps 场数字化转型

DevSecOps: CI/CD 流水线安全的最佳实践

SEAL安全

CI/CD DevSecOps

天翼云数字政府智慧数据中台通过认证

天翼云开发者社区

轻松上手Fluentd,结合 Rainbond 插件市场,日志收集更快捷

北京好雨科技有限公司

Kubernetes EFK Fluentd rainbond

加密市场进入寒冬,是“天灾”还是“人祸”?

鳄鱼视界

美团基于 Flink 的实时数仓平台建设新进展

Apache Flink

大数据 flink 流计算 实时计算 实时数仓

Java——I/O II

武师叔

6月月更

天翼云探索云原生、边缘计算融合新思路

天翼云开发者社区

直播出海 | 国内直播间再出爆品,「外卷」全球如何致胜

融云 RongCloud

SAP Marketing Cloud 功能概述(二)

Jerry Wang

云计算 SaaS SAP 6月月更 Marketing Cloud

北京大数据培训 | 电商用户行为分析之实时流量统计

@零度

大数据开发

【OpenI开源项目推荐-GammaGL】支持国内外主流深度学习框架的图神经网络算法库

OpenI启智社区

人工智能 算法 图神经网络

web前端开发培训 | React面向组件编程

@零度

前端开发 React

力扣每日一练之双指针2Day9

京与旧铺

6月月更

java培训机构 | Java设计模式之适配器模式

@零度

设计模式 JAVA开发

NFT交易平台数字藏品系统开发技术

薇電13242772558

NFT 数字藏品

6月《中国数据库行业分析报告》发布!智能风起,列存更生

墨天轮

数据库 TiDB 国产数据库 列式存储

企业官网如何提高客户转化率

源字节1号

Java——流输入输出

武师叔

6月月更

得物技术复杂 C 端项目的重构实践

得物技术

前端 大前端 重构 框架 社区

定金预售的规则思路详解

CRMEB

加密市场进入寒冬,是“天灾”还是“人祸”?

股市老人

TiFlash 函数下推必知必会丨十分钟成为 TiFlash Contributor

PingCAP

#TiDB

大数据培训 | 电商用户行为分析之商业指标统计分析

@零度

大数据开发

MapReduce模式、算法和用例_架构_Boris Lublinsky_InfoQ精选文章