写点什么
  • 发布
  • 评论
  • 划线
  • 收藏
  • 关注
  • 回答
  • 全部分类
大数据-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑 模拟SQL进行联表操作
大数据 -11-MapReduce JOIN 操作的 Java 实现 Driver Mapper Reducer 具体实现逻辑 模拟 SQL 进行联表操作

MapReduce 中常见的 JOIN 操作包括 Reduce-Side Join、Map-Side Join、Semi-Join 和 Bloom Join。其中 Reduce-Side Join 是最通用的方式,适合大规模数据集联表,通过 Mapper 标记数据源、按 key 分发到 Reducer 实现关联。

大数据-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
大数据 -10-HDFS 集群 Java 实现 MapReduce WordCount 计算 Hadoop 序列化 编写 Mapper 和 Reducer 和 Driver 附带 POM 详细代码 图文等内容

本文介绍了 Hadoop MapReduce 的基本执行流程与开发规范,并结合 WordCount 实战演示了完整的编程实现。首先,解释了为何 Hadoop 使用自定义的 Writable 序列化机制替代 Java 序列化。

大数据-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示
大数据 -09-HDFS 集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示

HDFS(Hadoop Distributed File System)是 Hadoop 的核心组件之一,提供高容错性和高吞吐量的分布式文件系统。HDFS Java Client 是 Java 程序访问 HDFS 的主要方式,支持文件的上传、下载、读取、删除等操作。

大数据-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程
大数据 -08-HDFS 集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程

本文简要介绍了 Hadoop 分布式文件系统(HDFS)常用的命令操作。首先,通过 start-dfs.sh 和 start-yarn.sh 启动集群服务,然后使用 hadoop fs 系列命令进行文件系统管理。包括查看目录(-ls)、创建目录(-mkdir)、上传(-moveFromLocal/-put)

大数据-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
大数据 -07-HDFS 集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件

本节介绍了 Hadoop 核心组件 HDFS(分布式文件系统)的架构与机制。HDFS 采用典型的 Master/Slave 架构,由 NameNode 管理元数据,DataNode 负责数据存储,支持分块存储、冗余副本机制,并设计为“写一次读多次”的模式。

大数据-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
大数据 -06-Hadoop 集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce 执行记录 日志聚合结果可视化查看

重点介绍了 JobHistoryServer(JHS)配置与日志聚合功能的实现。通过配置 mapred-site.xml 与 yarn-site.xml,实现了任务历史的可视化展示和日志聚集,便于后续分析与调试。文中详细展示了配置步骤、脚本同步方法、服务启动与验证过程。

大数据-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
大数据 -05-Hadoop 集群 集群 WordCount 超详细 真正的分布式计算 上传 HDFS MapReduce 计算 YRAN 查看任务 上传计算下载查看

本文介绍了如何在三台公网云服务器(两台 2C4G、一台 2C2G)上搭建 Hadoop 学习环境,并完成了 HDFS 的基本操作和 MapReduce 的典型示例——WordCount 程序的运行。内容涵盖了 HDFS 的设计理念、架构组成(NameNode 和 DataNode)、读写流程及应用场景。

大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI
大数据 -04-Hadoop 集群 集群群起 NameNode/DataNode 启动 3 台公网云 ResourceManager Yarn HDFS 集群启动 UI 可视化查看 YarnUI

终于到了集群启动的时刻!点火!三台公网云服务器,每台 2C4G,NameNode/DataNode 启动 3 台公网云 ResourceManager Yarn HDFS 集群启动 UI 可视化查看 YarnUI。搭建一个 Hadoop 的学习环境,供我学习。

大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建
大数据 -03-Hadoop 集群 免密登录 超详细 3 节点云 分发脚本 踩坑笔记 SSH 免密 集群搭建

这里是三台公网云服务器,每台 2C4G,搭建一个 Hadoop 的学习环境,供我学习。之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的 3 台机器,赶紧尝试在公网上搭建体验一下。

大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece
大数据 -02-Hadoop 集群 XML 配置 超详细 core-site.xml hdfs-site.xml 3 节点云服务器 2C4G HDFS Yarn MapRedece

上一节顺利完成了基础环境的配置,但是对于 Hadoop 来说,目前还有一些 XML 的配置需要我们修改,这样后续才能组装成集群来运行。接下来我们就进行一些 XM 这里是三台公网云服务器,每台 2C4G,搭建一个 Hadoop 的学习环境,供我学习。

大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据 -01- 基础环境搭建 超详细 Hadoop Java 环境变量 3 节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

搭建一个 Hadoop 的学习环境,供我学习。之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的 3 台机器,赶紧尝试在公网上搭建体验一下。自己写的小工具,防止 AutoDL 机器过期的。还跑着别的 Web 服务,所以只能挤出一台 2C2G 的机器。

武子康