五分钟学大数据 - InfoQ



 写点什么

登录/注册

五分钟学大数据

2020 年 11 月 10 日加入

公众号：五分钟学大数据

大数据领域原创技术号，专注于大数据技术

 关注

77
发布数
65
关注者
0
关注了

全部分类 

MapReduce 设计构思

五分钟学大数据

1 小时前

MapReduce 是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在 Hadoop 集群上。

hdfs 的集群间拷贝、归档、回收站等功能剖析

五分钟学大数据

1 小时前

在我们实际工作当中，极有可能会遇到将测试集群的数据拷贝到生产环境集群，或者将生产环境集群的数据拷贝到测试集群，那么就需要我们在多个集群之间进行数据的远程拷贝，hadoop 自带也有命令可以帮我们实现这个功能

HDFS 的 Java API

五分钟学大数据

4 月 28 日

在 Java 中操作 HDFS, 主要涉及以下 Class:

hdfs 中 datanode 工作机制以及数据存储

五分钟学大数据

4 月 28 日

1）一个数据块在 datanode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

hdfs namenode 的故障恢复

五分钟学大数据

4 月 28 日

在我们的 secondaryNamenode 对 namenode 当中的 fsimage 和 edits 进行合并的时候，每次都会先将 namenode 的 fsimage 与 edits 文件拷贝一份过来，所以 fsimage 与 edits 文件在 secondarNamendoe 当中也会保存有一份，如果 namenode 的 fsimage 与 edits 文件损坏，那么我们可以将

HDFS NameNode 中的 FSImage 与 edits 详解

五分钟学大数据

4 月 28 日

所有的元数据信息都保存在了 FsImage 与 Eidts 文件当中，这两个文件就记录了所有的数据的元数据信息，元数据信息的保存目录配置在了 hdfs-site.xml 当中

hdfs 中抽象为 block 块的好处

五分钟学大数据

4 月 28 日

hdfs 将所有的文件全部抽象成为 block 块来进行存储，不管文件大小，全部一视同仁都是以 block 块的统一大小和形式进行存储，方便我们的分布式文件系统对文件的管理

HDFS 文件限额配置

五分钟学大数据

4 月 28 日

在多人共用 HDFS 的环境下，配置设置非常重要。特别是在 Hadoop 处理大量资料的环境，如果没有配额管理，很容易把所有的空间用完造成别人无法存取。Hdfs 的配额设定是针对目录而不是针对账号，可以让每个账号仅操作某一个目录，然后对目录设置配置。

大数据基本导论

五分钟学大数据

4 月 28 日

数据量的发展：

软件 IT 专业的高校大学生创新创业问卷调查

软件 IT 专业的高校大学生创新创业问卷调查

五分钟学大数据

4 月 27 日

IT 专业大学生的创新创业情况

流量分析中常见的指标简单总结

流量分析中常见的指标简单总结

五分钟学大数据

4 月 24 日

指标是网站分析的基础，用来记录和衡量访问者在网站自的各种行为。比如我们经常说的流量就是一个网站指标，它是用来衡量网站获得的访问量。在进行流量分析之前，我们先来了解一些常见的指标。

Flink的Checkpoint持久化存储方案

Flink 的 Checkpoint 持久化存储方案

五分钟学大数据

4 月 23 日

目前，Checkpoint 持久化存储可以使用如下三种:

海量并发场景下的缓存架构设计

海量并发场景下的缓存架构设计