写点什么
  • 发布
  • 评论
  • 划线
  • 收藏
  • 关注
  • 全部分类
MapReduce 设计构思

MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在 Hadoop 集群上。

hdfs 的集群间拷贝、归档、回收站等功能剖析

在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop 自带也有命令可以帮我们实现这个功能

HDFS 的 Java API

在 Java 中操作 HDFS, 主要涉及以下 Class:

hdfs 中 datanode 工作机制以及数据存储

1)一个数据块在 datanode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。

hdfs namenode 的故障恢复

​ 在我们的 secondaryNamenode 对 namenode 当中的 fsimage 和 edits 进行合并的时候,每次都会先将 namenode 的 fsimage 与 edits 文件拷贝一份过来,所以 fsimage 与 edits 文件在 secondarNamendoe 当中也会保存有一份,如果 namenode 的 fsimage 与 edits 文件损坏,那么我们可以将

HDFS NameNode 中的 FSImage 与 edits 详解

所有的元数据信息都保存在了 FsImage 与 Eidts 文件当中,这两个文件就记录了所有的数据的元数据信息,元数据信息的保存目录配置在了 hdfs-site.xml 当中

hdfs 中抽象为 block 块的好处

hdfs 将所有的文件全部抽象成为 block 块来进行存储,不管文件大小,全部一视同仁都是以 block 块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理

HDFS 文件限额配置

在多人共用 HDFS 的环境下,配置设置非常重要。特别是在 Hadoop 处理大量资料的环境,如果没有配额管理,很容易把所有的空间用完造成别人无法存取。Hdfs 的配额设定是针对目录而不是针对账号,可以 让每个账号仅操作某一个目录,然后对目录设置配置。

大数据基本导论

数据量的发展:

流量分析中常见的指标简单总结
流量分析中常见的指标简单总结

指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。比如我们经常说的流量就是一个网站指标,它是用来衡量网站获得的访问量。在进行流量分析之前,我们先来了解一些常见的指标。

Flink的Checkpoint持久化存储方案
Flink 的 Checkpoint 持久化存储方案

目前,Checkpoint 持久化存储可以使用如下三种:

个人成就
  • 发布了 77 篇内容

    27.0字, 被阅读 7639

  • 获得了 116 次赞同

    获得了 26次喜欢, 获得了 90 次收藏

  • 参与了 49 次互动

    互动包含发布评论、点赞评论、参与投票等

TA 关注的
还没有关注其他内容哦

海量并发场景下的缓存架构设计

海量并发场景下的缓存架构设计

五分钟学大数据