【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

hdfs

收录了 hdfs 频道下的 50 篇内容

HDFS NameNode 重启优化

本文基于Hadoop-2.x和HA with QJM社区架构和系统设计,通过梳理NameNode重启流程,并在此基础上,阐述对NameNode重启优化实践。

HDFS Federation 在美团点评的应用与改进

HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。

取代HDFS?Ozone在腾讯的最新研究进展
取代 HDFS?Ozone 在腾讯的最新研究进展

为下一代对象存储还不够,取代 HDFS 才是 Ozone 的目标。

快手EB级HDFS挑战与实践
快手 EB 级 HDFS 挑战与实践

作为快手内部数据规模和机器规模最大的分布式文件存储系统,HDFS一直伴随着快手业务的飞速发展而快速成长。

EB 级 HDFS 集群磁带存储资源池的建设实践
EB 级 HDFS 集群磁带存储资源池的建设实践

本文主要介绍HDFS 磁带存储资源池建设的实践,拓展 HDFS 异构存储到磁带存储介质,强化了 HDFS 低成本海量数据存储能力。

HDFS EC在滴滴的实践
HDFS EC 在滴滴的实践

HDFS中默认的3副本方案在存储空间和其他资源(例如网络带宽)上有200%的开销。对于冷数据,使用纠删码(ErasureCoding,EC)存储代替副本存储是一种非常不错的替代方案。EC存储在保证容错能力不低于副本存储的同时,有着更低的存储空间消耗。

唯品会HDFS性能挑战和优化实践
唯品会 HDFS 性能挑战和优化实践

本文以唯品会HDFS实际应用场景和问题导向触发,介绍了优化方案的局限性,分享了这些局限性的解决和实施经验。这对于技术运营较大规模的HDFS集群有一定借鉴意义。

字节跳动10万节点HDFS集群多机房架构演进之路
字节跳动 10 万节点 HDFS 集群多机房架构演进之路

HDFS 全称是 Hadoop Distributed File System,其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。

HDFS监控背后那些事儿,构建Hadoop监控共同体
HDFS 监控背后那些事儿,构建 Hadoop 监控共同体

Hadoop 分布式文件系统 (HDFS) 被设计成适合运行在通用硬件 (commodity hardware) 上的分布式文件系统。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在大数据生态圈中,HDFS 是最重要的底层分布式文件系统,它的稳定性关乎整个生态系统的健康。本文介绍了 HDFS 相关的重要监控指标,分享指标背后的思考。

云上大数据存储:探究 JuiceFS 与 HDFS 的异同
云上大数据存储:探究 JuiceFS 与 HDFS 的异同

这篇文章将从技术架构、功能特性、使用场景等多个方面来解析HDFS和JuiceFS 的异同。

探寻从 HDFS 到 Spark 的高效数据通道:以小文件输入为案例

为了保证高效的数据移动,locality是大数据栈以及分布式应用程序所必须保证的性质,这一点在Spark中尤为明显。如果数据集大到不能保证完全放入内存,那就不能贸然使用cache()将数据固化到内存中。如果读取数据不能保证较好的locality性质的话,不论是对即席查询还是迭代计算都将面临输入瓶颈。而作为常用的分布式文件系统,HDFS承担着数据存储、一致性保证等关键问题。HDFS自开发之初就与Google GFS一脉相承,因此也继承了其无法较好的处理小文件的问题,但大量小文件输入又是分布式计算中常见场景。本文以小文件输入为案例,看看从HDFS到Spark的数据通道中到底发生了什么,并讨论如何设计有效的小文件输入。了解了这些话题,可以更高效的使用Spark。

HDFS 集中式的缓存管理原理与代码剖析

Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理、架构和代码剖析三个角度来探讨这一功能。

字节跳动 EB 级 HDFS 实践
字节跳动 EB 级 HDFS 实践

本文从 HDFS 发展历程入手,介绍发展路径上的重大挑战及解决方案。

Hadoop之HDFS简介
Hadoop 之 HDFS 简介

HDFS作为运行在通用硬件上的分布式文件系统,和现有的分布式文件系统既有很多的共同点,也存在很多的差异。

HDFS Federation
HDFS Federation

除此之外,重启Namenode时间较长(小时级)也给集群运维工作带来不便Namenodes/namespaces.。

HDFS廉颇老矣?基于对象存储的数据湖构建新思路
HDFS 廉颇老矣?基于对象存储的数据湖构建新思路

如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。

20个大数据必知领域之「HDFS」
20 个大数据必知领域之「HDFS」

System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。

从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧
从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧

从 Amazon EMR 5.2.0 开始,您可以选择基于 Amazon S3 上的 Apache HBase。

HDFS 源码解读:HadoopRPC 实现细节的探究
HDFS 源码解读:HadoopRPC 实现细节的探究

本文将结合 hadoop2.7 源码,对 HadoopRPC 做初步剖析。

Facebook 如何使用 Avartarnode 提升 HDFS 可靠性

HDFS中的Namenode是一个单点故障点。在不久前的Hadoop峰会上,Facebook的工程师Andrew Ryan分享了他们如何使用Namenode和Avatarnode提升HDFS可靠性的方法。

hdfs专题_资料-InfoQ中文网