

 写点什么

hdfs

收录了 hdfs 频道下的 50 篇内容

HDFS NameNode 重启优化

本文基于Hadoop-2.x和HA with QJM社区架构和系统设计，通过梳理NameNode重启流程，并在此基础上，阐述对NameNode重启优化实践。

作者 : 新美大离线存储团队

2017-03-06

3195

HDFS Federation 在美团点评的应用与改进

HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案，真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发，介绍了HDFS Federation在美团点评的实际应用经验。

作者 : 美团点评离线团队

2017-04-11

2436

取代 HDFS？Ozone 在腾讯的最新研究进展

为下一代对象存储还不够，取代 HDFS 才是 Ozone 的目标。

作者 : DataFunTalk

2021-02-18

快手 EB 级 HDFS 挑战与实践

作为快手内部数据规模和机器规模最大的分布式文件存储系统，HDFS一直伴随着快手业务的飞速发展而快速成长。

作者 : DataFunTalk

2021-04-13

EB 级 HDFS 集群磁带存储资源池的建设实践

本文主要介绍HDFS 磁带存储资源池建设的实践，拓展 HDFS 异构存储到磁带存储介质，强化了 HDFS 低成本海量数据存储能力。

作者 : 饶有清

2020-04-09

942

HDFS EC 在滴滴的实践

HDFS中默认的3副本方案在存储空间和其他资源（例如网络带宽）上有200％的开销。对于冷数据，使用纠删码（ErasureCoding，EC）存储代替副本存储是一种非常不错的替代方案。EC存储在保证容错能力不低于副本存储的同时，有着更低的存储空间消耗。

作者 : 滴滴技术

2021-08-03

唯品会 HDFS 性能挑战和优化实践

本文以唯品会HDFS实际应用场景和问题导向触发，介绍了优化方案的局限性，分享了这些局限性的解决和实施经验。这对于技术运营较大规模的HDFS集群有一定借鉴意义。

作者 : 唯技术

2019-04-04

3906

字节跳动 10 万节点 HDFS 集群多机房架构演进之路

HDFS 全称是 Hadoop Distributed File System，其本身是 Apache Hadoop 项目的一个模块，作为大数据存储的基石提供高吞吐的海量数据存储能力。

作者 : 字节跳动技术团队

2021-07-20

HDFS 监控背后那些事儿，构建 Hadoop 监控共同体

Hadoop 分布式文件系统 (HDFS) 被设计成适合运行在通用硬件 (commodity hardware) 上的分布式文件系统。HDFS 能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。在大数据生态圈中，HDFS 是最重要的底层分布式文件系统，它的稳定性关乎整个生态系统的健康。本文介绍了 HDFS 相关的重要监控指标，分享指标背后的思考。

作者 : 京东云应用研发部

2019-09-15

1513

云上大数据存储：探究 JuiceFS 与 HDFS 的异同

这篇文章将从技术架构、功能特性、使用场景等多个方面来解析HDFS和JuiceFS 的异同。

作者 : 汤友棚策划: Tina

2023-04-21

探寻从 HDFS 到 Spark 的高效数据通道：以小文件输入为案例

为了保证高效的数据移动，locality是大数据栈以及分布式应用程序所必须保证的性质，这一点在Spark中尤为明显。如果数据集大到不能保证完全放入内存，那就不能贸然使用cache()将数据固化到内存中。如果读取数据不能保证较好的locality性质的话，不论是对即席查询还是迭代计算都将面临输入瓶颈。而作为常用的分布式文件系统，HDFS承担着数据存储、一致性保证等关键问题。HDFS自开发之初就与Google GFS一脉相承，因此也继承了其无法较好的处理小文件的问题，但大量小文件输入又是分布式计算中常见场景。本文以小文件输入为案例，看看从HDFS到Spark的数据通道中到底发生了什么，并讨论如何设计有效的小文件输入。了解了这些话题，可以更高效的使用Spark。

作者 : 尹绪森

2014-04-10

12368