阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

分布式数据存储

收录了 分布式数据存储 频道下的 50 篇内容

讲给普通人听的分布式数据存储

在AWS这么多的数据存储选项中,应该如何选择?在这分成三部分的博客系列中,我将试图对这些常见问题做一些澄清。在第一部分,我会论述高可用性的基础,以及为什么冗余是实现高可用性的常用方法。我也简要地提到在数据层加入冗余会带来新的问题。在第二部分,我会讨论这其中的一些问题,以及在克服这些问题时你需要考虑的取舍。第三部分在这些信息的基础上,论述AWS特定的数据存储选项,以及每个存储选项的优化所针对的是哪些工作负载。在你读完本博客系列的全部三部分之后,你就会赞同AWS提供了丰富的数据存储产品,并学会针对正确的工作负载选择正确的数据存储产品。

高可用分布式流数据存储设计
高可用分布式流数据存储设计

本次分享介绍京东高可用分布式流数据存储系统的架构。

Apache Pinot 1.0发布,提供实时的分布式OLAP数据存储
Apache Pinot 1.0 发布,提供实时的分布式 OLAP 数据存储

Apache Pinot 是一个使用 Java 编写的开源列式分布式数据存储系统。

分布式数据库的存储设计改进

为什么 hdfs 的 namenode 没有存储块的对应节点信息,导致启动 hdfs 的时候,datanode 需要扫描所有的数据块,再将该 datanode 上的块信息发送给 namenode,namenode 才能构建完整的元数据信息。根据文件和数据块的多少,启动 hdfs 的时候需要几分钟到几个小时。 对比下分布式数据库,如果把记录对应的节点信息发送给 Master,那就不可想象了。所以在分布式数据库中 hdfs 的存储策略不可取。同时我最近一直被目前的分布式数据库的存储上有几个问题困扰着。

LogDevice:来自 Facebook 的分布式日志数据存储系统

做过分布式系统的人都知道,想要在大规模集群下处理高并发事务时同时满足CAP(一致性、可用性、分区容错),从理论上来说不可能,当然听说最近谷歌已经实现了这样的分布式系统,但是总的来说确实非常难。对于社交媒体的海量日志文件,如果我们也提出了需要确保高可用、持续写入数据、按照记录顺序返回数据等三条要求,你觉得是否可以实现?FaceBook的LogDevice实现了。

SQL 分布式缓存与数据存储 VMware vFabric SQLFire 简介

VMware vFabric SQLFire是个内存、分布式、基于SQL的缓存,可以与传统数据库协同工作将数据持久化到磁盘上。

独家解读!京东高可用分布式流数据存储的架构设计
独家解读!京东高可用分布式流数据存储的架构设计

本文主要介绍了京东高可用分布式流数据存储系统的架构,内容涵盖流数据存储集群的高可用架构设计,改进于 Raft 的流数据选举和复制机制和理解数据流的特性和针对性性能优化手段等内容。

分布式存储的元数据设计

虽然分布式存储的存储层和上传下载这一层很重要,但在元数据方面有哪些选择,这些选择有什么优缺点则更为重要。在QCon北京2015大会上,七牛云存储首席架构师李道兵结合自己多年的实践和思考,分享了关于存储设计的几大方法,并详细地分析了各自的利弊。

分布式存储中的数据分布策略
分布式存储中的数据分布策略

本文提出一种分层的数据放置策略DPRD。DPRD主要应用于分布式存储系统中,目前DPRD应用于Zeppelin中。

20个大数据必知领域之「HBase」
20 个大数据必知领域之「HBase」

HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

2010 年代的分布式系统(一):存储之数据库篇
2010 年代的分布式系统(一):存储之数据库篇

无论哪个时代,存储都是一个重要的话题,今天先聊聊数据库。在过去的几年,数据库技术上出现了几个很明显的趋势。

LinkedIn如何对分布式列式OLAP数据存储Pinot进行实时自动调优?
LinkedIn 如何对分布式列式 OLAP 数据存储 Pinot 进行实时自动调优?

从实时流中摄取行对数据查询服务提出了一系列独特的挑战。Pinot一直在努力解决这些挑战,并随着时间的推移,做得越来越好。

数据伸缩性和可用性的实现之路

本文介绍了通过具备自服务伸缩能力的分布式系统实现伸缩性,通过物理部署、严格的运维规程、弹性应用程序实现可用性,打造可伸缩、高可用数据存储的方法。

Greenplum:基于 PostgreSQL 的分布式数据库内核揭秘 (下篇)
Greenplum:基于 PostgreSQL 的分布式数据库内核揭秘 (下篇)

本文介绍开源分布式分析型数据库Greenplum的内核。

MemSQL 4 提供社区版本,并支持地理空间智能以及与 Spark 集成

内存数据库MemSQL的最新版本支持事务和分析,并提供了一个供组织免费使用的社区版本。MemSQL 4于5月20日发布,支持关系型、JSON及地理空间数据等不同数据格式的实时内存数据处理。此外,它还支持与Apache Spark、Hadoop分布式文件系统(HDFS)及Amazon S3集成。

Greenplum :基于 PostgreSQL 的分布式数据库内核揭秘(上篇)
Greenplum :基于 PostgreSQL 的分布式数据库内核揭秘 (上篇)

本文主要介绍了 Greenplum 集群概述、分布式数据存储和分布式查询优化。

美图分布式Bitmap实践:Naix
美图分布式 Bitmap 实践:Naix

大数据技术和应用系统目前已经在各个行业中发挥着巨大的作用,各种各样的开源技术也给大数据从业人员带来了很大的便利。

Spark 和 Hadoop,孰优孰劣?

Spark已经取代Hadoop成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家Bernard Marr在一篇文章中分析了Spark和Hadoop的异同。

OceanBase:云时代企业级分布式数据库的技术挑战

本次报告将以 OceanBase 为例和架构师们一起探讨云原生分布式数据库的关键特性和技术挑战。

FISCO BCOS 2.0发布:新增群组架构克服吞吐瓶颈
FISCO BCOS 2.0 发布:新增群组架构克服吞吐瓶颈

今日,FISCO BCOS开源社区正式对外发布FISCO BCOS的2.0版。

分布式数据存储专题_资料-InfoQ中文网