收录了 分布式数据存储 频道下的 50 篇内容
在AWS这么多的数据存储选项中,应该如何选择?在这分成三部分的博客系列中,我将试图对这些常见问题做一些澄清。在第一部分,我会论述高可用性的基础,以及为什么冗余是实现高可用性的常用方法。我也简要地提到在数据层加入冗余会带来新的问题。在第二部分,我会讨论这其中的一些问题,以及在克服这些问题时你需要考虑的取舍。第三部分在这些信息的基础上,论述AWS特定的数据存储选项,以及每个存储选项的优化所针对的是哪些工作负载。在你读完本博客系列的全部三部分之后,你就会赞同AWS提供了丰富的数据存储产品,并学会针对正确的工作负载选择正确的数据存储产品。
本次分享介绍京东高可用分布式流数据存储系统的架构。
Apache Pinot 是一个使用 Java 编写的开源列式分布式数据存储系统。
为什么 hdfs 的 namenode 没有存储块的对应节点信息,导致启动 hdfs 的时候,datanode 需要扫描所有的数据块,再将该 datanode 上的块信息发送给 namenode,namenode 才能构建完整的元数据信息。根据文件和数据块的多少,启动 hdfs 的时候需要几分钟到几个小时。 对比下分布式数据库,如果把记录对应的节点信息发送给 Master,那就不可想象了。所以在分布式数据库中 hdfs 的存储策略不可取。同时我最近一直被目前的分布式数据库的存储上有几个问题困扰着。
做过分布式系统的人都知道,想要在大规模集群下处理高并发事务时同时满足CAP(一致性、可用性、分区容错),从理论上来说不可能,当然听说最近谷歌已经实现了这样的分布式系统,但是总的来说确实非常难。对于社交媒体的海量日志文件,如果我们也提出了需要确保高可用、持续写入数据、按照记录顺序返回数据等三条要求,你觉得是否可以实现?FaceBook的LogDevice实现了。
像用水用电一样用数据库:分布式KV存储秒级扩缩容的实现之道
VMware vFabric SQLFire是个内存、分布式、基于SQL的缓存,可以与传统数据库协同工作将数据持久化到磁盘上。
本文主要介绍了京东高可用分布式流数据存储系统的架构,内容涵盖流数据存储集群的高可用架构设计,改进于 Raft 的流数据选举和复制机制和理解数据流的特性和针对性性能优化手段等内容。
虽然分布式存储的存储层和上传下载这一层很重要,但在元数据方面有哪些选择,这些选择有什么优缺点则更为重要。在QCon北京2015大会上,七牛云存储首席架构师李道兵结合自己多年的实践和思考,分享了关于存储设计的几大方法,并详细地分析了各自的利弊。
的存储模块。存储的。如何保证事务跨越多个数据分片而不丢失数据。为提高性能、降低成本所做的优化。扫码添加企微小助手,加入开发者企微群,获取直播回放、参与有奖互动!
分布式数据库系统中,如何保障数据一致性是核心技术难题之一。数据一致性保障直接影响系统的可靠性、并发性能及数据准确性。分布式环境下,数据分片、节点故障、网络异步传输等因素容易引发数据不一致情况,进而威胁业务连续性和数据完整性。因此,设计完善的
本文提出一种分层的数据放置策略DPRD。DPRD主要应用于分布式存储系统中,目前DPRD应用于Zeppelin中。
HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
无论哪个时代,存储都是一个重要的话题,今天先聊聊数据库。在过去的几年,数据库技术上出现了几个很明显的趋势。
从实时流中摄取行对数据查询服务提出了一系列独特的挑战。Pinot一直在努力解决这些挑战,并随着时间的推移,做得越来越好。
本文介绍开源分布式分析型数据库Greenplum的内核。
本文主要介绍了 Greenplum 集群概述、分布式数据存储和分布式查询优化。
本次报告将以 OceanBase 为例和架构师们一起探讨云原生分布式数据库的关键特性和技术挑战。
OLTP类型的业务系统采用集中式数据库还是分布式数据库是在做国产数据库改造中经常被问到的问题,无论是对技术架构发展演变,还是对现有业务长期发展提供必要的支撑,这个问题都具有讨论意义。
分布式数据库技术路线和产业现状,分析分布式数据库的技术特点以及面临的问题与挑战,对企业如何进行数据库选型互动讨论。