收录了 分布式数据存储 频道下的 50 篇内容
在AWS这么多的数据存储选项中,应该如何选择?在这分成三部分的博客系列中,我将试图对这些常见问题做一些澄清。在第一部分,我会论述高可用性的基础,以及为什么冗余是实现高可用性的常用方法。我也简要地提到在数据层加入冗余会带来新的问题。在第二部分,我会讨论这其中的一些问题,以及在克服这些问题时你需要考虑的取舍。第三部分在这些信息的基础上,论述AWS特定的数据存储选项,以及每个存储选项的优化所针对的是哪些工作负载。在你读完本博客系列的全部三部分之后,你就会赞同AWS提供了丰富的数据存储产品,并学会针对正确的工作负载选择正确的数据存储产品。
本次分享介绍京东高可用分布式流数据存储系统的架构。
为什么 hdfs 的 namenode 没有存储块的对应节点信息,导致启动 hdfs 的时候,datanode 需要扫描所有的数据块,再将该 datanode 上的块信息发送给 namenode,namenode 才能构建完整的元数据信息。根据文件和数据块的多少,启动 hdfs 的时候需要几分钟到几个小时。 对比下分布式数据库,如果把记录对应的节点信息发送给 Master,那就不可想象了。所以在分布式数据库中 hdfs 的存储策略不可取。同时我最近一直被目前的分布式数据库的存储上有几个问题困扰着。
做过分布式系统的人都知道,想要在大规模集群下处理高并发事务时同时满足CAP(一致性、可用性、分区容错),从理论上来说不可能,当然听说最近谷歌已经实现了这样的分布式系统,但是总的来说确实非常难。对于社交媒体的海量日志文件,如果我们也提出了需要确保高可用、持续写入数据、按照记录顺序返回数据等三条要求,你觉得是否可以实现?FaceBook的LogDevice实现了。
HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
VMware vFabric SQLFire是个内存、分布式、基于SQL的缓存,可以与传统数据库协同工作将数据持久化到磁盘上。
本文主要介绍了京东高可用分布式流数据存储系统的架构,内容涵盖流数据存储集群的高可用架构设计,改进于 Raft 的流数据选举和复制机制和理解数据流的特性和针对性性能优化手段等内容。
本文介绍了通过具备自服务伸缩能力的分布式系统实现伸缩性,通过物理部署、严格的运维规程、弹性应用程序实现可用性,打造可伸缩、高可用数据存储的方法。
虽然分布式存储的存储层和上传下载这一层很重要,但在元数据方面有哪些选择,这些选择有什么优缺点则更为重要。在QCon北京2015大会上,七牛云存储首席架构师李道兵结合自己多年的实践和思考,分享了关于存储设计的几大方法,并详细地分析了各自的利弊。
本文提出一种分层的数据放置策略DPRD。DPRD主要应用于分布式存储系统中,目前DPRD应用于Zeppelin中。
内存数据库MemSQL的最新版本支持事务和分析,并提供了一个供组织免费使用的社区版本。MemSQL 4于5月20日发布,支持关系型、JSON及地理空间数据等不同数据格式的实时内存数据处理。此外,它还支持与Apache Spark、Hadoop分布式文件系统(HDFS)及Amazon S3集成。
大数据技术和应用系统目前已经在各个行业中发挥着巨大的作用,各种各样的开源技术也给大数据从业人员带来了很大的便利。
今日,FISCO BCOS开源社区正式对外发布FISCO BCOS的2.0版。
Sarawagi授权由InfoQ中文站翻译分享。YouTube是仅次于谷歌的第二大热门网站。在2019年5月,每分钟会有超过500小时的视频内容上传到该平台。
从实时流中摄取行对数据查询服务提出了一系列独特的挑战。Pinot一直在努力解决这些挑战,并随着时间的推移,做得越来越好。
无论哪个时代,存储都是一个重要的话题,今天先聊聊数据库。在过去的几年,数据库技术上出现了几个很明显的趋势。
这一期,我们一起来学习 AWS 在 USENIX 2022 上发表的关于Amazon DynamoDB 的最新论文。
“不是由编译器向 Dean 报警,而是Dean 向编译器报警。”
本次分享介绍美团点评的 KV 存储 Cellar 和 Squirrel 架构、服务优化实践以及 KV 存储的技术发展趋势。