构建下一代大数据架构:流式存储Pravega技术详解

构建下一代大数据架构:流式存储Pravega技术详解

策划: 蔡芳芳

当前的大数据处理系统无论是何种架构都面临一个共同的问题,即:“计算是原生的流计算,而存储却不是原生的流存储” 。

针对这一问题,DellEMC开发并开源了流式数据存储引擎Pravega(https://github.com/pravega/pravega),为连续、无界数据提供新的存储抽象:流。经过Pravega抽象后的流式数据具有持久性、伸缩性、只追加等等一系列特性。

本系列文章将循序渐进、由浅入深地介绍Pravega的各个核心部件和工作机制,为读者逐层揭开流式存储引擎的神秘面纱。无论你是一名只关注产品特性的终端用户,还是热衷于探索分布式流式系统背后秘密的开发者,相信都能从本系列文章得到启发。

如何将索引大小减少99.5%?解读流式存储Pravega的段属性
如何将索引大小减少 99.5%?解读流式存储 Pravega 的段属性

在传统数据结构上使用创新的方法使得段存储可以为每个段有效管理 10 亿数量级的段属性。

在流式系统中如何引入Watermark支持:以Pravega和Flink为例
在流式系统中如何引入 Watermark 支持:以 Pravega 和 Flink 为例

如何能够更加精确地进行基于事件时间窗口的计算?Watermark 的概念应运而生。

如何利用Pravega的状态同步器解决分布式一致性问题
如何利用 Pravega 的状态同步器解决分布式一致性问题

StateSynchronizer 组件应用实例

取代ZooKeeper!高并发下的分布式一致性开源组件StateSynchronizer
取代 ZooKeeper!高并发下的分布式一致性开源组件 StateSynchronizer

高并发 (>= 10000 clients) 场景下可以替代 ZooKeeper 和 etcd

Pravega应用实战:为什么云原生特性对流处理很重要?
Pravega 应用实战:为什么云原生特性对流处理很重要?

本文主要介绍 Pravega 的云原生特性,核心组件,安装部署实践以及 Reader/Writer 的基本应用实践。

为什么说Pravega是流处理统一批处理的最后一块拼图?
为什么说 Pravega 是流处理统一批处理的最后一块拼图?

本文是分布式流存储 Pravega 专栏第一篇文章

没有更多了
构建下一代大数据架构:流式存储Pravega技术详解-InfoQ