写点什么
构建下一代大数据架构:流式存储Pravega技术详解

构建下一代大数据架构:流式存储Pravega技术详解

策划: 蔡芳芳

当前的大数据处理系统无论是何种架构都面临一个共同的问题,即:“计算是原生的流计算,而存储却不是原生的流存储” 。

针对这一问题,DellEMC开发并开源了流式数据存储引擎Pravega(https://github.com/pravega/pravega),为连续、无界数据提供新的存储抽象:流。经过Pravega抽象后的流式数据具有持久性、伸缩性、只追加等等一系列特性。

本系列文章将循序渐进、由浅入深地介绍Pravega的各个核心部件和工作机制,为读者逐层揭开流式存储引擎的神秘面纱。无论你是一名只关注产品特性的终端用户,还是热衷于探索分布式流式系统背后秘密的开发者,相信都能从本系列文章得到启发。

为什么说Pravega是流处理统一批处理的最后一块拼图?
为什么说 Pravega 是流处理统一批处理的最后一块拼图?

本文是分布式流存储 Pravega 专栏第一篇文章

Pravega应用实战:为什么云原生特性对流处理很重要?
Pravega 应用实战:为什么云原生特性对流处理很重要?

本文主要介绍 Pravega 的云原生特性,核心组件,安装部署实践以及 Reader/Writer 的基本应用实践。

取代ZooKeeper!高并发下的分布式一致性开源组件StateSynchronizer
取代 ZooKeeper!高并发下的分布式一致性开源组件 StateSynchronizer

高并发 (>= 10000 clients) 场景下可以替代 ZooKeeper 和 etcd

在流式系统中如何引入Watermark支持:以Pravega和Flink为例
在流式系统中如何引入 Watermark 支持:以 Pravega 和 Flink 为例

如何能够更加精确地进行基于事件时间窗口的计算?Watermark 的概念应运而生。

如何将索引大小减少99.5%?解读流式存储Pravega的段属性
如何将索引大小减少 99.5%?解读流式存储 Pravega 的段属性

在传统数据结构上使用创新的方法使得段存储可以为每个段有效管理 10 亿数量级的段属性。

最新性能测试:Kafka、Pulsar 和 Pravega 哪个最强?
最新性能测试:Kafka、Pulsar 和 Pravega 哪个最强?

Pravega 读写性能评估

HDFS廉颇老矣?基于对象存储的数据湖构建新思路
HDFS 廉颇老矣?基于对象存储的数据湖构建新思路

如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。

没有更多了

Leader修炼指“北”:管理路上的大小Boss

Leader修炼指“北”:管理路上的大小Boss

构建下一代大数据架构:流式存储Pravega技术详解-InfoQ