2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001577

评论

发布
暂无评论
发现更多内容

开源!非凸Rust高性能日志库ftlog

非凸科技

【云原生】内存数据库如何发挥内存优势

石臻臻的杂货铺

数据库 SPL 11月月更

即时通讯技术文集(第4期):不为人知的网络编程 [共14篇]

JackJiang

Zepoch节点已售出500+,Zebec Chain市场反响激烈

鳄鱼视界

SpringMVC介绍及创建

鸭鸭yyds

springmvc 11月日更 11月月更

Python 实现栈的几种方式及其优劣

宇宙之一粟

Python 数据结构 11月月更

指南

Geek_02d948

webpack

【设计模式】-创建型模式-第2章第1讲-【单例模式】

跟着飞哥学编程

设计模式 单例模式 java 编程 11月月更

大咖说· 联蔚数科|如何做好一个业务中台?

大咖说

阿里云 业务中台 企业云服务

CSS3渐变-快来感受CSS的伟大吧(差点闪瞎我的狗眼)

肥晨

11月月更 css3渐变 conic-gradient

vue中的几个高级概念

yyds2026

Vue

webpack配置优化,让你的构建速度飞起

Geek_02d948

webpack

零基础参加web前端培训学习怎么样

小谷哥

几个你必须知道的React错误实践

xiaofeng

React

测试小白到月薪30K+的测试大佬学习路线图

千锋IT教育

大数据培训零基础应该注意什么

小谷哥

一路同行,再聚乌镇 | 旺链科技与你相约世界互联网大会

旺链科技

产业区块链 世界互联网大会 乌镇 企业号十月PK榜

Sanitizers 系列之 leak sanitizer 介绍

网易云信

系统

在VUE中使用vue-baidu-map获取经纬度和搜索地址

格斗家不爱在外太空沉思

Vue 百度地图 11月月更

如何更改 datax 以支持hive 的 DECIMAL 数据类型?

明哥的IT随笔

hadoop hive

【网易云信】Sanitizers 系列之 leak sanitizer 介绍

网易智企

vue3实战-完全掌握ref、reactive

yyds2026

前台小姐姐是如何转行测试,从月薪3000到月薪15K,实现逆袭

千锋IT教育

从事分布式工作10余年,这本书颠覆了我的认知!

博文视点Broadview

移动开发热更新技术选型盘点

Onegun

移动开发 热更新

webpack热更新原理(面试大概率会问)

Geek_02d948

webpack

【解决】前端开发中的5大痛点

GFE

前端

pyside6 qml 自定义边框

Mr_No爱学习

科普 | 关于NFT的概念、价值及应用

NFT Research

你要的react+ts最佳实践指南

xiaofeng

React

vue实战-完全掌握Vue自定义指令

yyds2026

Vue

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章