写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001711

评论

发布
暂无评论
发现更多内容

DeFi模式:去中心化金融架构与流动性池设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

金九银十春招必看的2025年Java高频面试题汇总(附答案)

Geek_Yin

Java 编程 程序员 java面试 Java面试题

ETLCloud可能遇到的问题有哪些?常见坑位解析

谷云科技RestCloud

数据处理 ETL 数据集成工具 实时数据集成 离线数据集成

大数据-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件

武子康

大数据 hadoop mapreduce hive

跨链模式:多链互操作架构与性能扩展方案

区块链软件开发推广运营

dapp开发 链游开发 公链开发 公链开发代币开发 链游开发交易所开发

创业,是加速“祛魅”最有效的办法

程序员郭顺发

C# 模式匹配全解:原理、用法与易错点

量贩潮汐·WholesaleTide

C#

Go 切片拷贝性能揭示:大切片总体拷贝时间更长,但单元素成本更低

异常君

Go 性能 内存 优化 切片

为什么别人工资比你高?「程序员性能优化手册」你有吗

Geek_Yin

Java 编程 程序员

一文搞懂K8s中的RBAC认证授权

不在线第一只蜗牛

Kubernetes 容器 云原生

内网im,局域网环境下BeeWorks 如何保障数据安全?

BeeWorks

即时通讯 企业级应用

跨端生态×AI赋能:移动研发模式的双擎驱动

xuyinyin

DePIN代币正构建 Web3 和 AI 融合的新范式

PowerVerse

AI Web 3.0 DAO DePIN gpu 算力

HarmonyOS NEXT应用开发-Notification Kit(用户通知服务)通知类型、级别与渠道

李洋-蛟龙腾飞

从CPU冒烟到丝滑体验:算法SRE性能优化实战全揭秘|得物技术

得物技术

cpu

HarmonyOS运动开发:打造你的专属运动节拍器

王二蛋和他的张大花

鸿蒙 os

视觉与图像识别自动化测试 | 音频转文字

测试人

人工智能

拒绝停服,随时回退:MS SQL 到 ≈ 的无缝数据库双向迁移方案

tapdata

容灾备份 高可用数据库迁移 mssql迁移 sqlserver迁移 双向同步

DAO模式:去中心化治理与代币激励设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

“深时数字地球”新进展!科学智能助推地球科学研究范式变革

ModelWhale

科学智能 地球科学 AI4S DDE深时数字地球

Go版本的JetCache缓存框架终于来啦

daoshenzzg

Go 缓存 开源

低代码“偷懒”技巧,我建议全公司学!

引迈信息

Java集合源码--ArrayList的可视化操作过程

电子尖叫食人鱼

Java 算法

Java面试高频核心宝典(含答案)

Geek_Yin

Java 程序员 java面试 Java面试题

从20年架构师的视角解读高性能Java架构核心知识点!

程序员高级码农

Java 程序员

BeeWorks im即时通讯软件:政企通讯首选

BeeWorks

即时通讯 IM 企业级应用

腾讯云TencentOS Server AI,助力荣耀打造高性能AI底座

极客天地

博睿数据×华为, 共筑智慧金融新未来

博睿数据

详细教程!Ollama本地部署新版DeepSeek-R1,如何实现远程访问?

贝锐

内网穿透 DeepSeek R1 模型

甘其果:以《道德经》智慧破局生鲜零售,缔造社区水果新标杆

极客天地

ES Serverless 8.17王牌发布:向量检索「火力全开」,智能扩缩「秒级响应」!

阿里云大数据AI技术

大数据 运维 数据处理 Server 向量检索

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章