Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章



 写点什么

登录/注册

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上，翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲，主要内容如下。

演讲简介：

大数据的处理方式主要分为两类，一类是基于有边界的历史静态数据的批处理；另一类是基于无边界的 event 和流数据的实时处理。

由于具体业务和大数据技术发展历程的原因，在实际应用中，批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同：近实时的流、事件数据通常使用消息队列、日志存储系统进行存储；而批处理所需要的静态数据，通常使用文件系统、对象存储进行存储。这就意味着，数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。

Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统，在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构，在保证大数据消息流系统的性能和吞吐量的同时，也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片，并且 Pulsar 提供了层级化存储功能，可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

什么是 Pulsar；
介绍 Pulsar 的分层和分片架构，以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架；
介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合，提供批流一体的高效的数据存储。

听众受益

理解批流一体的处理优势；
理解批处理和流处理对存储的不同需求；
深入理解 Apache Pulsar 的基础架构；
深入理解 Apache Pulsar 能匹配批流一体需求的原因。

讲师介绍：

翟佳

StreamNative 核心工程师

翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师，曾任职于 EMC，是北京 EMC 实时处理平台的技术负责人。

完整演讲 PPT 下载链接：

https://qcon.infoq.cn/2019/beijing/schedule

评论

发布

暂无评论

话说cas

木子的昼夜

职场求生攻略答疑篇之 5 —— 我，程序员，非常焦虑

什么是职业

28天写作 3月日更

LeetCode题解：518. 零钱兑换 II，动态规划，JavaScript，详细注释

算法大前端 LeetCode

冰河公开了进大厂的核心技能，服了！

程序员面试大厂技能硬核技能图谱

优雅编程 | javascript代码优化的15个小知识

ES6 JS代码优化 JS迭代

面试被吊打系列 - Redis原理

数据库架构面试

SRS流媒体服务器源码分析--RTMP消息play

音视频流媒体 SRS 流媒体开发

Apache Ranger的部署安装

大数据技术指南

大数据 3月日更

更新60篇的复盘：持续书写，见证文字的力量

写作七日更

如何用python优雅的写论文

28天写作 3月日更

vm

28天写作 3月日更

翻译：《实用的Python编程》04_02_Inheritance

Python 继承 inheritance

芯翌科技领跑NIST-FRVT戴口罩人脸识别评测，助力后疫情时代科技创新

搞定计算机网络的常见面试问题

程序员成长第二十三篇：员工不符合预期，怎么办？

程序员 28天写作职场经验管理经验 3月日更

拼多多五面面经（Java岗），全面涵盖Java基础到高并发级别

Java架构之路

Java 程序员架构面试编程语言

女神营业！云通信产品运营带你玩转号码隐私保护：网约车、外卖等O2O行业的最佳实践

阿里云Edge Plus

云通信通信云

2021金三银四必备：“基础-中级-高级”Java程序员面试复习路线

Java 编程程序员架构面试

Go语言学习笔记：抓取XKCD中文站的漫画

新人报道

Wireshark数据包分析学习笔记Day5

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

准备参加软考的小伙伴注意了！

IT蜗壳 3月日更

redis工作原理(上)

28天写作 3月日更 21天挑战

几千次的重复提交，我用 SpringBoot+Redis 居然扛住了！

redis 后端 springboot 幂等

雪花算法，到底是个啥？

架构精进之路

算法七日更 3月日更

线上MySQL读写分离，出现写完读不到问题如何解决

程序员历小冰

MySQL 读写分离

十四五，鹏城应作先锋看，山河同襄智能体

接口测试--apipost接口断言详解

测试人生路

容器 & 服务：K8s 与 Docker 应用集群 (四)

程序员架构进阶

Docker Kubernetes 容器 28天写作 3月日更

one day