写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001622

评论

发布
暂无评论
发现更多内容

Java中的遍历(遍历集合或数组的几种方式)

keaper

Java List 遍历

MySQL是如何实现可重复读的?

超超不会飞

MySQL

第二周学习框架设计总结

三板斧

极客大学架构师训练营

华为:与全球180万云与计算开发者共成长,共创行业新价值

华为云开发者联盟

第二周

等燕归

第二周总结

等燕归

金融科技推进数字金融“新基建”,着力建设三种类型数字金融基础设施

CECBC

金融 科技 科技革命

架构师训练营第二周心得

CmHuang

请描述什么是依赖倒置原则,为什么有时候依赖倒置原则又被称为好莱坞原则?

orchid9

架构训练营 - 第 2周课后作业 - 学习总结

Pudding

[架构师训练营第1期]第二周学习总结

猫切切切切切

极客大学架构师训练营

#第二周作业

vitaminc

第二周课后练习

薛凯

作业-2020-09-27

芝麻酱

graylog日志分析系统上手教程

MySQL从删库到跑路

Apache Linux 运维 日志分析 实时 Web 日志分析器

架构师训练营—第二周学习总结

Geek_shu1988

架构师训练营 Week2 作业 1

lucian

极客大学架构师训练营

案例分析--反应式编程框架Flower的设计

张荣召

为什么区块链巨头企业一定会诞生在中国的原因分析

CECBC

区块链 科技

从四个问题透析Linux下C++编译&链接

华为云开发者联盟

c++ Linux 编程

架构师训练营第二周学习总结

薛凯

架构师训练营—第二周作业

Geek_shu1988

架构师训练营 - 第 2 周课后作业(1 期)

Pudding

深入理解JVM垃圾回收算法 - 标记整理算法

Skye

标记整理 双指针算法 Lisp2 引线整理算法

第 2 周 作业

Pyr0man1ac

架构师训练营 Week2 作业 2【学习总结】

lucian

极客大学架构师训练营

OOA-OOD:面向对象分析/设计练习

张荣召

国内首个区块链村正式落地:数字经济的裂变之路

CECBC

区块链 数字经济

一个草根的日常杂碎(9月26日)

刘新吾

社会百态 生活随想 时评杂谈

面向对象设计原则----接口分离原则(ISP)

张荣召

架构师训练营 1 期 - 第二周总结(vaik)

行之

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章