写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001631

评论

发布
暂无评论
发现更多内容

Flink CDC 系列 - Flink MongoDB CDC 在 XTransfer 的生产实践

Apache Flink

大数据 flink 编程 实时计算 IT

免费下载!FFA 系列专刊|《Flink CDC 新一代数据集成框架》电子书

Apache Flink

大数据 flink 编程 实时计算 IT

netty系列之:可以自动通知执行结果的Future,有见过吗?

程序那些事

Java Netty 程序那些事

大咖集结,共创生态|AIOps社区专家团正式集结出道

云智慧AIOps社区

开源项目 开源社区 智能运维 开发者社区 社区治理

HBase的 rowkey 设计原则

编程江湖

HBase 架构

女生不适合当程序员?XTransfer这位程序员妈妈绝了!生娃半年内升职加薪

XTransfer技术

技术人 程序媛 XTransfer

使用APICloud AVM框架开发预约应用

YonBuilder低代码开发平台

前端框架 APP开发 APICloud 跨端开发 小程序开发

数据安全产品之堡垒机详细介绍-行云管家

行云管家

网络安全 防火墙 数据安全 堡垒机

低代码实现探索(二十六)移动端H5开发

零道云-混合式低代码平台

OpenMLDB在AKULAKU实时特征计算场景的应用

第四范式开发者社区

机器学习 大数据 OpenMLDB 特征平台

架构训练营 week6 作业

红莲疾风

「架构实战营」

大数据开发之Flink + TiDB

@零度

flink 大数据开发

从 Flink Forward Asia 2021,看 Flink 未来开启新篇章

Apache Flink

大数据 flink 编程 实时计算

WorkPlus移动数字化平台赋能新型智慧城市建设

BeeWorks

Flink 大规模作业调度性能优化

Apache Flink

大数据 flink 编程 实时计算

针对 jQuery 的优化方法有哪些

编程江湖

🏆【Alibaba中间件技术系列】「Nacos技术专题」配置中心加载原理和配置实时更新原理分析(中)

码界西柚

nacos 配置中心 Alibaba 1月日更 Apache alibaba

有一群青年人,用热爱连接起科技与智慧生活的“双向奔赴”

最新动态

足球、篮球、花样滑冰、乒乓球四大运动的动作识别通用方案开源了

百度大脑

人工智能

初识MASA Blazor

MASA技术团队

C# .net 微软 后端 blazor

Redis OM .NET Redis对象映射框架

MASA技术团队

C# .net 微软 后端 redis'

Apache Flink ML 2.0.0 发布公告

Apache Flink

大数据 flink 编程 实时计算

MyBatis的功能架构是怎样的

编程江湖

mybatis

教程直播第7期|如何对 OceanBase 进行 SQL 诊断和调优

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版 OceanBase教程

mark: mac 开启chrome webrtc 日志

webrtc developer

chrome WebRTC

技术升级!国内公有云厂商首个支持保留消息功能

百度开发者中心

物联网

销量之王,去年程序员最爱看的技术书就是它!

博文视点Broadview

龙头整机厂商宝德加入,共建龙蜥社区开源新生态

OpenAnolis小助手

Linux 开源 合作伙伴

Alink、Tensorflow on Flink 在京东的应用

Apache Flink

大数据 flink 编程 实时计算 Alink

工商银行实时大数据平台建设历程及展望

Apache Flink

大数据 flink 编程 实时计算

Pravega Flink Connector Table API 进阶功能探秘

Apache Flink

大数据 flink 编程 实时计算 Pravega

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章