写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001679

评论

发布
暂无评论
发现更多内容

Linux云计算之linux grep命令详解

学神来啦

云计算 Linux 运维 grep

恒源云(GpuShare)_这个春天,GpuShare与你同行

恒源云

抗疫

自己动手写Docker系列 -- 5.2实现查看运行中的容器

Docker

Jira API的六种传参方式

FunTester

性能测试 FunTester

洞见科技成为华东江苏大数据交易中心会员单位,创始人姚明获颁「年度数字经济卓越领袖奖」

洞见科技

数据中心 隐私计算 数据交易

Nydus 镜像加速插件迁入 Containerd 旗下

SOFAStack

“互联网+”

祖传代码如何优化性能?

捉虫大师

性能优化

行程码带星喜提八天(杂记篇)

金松(李博源)

游记 旅行

Flutter 多选底部弹层实现详解

岛上码农

flutter ios 移动端开发 3月月更 安卓开发

Ubuntu 笔记本关闭合上盖子自动休眠

信号量

Linux ubuntu SSH 笔记本 盖子

Linux之yum命令

入门小站

Linux

长连接网关技术专题(七):小米小爱单机120万长连接接入层的架构演进

JackJiang

网络编程 websocket 即时通讯 网关 长连接

跨境电商数据融合实践|OceanBase 助力致欧家居打造分布式跨境电商

OceanBase 数据库

oceanbase 致欧家居

大数据项目实施的成功与失败

金松(李博源)

数据中台 数据产品经理 数据治理 数据资产

架构设计作业一

yang

安全Linux 内核提权漏洞分析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

墨天轮访谈 | Pika数据库陈磊:云时代下,键值数据库是否会被替代?

墨天轮

数据库 KV存储引擎 国产数据库

在线Js,JavaScript压缩格式化工具

入门小站

工具

OpenHarmony 3.1 Beta版本关键特性解析——探秘隐式查询

OpenHarmony开发者

OpenHarmony 隐式查询

AI+Science系列(一) :飞桨加速CFD(计算流体力学)原理与实践

百度大脑

1-2月热点:度目发布煤矿电子封条解决方案,AI助力生产安全,推进煤矿智能化建设

百度大脑

在线JSON转XML工具

入门小站

工具

Hoo研究院|2022年第一季度发生在区块链行业的投融大事件

区块链前沿News

虎符交易所 虎符研究院

2022钉钉发布会|云钉低代码新模式、新能力、新机遇

一只大光圈

低代码 数字化 钉钉宜搭 宜搭

融云互联网通信安全揭秘之链路安全

融云 RongCloud

网络安全

MASA Blazor入门这一篇就够了

MASA技术团队

C# .net 组件 组件库

龙蜥社区一周动态 | 3.14-3.18

OpenAnolis小助手

开源 操作系统 龙蜥社区 一周动态

智慧党建系统开发建设

a13823115807

OceanBase 社区 Webinar 首播官宣|社区版 RoadMap 和性能调优!周四见

OceanBase 数据库

OceanBase 社区版

春天到了,连AI都开始瘦身……

白洞计划

火狐浏览器如何设置代理?火狐浏览器代理服务器设置教程

喀拉峻

网络安全

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章