【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001346

评论

发布
暂无评论
发现更多内容

Linux之telnet命令

入门小站

Linux

架构实战营毕设

Vic

架构实战营

Vue进阶(三十二):npm install、npm install --save与 npm install --save-dev 区别

No Silver Bullet

Vue 8月日更

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

Java 程序员 架构 面试 微服务

ISO-8601 如何解读

HoneyMoose

oeasy教您玩转vim - 16 - # 行内贴靠

o

摸鱼小技巧之IDEA调试篇一

4ye

Java debug 后端 IDEA 8月日更

【Dubbo3.0技术专题】总体技术体系介绍及技术指南(序章)

洛神灬殇

dubbo RPC 8月日更 Dubbo3

spring 循环依赖与三级缓存

Rubble

springboot 8月日更

阿里大牛最新公开压轴的“Redis深度笔记”,GitHub已标星81.6K

Java~~~

Java redis 架构 面试 架构师

飞书 + Lua 实现企业级组织架构登录认证

K8sCat

lua openresty 网关 飞书 组织架构

手撸二叉树之二叉树的中序遍历

HelloWorld杰少

数据结构与算法 8月日更

架构实战营毕业总结

Vic

架构实战营

Intellij运行Java程序启动等待BUG分享

FunTester

Java IDEA intellij bug

性能测试框架中实时QPS取样器实现

FunTester

性能测试 测试框架 QPS FunTester 取样器

聊聊Java数据类型的那些事

Bob

Java 后端 8月日更

「让我们一起Golang」怎样出让协程资源和设置可用CPU核心数

Regan Yue

高并发 协程 Go 语言 8月日更

Swift 仿自如 App 裸眼 3D 效果

fuyoufang

ios swift 8月日更

Java实现基于朴素贝叶斯的情感词分析

码农参上

Java 贝叶斯公式 文本情感分析 8月日更

B 端产品经理如何快速成长?

蒋川

数据产品经理 b端产品经理

对数字化的审视思维

boshi

数字化转型

rosedb 事务实践

roseduan

数据库 事务 存储 KV存储引擎

如何做好高并发系统设计

架构精进之路

高并发 8月日更

在线IP地址查询工具

入门小站

工具

【设计模式】迭代器模式

Andy阿辉

C# 后端 设计模式 8月日更

【Flutter 专题】67 图解基本约束 Box (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

Java 项目还需要 joda 吗

HoneyMoose

装机必备的软件里,绝对不能少了这一款 | 剪贴板增强工具

彭宏豪95

效率 工具 windows 实用工具

毕业总结

俞嘉彬

架构实战营

NDK 使用入门

Changing Lin

8月日更

数据库知识整理

十二万伏特皮卡丘

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章