50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Pulsar 如何为批和流处理提供高效统一的数据存储

  • 2019-08-04
  • 本文字数:855 字

    阅读完需:约 3 分钟

Pulsar 如何为批和流处理提供高效统一的数据存储

在 QCon 北京 2019 大会上,翟佳讲师做了《Pulsar 如何为批和流处理提供高效统一的数据存储》主题演讲,主要内容如下。


演讲简介


大数据的处理方式主要分为两类,一类是基于有边界的历史静态数据的批处理;另一类是基于无边界的 event 和流数据的实时处理。


由于具体业务和大数据技术发展历程的原因,在实际应用中,批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同:近实时的流、事件数据通常使用消息队列、日志存储系统进行存储;而批处理所需要的静态数据,通常使用文件系统、对象存储进行存储。这就意味着,数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。


Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统,在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构,在保证大数据消息流系统的性能和吞吐量的同时,也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片,并且 Pulsar 提供了层级化存储功能,可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

  1. 什么是 Pulsar;

  2. 介绍 Pulsar 的分层和分片架构,以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架;

  3. 介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。

听众受益

  1. 理解批流一体的处理优势;

  2. 理解批处理和流处理对存储的不同需求;

  3. 深入理解 Apache Pulsar 的基础架构;

  4. 深入理解 Apache Pulsar 能匹配批流一体需求的原因。


讲师介绍


翟佳


StreamNative 核心工程师


翟佳是 Apache Pulsar 和 Apache BookKeeper 两个开源项目的 PMC 成员和 Committer。是 StreamNative 的核心工程师,曾任职于 EMC,是北京 EMC 实时处理平台的技术负责人。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:001660

评论

发布
暂无评论
发现更多内容

架构师培训大作业二——知识思维导图

chanson

Spring 5 中文解析数据存储篇-事务同步和声明式事物管理

青年IT男

Spring5

2020南京国际工业互联网及工业通讯展览会

InfoQ_caf7dbb9aa8a

英特尔揭示智能边缘重大机遇,助推产业智能变革

E科讯

java安全编码指南之:堆污染Heap pollution

程序那些事

Java java安全编码 java安全编码指南 堆污染

【API进阶之路】做OCR文字识别,谁说必须要有AI工程师?

华为云开发者联盟

API 文字识别 OCR

mysql union子句排序问题

LSJ

开发 SQL语法

What’s New in Dubbo-go-hessian2 v1.7.0

apache/dubbo-go

服务端 dubbo-go Go 语言

架构师训练营大作业

路易斯李李李

快讯2020第十三届南京国际智慧工地装备展览会

InfoQ_caf7dbb9aa8a

Golang领域模型-依赖倒置

奔奔奔跑

架构 微服务 领域驱动设计 DDD Go 语言

StringBuilder 比 String 快?空嘴白牙的,证据呢!

小傅哥

面试 小傅哥 string StringBuilder StringBuffer

展览工厂2020南京国际人工智能产品展览会

InfoQ_caf7dbb9aa8a

大作业 二

Jaye

亚洲2020第十三届南京国际智慧新零售暨无人售货展览会

InfoQ_caf7dbb9aa8a

zabbix 4.x一键部署脚本

edd

成为技术领导者-读书笔记

edd

架构知识总结

飞雪

架构师训练营技术知识点

devfan

一次年轻代GC长暂停问题的解决与思考

AI乔治

Java 架构 JVM 优化 GC调优

快讯2020第十三届南京国际大数据产业博览会

InfoQ_caf7dbb9aa8a

优选2020第十三届南京国际智慧停车展览会

InfoQ_caf7dbb9aa8a

听说你想进腾讯总部?这项黑科技你值得拥有!

腾讯云音视频

音视频

架构师训练营1期 - 第一周 - 食堂就餐卡系统设计

三板斧

极客大学架构师训练营

Vitalik Buterin: 协作的好坏两面

安比实验室SECBIT

区块链 博弈论 协作

架构师训练营第一周学习总结

尹斌

极客大学架构师训练营

实战中学习浏览器工作原理 — HTML 解析与 CSS 计算

三钻

CSS 大前端 浏览器

食堂就餐卡系统设计

熊桂平

系统设计 极客大学架构师训练营 UML

架构建模学习总结

林杭戴

极客大学架构师训练营

一代巨星的陨落!

小齐本齐

程序员 程序人生 职场

架构师训练营1期第1周:架构方法 - 作业

piercebn

极客大学架构师训练营

Pulsar 如何为批和流处理提供高效统一的数据存储_数据库_翟佳_InfoQ精选文章