写点什么

为什么要选择 Apache Pulsar(二)

  • 2017-11-27
  • 本文字数:1772 字

    阅读完需:约 6 分钟

这是介绍 Apache Pulsar 关键特性系列文章的第二篇。Pulsar 是由 Yahoo 开发并开源的下一代发布订阅消息系统。在第一篇文章里,我们介绍了Pulsar 对消息模型的灵活支持、多租户、多地域复制和持久性。在这一篇文章里,我们将继续介绍Pulsar 的IO 隔离机制、伸缩性、安全模型、多语言API 和易操作性。

读写IO 隔离

在大多数消息系统里,消费者的速度延迟会导致性能下降。同一个主题的消费者,如果其中一个出现速度延迟,就会影响到其他速度更快的消费者。这是因为慢消费者强制要求消息系统从存储里获取数据,导致IO 出现抖动,降低吞吐量。那些需要将数据先加载到内存里的消费者就会受到影响。导致这一问题的原因主要是读操作和写操作共享同一个执行路径。

Pulsar 通过使用 BookKeeper 作为存储系统解决了这一问题。有了 BookKeeper,Pulsar 就可以为读操作和写操作提供不同的执行路径,实现 IO 隔离。常规的读操作直接由 Pulsar broker 处理,写操作使用 BookKeeper 的预写式日志(WAL),Catch-up 读使用 BookKeeper 的后端存储设备。

对于系统中消息的发布,在任何情况下都能提供可控的,可预计的延迟是十分重要的。有了 IO 隔离,即使在磁盘承受高负载的读操作时,仍然能够保证消息的发布延迟是很低的、可以预计的。

伸缩性

消息系统的可伸缩性也是很重要的。发布订阅消息系统的伸缩性可以从以下几个维度来衡量:

  • 高吞吐量——Pulsar 的高吞吐量,通过最大限度的使用磁盘带宽(IOPS)来实现。吞吐量取决于消息的大小,例如,如果消息的大小为 1KB,那么 Pulsar 可以达到每秒 120MB 的吞吐量。但如果消息很小,比如只有 10 个字节,那么吞吐量可能只有 1.8M 每秒。这两种结果都是基于单个发布者向一个主题(topic)分区写入消息而得出的,99% 的写入延迟都在 5 毫秒以内。
  • 主题数量——主题伸缩性是发布订阅消息系统用以支持海量主题的一项能力。Pulsar 可以支持从几百到百万级别的主题数量的扩展,同时还能一直保持良好的性能。主题的伸缩性取决于数据的组织和存储方式。如果一个主题的数据被保存在单独的文件或目录里,就会影响伸缩性,因为磁盘的 IO 是分散的,这些文件会定期从页面缓存冲刷到磁盘上。不过 Pulsar 的数据保存在 bookie(BookKeeper 服务器)上,不同主题的消息被聚合起来,经过排序,保存到大文件里,并进行索引。Pulsar 也因此能够支持大量的主题。

安全

Pulsar 支持可插拔的认证机制,可以通过配置使用多种认证实现。认证的目的是为了建立客户端标识,并为客户端分配一个角色令牌。这个令牌被用来判断一个客户端可以做哪些操作。Pulsar 提供了两个默认的认证实现:TLS 客户端认证和 AthenZ (由 Yahoo 开发的一种基于角色的认证系统)。

多语言 API

应用程序可以通过多种编程语言与 Pulsar 发生交互。Pulsar 为三种主流语言提供了官方的客户端: C++ Java Python 。用户可以根据实际需要选择一种客户端。这些客户端 API 非常直观,而且在不同语言之间保持了一致性。另外,Pulsar 的官方客户端还为不同风格的应用程序提供了同步和异步两种读写操作。同步和异步的语义是一样的:要么阻塞方法等待操作完成,要么返回一个 Future 对象用于追踪操作是否完成。

运维成熟度

Pulsar 易于管理,你可以在系统运行的同时加入新的 broker 节点和存储节点来扩展容量。如果一个存储节点宕机,后台进程会自动将宕机节点所包含的数据从其他节点上的可用副本中复制到可用的存储节点上。Pulsar 为集群管理提供了多种方式,可以使用命令行工具,也可以使用 Java 库或 REST API。后者提供了更大灵活性,你可以基于它们开发自己的管理工具或者与已有的工具结合在一起使用。

企业级

Yahoo 设计 Pulsar 是为了解决现有开源消息系统存在的一些问题和场景。满足了高吞吐量(处理数千亿个消息)、强持久性保证和低延迟的需求。Pulsar 已经在 Yahoo 运行了三年,支持着 140 万个主题,99% 延迟低于 5 毫秒,部署在 10 多个数据中心(启用了全网格复制),已经处理了超过 100 万亿个消息。

总结

Pulsar 是下一代发布订阅消息系统,弥补了其他开源消息系统的不足。在这两篇文章里,我们介绍了 Pulsar 的各种关键特性,并解释了 Pulsar 如何通过使用 broker 和 bookie 来实现 IO 隔离,以及它如何支持企业级的特性,如持久性、多租户、多地域复制、高吞吐量和主题伸缩。

查看英文原文 Why Apache Pulsar? Part 2

感谢杜小芳对本文的审校。

2017-11-27 17:183564
用户头像

发布了 322 篇内容, 共 150.2 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

培训学习前端开发技术好吗?

小谷哥

Open Office XML 格式里如何描述多段具有不同字体设置的段落

汪子熙

xml 微软 Office 8月月更 openOffice

StoneDB 文档捉虫活动第一季

StoneDB

MySQL 数据库 开源 大数据 开源 8月月更

Java反射机制清空字符串导致业务异常分析

华为云开发者联盟

Java 开发

人脸考勤是选择人脸比对1:1还是人脸搜索1:N?

夏夜许游

人脸识别 人脸考勤

可视化服务编排在金融APP中的实践

京东科技开发者

可视化 BFF 金融 Obsuite

毕业总结

Elvis FAN

了解大数据培训机构的过程

小谷哥

从脚本到剪辑,影像大师亲授的后期制作秘籍

博文视点Broadview

嘉为蓝鲸荣获工信部“数字技术融合创新应用解决方案”

嘉为蓝鲸

DevOps 运维 AIOPS 信创 研发

百度用户产品流批一体的实时数仓实践

百度Geek说

数据库 大数据

一文读懂NFT数字藏品为何风靡全球?

智捷云

用低代码驱动IT现代化

力软低代码开发平台

多线程下自旋锁设计基本思想

snlfsnef

系统设计 设计模式 锁机制 自旋锁 多线程并发

一起畅聊「云+操作系统」!龙蜥社区亮相阿里巴巴开源开放周,完整议程来了

OpenAnolis小助手

数据库 操作系统 龙蜥社区 阿里巴巴开源开放周 开源共享

不止跑路,拯救误操作rm -rf /*的小伙儿

华为云开发者联盟

开发 配置文件 OM脚本

个推数据资产管理经验 | 教你打造数据质量心电图,智能检测数据“心跳”异常

个推

大数据 数据智能 数据资产管理 数据质量保障 数据异常检测

制品库是什么?

雨后小溪

DevOps Artifactory 制品库 制品仓库 Packages

StarRocks on AWS 回顾 | Data Everywhere 系列活动深圳站圆满结束

StarRocks

数据库

国内首个微服务开发项目(Vue+Spring Boot+Nacos)

冉然学Java

Java 源码 微服务 Spring Cloud 开发

web前端培训费用是多少

小谷哥

Netty进阶 -- 非阻塞网络编程 实现群聊+私聊+心跳检测系统

Bug终结者

Netty 8月月更

模块九 - 设计电商秒杀系统

Elvis FAN

太香了!自从用了这款接口神器,我的团队效率提升了 60%!

Java永远的神

Java 程序员 程序人生 项目 Apifox

阿里内部共享,彩印图文版《Elasticsearch实战》文档,堪称经典!

冉然学Java

Java elasticsearch 开源 阿里 构架

从《中国视频云市场跟踪》最新报告,看视频云的赛道演进

阿里云CloudImagine

视频云 市场

阿里云贾朝辉:云XR平台支持彼真科技呈现国风科幻虚拟演唱会

阿里云弹性计算

视觉计算 虚拟演唱会 云XR平台 GPU实例

2022年裁员潮,失业程序员何去何从?

千锋IT教育

Kyligence 通过 SOC 2 Type II 审计,以可信赖的企业级产品服务全球客户

Kyligence

国际权威鉴证标准 企业级数据分析

培训机构学习费用是多少呢?

小谷哥

如何培养ui设计师的设计思维?

小谷哥

为什么要选择Apache Pulsar(二)_开源_Karthik Ramasamy_InfoQ精选文章