雅虎开源发布 / 订阅消息平台 Pulsar

  • Abel Avram
  • 张卫滨

2016 年 9 月 12 日

话题:Java开源语言 & 开发架构

雅虎发布了其发布 - 订阅消息平台Pulsar,这个平台在他们内部已经用在了多项服务的生产环境之中。

按照雅虎的说法,Pulsar 是一个低延迟的发布 / 订阅消息系统,它可以进行水平扩展,跨多个主机和数据中心。雅虎从 2015 年第二季度开始,就一直在邮件、财经、Gemini Ads、Sherpa(雅虎的分布式 key-value 服务——译注)以及体育相关的功能中使用 Pulsar。通过将其开源,他们希望 Pulsar 能够与其他开源项目进行集成,从而促使它得到广泛的应用。雅虎已经将 Pulsar 部署到了十个以上的数据中心中,在超过 140 万主题(topic)的情况下,达到了每天 1000 亿条消息,而平均的发布延迟时间在 5 毫秒以内。Pulsar 能够保证消息的正常投递,并会为消息提供两个持久化副本、针对消息读者的自动化游标管理以及跨数据中心的复制。

我们可以搭建 Pulsar 来提供消息即服务(messaging-as-a-service)功能,使其运行在一个集群或多个集群上,并且能够通过 API 对其进行管理:添加 / 移除用户、添加计算和存储容量、核算和监控等等。客户端(包括生产者和消费者)都会作为租户(tenant),它们能够通过一个 Java 库来访问这些功能。这个库会负责服务发现、消息投递以及其他相关的任务。

Pulsar 采用了主题的理念,将其作为消息生产者和消费者之间的媒介。生产者会采用同步或异步的方式将消息发送到主题上。消息可以进行批量处理或压缩(LZ4 和 ZLIB)。客户端通过订阅的方式来消费消息,处理过程可以进行排除(exclusive)、共享(round-robin)或故障恢复。

为了保证消息的投递,Pulsar 会通过Apache BookKeeper ledger(指的是独立的 log——译注)将消息持久化到稳定的存储中。读取和写入会指向不同的物理磁盘,从而尽可能降低发布带来的延迟。雅虎确认如果采用 SSD 作为 bookie(指的是 Bookkeeper 的主机——译注) journal 设备的话,Pulsar“在保证两个副本和完全有序的情况下,能够保证第 99 个百分位(99 percentile)达到 5 毫秒”。

雅虎将来计划支持非持久化的消息,从而减少消息 broker 之间主题迁移的时间,目标是从现在的 10 秒降低到 1 秒以下,将消息发布的第 99.9 个百分位达到 5 毫秒以下(目前是第 99 个百分位),并且还要支持除了 Java 以外的其他客户端语言。

查看英文原文Yahoo! Open Sources Pulsar, a Pub/Sub Messaging Platform

Java开源语言 & 开发架构