Pulsar 和 Kafka 基准测试报告(下)

  • 2021-01-28
  • 本文字数:5619 字

    阅读完需:约 18 分钟

为了更全面地了解 Pulsar 和 Kafka,我们“复现”了 Confluent 对 Pulsar 和 Kafka 基准测试。重复这一基准测试的原因有两个,一是 Confluent 的测试方法存在一些问题;二是 Confluent 的测试范围和测试场景不够全面。为了更准确地对比 Pulsar 和 Kafka,我们在测试中不仅修复了 Confluent 测试中的问题,还扩大了测试范围,纳入更多性能衡量标准,模拟更多实际场景。

和 Confluent 的测试相比,我们的测试主要有三项改进:

  1. 包含 Pulsar 和 Kafka 支持的所有持久性级别。在同等持久性级别下,对比二者的吞吐量和延迟。

  2. 引入影响性能的其他因素和测试条件,如分区数量、订阅数量、客户端数量等。

  3. 测试的混合负载同时包含写入、追赶读和追尾读,模拟实际使用场景。

我们进行了最大吞吐量测试、发布和端到端延迟测试、追赶读测试和混合工作负载测试(详见上篇)。由于篇幅有限,本篇主要介绍发布和端到端延迟测试详情。

发布和端到端延迟测试

测试目标:观测在处理发布和追尾读工作负载时 Pulsar 和 Kafka 可实现的最低延迟。

测试设置:通过调整订阅数量和分区数量,观测订阅数量和分区数量对发布延迟和端到端延迟的影响。

测试策略:

  • 将所有消息都复制三次,确保容错;

  • 改变 ack 数量,测试在不同持久性保证下,Pulsar 和 Kafka 吞吐量的差异;

  • 改变订阅数量(从 1 到 10),分别测试延迟;

  • 改变分区数量(从 100 到 10000),分别测试延迟;

  • 消息大小为 1KB;

  • 生产者以 200000/s(约 200MB/s)的固定速度发送消息,追尾读消费者在生产者持续发送消息时处理消息。

各项测试结果如下。

#1 100 个分区, 1 个订阅

我们从 100 个分区、1 个订阅开始,在所有不同持久性保证下,对 Pulsar 和 Kafka 能实现的最低延迟进行了基准测试。

测试证明,在所有持久性级别上,Pulsar 的发布延迟和端到端延迟都比 Kafka 低,是 Kafka 的 1/5 到 1/2。

发布延迟 - 同步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 10。表 2 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 延迟是 Kafka 的 1/3; 在同步复制持久性(ack-2)下是 Kafka 的 1/5。

图 10 Pulsar 和 Kafka 的发布延迟(数据同步)

表 2 Pulsar 和 Kafka 的实际发布延迟测试结果(数据同步)

为了更深入地了解延迟如何随时间变化,我们绘制了 Pulsar 和 Kafka 采取不同复制持久性设置时的 P99 延迟图。如图 11 所示,Pulsar 的延迟比较稳定(约 5 毫秒),但 Kafka 的延迟波动较大。对于关键任务服务(mission-critical services)来说,稳定、持续的低延迟至关重要。

图 11 Pulsar 和 Kafka 的 P99 延迟

端到端延迟--同步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 12。表 3 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 端到端延迟是 Kafka 的 1/3,在同步复制持久性(ack-2)下是 Kafka 的 1/5。

图 12 1 个订阅时,Pulsar 和 Kafka 的端到端延迟(数据同步)

表 3 1 个订阅时,Pulsar 和 Kafka 的实际端到端延迟测试结果(数据同步)

发布延迟 - 异步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 13。表 4 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Kafka 性能更优,但 Pulsar P99 发布延迟更稳定(低于 5 毫秒),增加复制持久性保证(从 ack-1 到 ack-2)并未影响延迟。在同步复制持久性(ack-2)下,Kafka P99 发布延迟是 Pulsar 的 2 倍

图 13 Pulsar 和 Kafka 的发布延迟(无数据同步)

表 4 Pulsar 和 Kafka 的实际发布延迟测试结果(无数据同步)

为了更深入地了解发布延迟如何随时间变化,我们绘制了 Pulsar 和 Kafka 在不同复制持久性设置下的 P99 发布延迟图。如图 14 所示,Pulsar 的延迟始终保持在较低的水平(低于 5 毫秒),而 Kafka 的延迟始终是 Pulsar 的 2 倍

图 14 不同复制持久性设置下,Pulsar 和 Kafka 的 P99 发布延迟

端到端延迟--异步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 15。表 5 为每种情况下的精确延迟数值。在所有情况下,Pulsar 的性能都优于 Kafka。Pulsar P99 端到端延迟保持稳定(约 5 毫秒),改变复制持久性设置对其并无影响。对于 ack-1,Kafka 的 P99 端到端延迟比 Pulsar 高;对于 ack-2,Kafka 的 P99 端到端延迟是 Pulsar 的 2 倍

图 15 1 个订阅时,Pulsar 和 Kafka 的端到端延迟(无数据同步)

表 5 1 个订阅时,Pulsar 和 Kafka 的实际端到端延迟测试结果(无数据同步)

#2 100 个分区, 10 个订阅

了解 Pulsar 和 Kafka 只有一个订阅时的性能后,我们想知道更改订阅数量会如何影响发布延迟和端到端延迟。于是我们把订阅数量从 1 增加到 10,并为每个订阅分配了 2 个消费者。

从表 6 的数据中可以看出,我们的测试结果表明:

  • Pulsar P99 发布延迟和端到端延迟保持在 5 到 10 毫秒之间。

  • 增加订阅数量会对 Kafka 的 P99 发布和端到端延迟产生巨大影响,导致延迟增加到几秒。

表 6 10 个订阅时,发布和端到端延迟的测试结果

发布延迟 - 同步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 16。表 7 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 发布延迟仍然是 Kafka 的 1/3。但在同步复制持久性(ack-2)下,Pulsar 的发布延迟是 Kafka 的 1/160(1 个订阅时,Pulsar 的发布延迟是 Kafka 的 1/5)。

图 16 10 个订阅时,Pulsar 和 Kafka 的发布延迟(数据同步)

表 7 10 个订阅时,Pulsar 和 Kafka 的实际发布延迟测试结果(数据同步)

端到端延迟--同步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 17。表 8 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 延迟是 Kafka 的 1/20,在同步复制持久性(ack-2)下是 Kafka 的 1/110 。

图 17 10 个订阅时,Pulsar 和 Kafka 的端到端延迟(数据同步)

表 8 10 个订阅时,Pulsar 和 Kafka 的实际端到端延迟测试结果(数据同步)

发布延迟 - 异步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 18。表 9 为每种情况下的精确延迟数值。Pulsar 的性能显著优于 Kafka。Pulsar 的平均发布延迟约为 3 毫秒,P99 延迟在 5 毫秒以内。Kafka 在异步复制持久性(ack-1)下性能令人满意,但在同步复制持久性(ack-2)下性能差了很多。在同步复制持久性下,Kafka 的 P99 发布延迟是 Pulsar 的 270 倍。

图 18 10 个订阅时,Pulsar 和 Kafka 的发布延迟(无数据同步)

表 9 10 个订阅时,Pulsar 和 Kafka 的实际发布延迟测试结果(无数据同步)

端到端延迟--异步本地持久性

使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 19。表 10 为不同情况下的精确延迟数值。在所有情况下,Pulsar 的性能始终优于 Kafka。Pulsar 的端到端延迟始终保持在 4~7 毫秒之间,改变复制持久性设置对其并无影响。对于 ack-1,Kafka 的 P99 端到端延迟是 Pulsar 的 13 倍;对于 ack-2,则是 187 倍。

图 19 10 个订阅时,Pulsar 和 Kafka 的端到端延迟(无数据同步)

表 10 10 个订阅时,实际端到端延迟测试结果(无数据同步)

#3 100, 5000, 8000, 10000 个分区

了解更改订阅数量会如何影响 Pulsar 和 Kafka 的发布延迟后,我们想更改分区数量,看看会产生什么效果。于是,我们把分区数量从 100 个累加到 10000 个,观察发生了什么变化。

测试数据见表 11,测试结果表明:

  • 分区数量增加时,Pulsar P99 发布延迟稳定在 5 毫秒内。

  • Kafka 的 P99 发布延迟受分区数量累加影响很大,延迟上升到几秒。

  • 分区数量超过 5000 后,Kafka 的消费者就跟不上发布吞吐量了。

表 11 不同 ack 和不同持久性下的实际发布延迟测试结果

Ack = 1,同步本地持久性

使用同步本地持久性和异步复制持久性 (ack = 1) 更改分区数量时,Pulsar 和 Kafka 发布和端到端延迟的差异分别如图 20 和图 21。

图 20 分区数量不同,ACK=1 时的发布延迟(数据同步)

图 21 分区数量不同,ACK=1 时的端到端延迟(数据同步)

表 12 显示了分区数量不同,ACK=1 时的实际发布延迟测试结果。表 13 显示了分区数量不同,ACK=1 时的实际端到端延迟测试结果。

表 12 分区数量不同,ACK=1 时的实际发布延迟测试结果(数据同步)

表 13 分区数量不同,ACK=1 时的实际端到端延迟测试结果(数据同步)

图 22 给出了分区数量不同,ACK=1 时 Pulsar 端到端的延迟。图 23 给出了分区数量不同,ACK=1 时 Kafka 端到端的延迟。

图 22 分区数量不同,ACK=1 时 Pulsar 的端到端延迟(数据同步)

图 23 分区数量不同,ACK=1 时 Kafka 的端到端延迟(数据同步)

从以上图表可以看出:

  • Pulsar P99 发布延迟稳定在 5 毫秒左右,更改分区数量对其并无影响。

  • Pulsar P99 端到端延迟稳定在 6 毫秒左右,更改分区数量对其并无影响。

  • Kafka 的 P99 发布延迟随着分区数量增加而逐渐拉长,在 10000 个分区时,其延迟增加了 5 倍(与 100 个分区时相比),比 Pulsar 的延迟高出 10 倍。

  • Kafka 的 P99 端到端延迟随着分区数量增加而逐渐拉长,在 10000 个分区时,其延迟高出 10000 倍(与 100 个分区时相比),增加到 180 秒,是 Pulsar 的 280000 倍。

Ack = 2,同步本地持久性

使用同步本地持久性和同步复制持久性(ack = 2)更改分区数量时,Pulsar 和 Kafka 发布延迟的差异如图 24。表 14 为每种情况下的精切延迟数值。

图 24 分区数量不同,ack=2/all 时的发布延迟(数据同步)

表 14 分区数量不同, ack=2/all 时的实际发布延迟测试结果(数据同步)

图 25 和图 26 分别显示了更改分区数量如何影响 Pulsar 和 Kafka 端到端的延迟。

图 25 分区数量不同,ack=2 时 Pulsar 的端到端延迟(数据同步)

图 26 分区数量不同,ack=2 时 Kafka 的端到端延迟(数据同步)

从以上图表可以看出:

  • Pulsar P99 发布延迟稳定在约 10 毫秒,增加分区数量对其并无影响。

  • 随着分区数量增加,Kafka 的 P99 发布延迟逐渐拉长;有 10000 个分区时,其延迟是 100 个分区的 30 倍,增加到 1.7 秒,是 Pulsar 的 126 倍。

  • Pulsar P99 端到端延迟稳定在约 10 毫秒,增加分区数量仅对 Pulsar P99 端到端延迟产生轻微影响。但即使有 10000 个分区,延迟仍相对较低,约为 50 毫秒。

  • 随着分区数量增加,Kafka 的 P99 端到端延迟逐渐拉长。有 10000 个分区时,Kafka P99 端到端延迟增加到 200 秒,是 Pulsar 的 14771 倍。

Ack = 1, Async 本地持久性

使用异步本地持久性和异步复制持久性(ack = 1)更改分区数量时,Pulsar 和 Kafka 发布延迟的差异如图 27。表 15 为不同情况下的精切延迟数值。

图 27 分区数量不同,ack=1 时的发布延迟(无数据同步)

表 15 分区数量不同,ack=1 时的实际发布延迟测试结果(无数据同步)

图 28 和图 29 分别显示了更改分区数量如何影响 Pulsar 和 Kafka 端到端的延迟。

图 28 分区数量不同,ack=1 时,Pulsar 端到端的延迟(无数据同步)

图 29 分区数量不同,ack=1 时,Kafka 端到端的延迟(无数据同步)

从以上图表可以看出:

  • Pulsar P99 发布延迟稳定在约 4~5 毫秒之间,增加分区数量对其并无影响。

  • Kafka P99 发布延迟随着分区数量增加而逐渐拉长,有 10000 个分区时,延迟增加到 41 毫秒,是有 100 个分区时的 13 倍,是 Pulsar 的 8 倍。

  • Pulsar P99 端到端延迟稳定在约 4~6 毫秒之间,增加分区数量仅对 Pulsar P99 端到端延迟产生轻微影响,但即使有 10000 个分区,它也保持在相对较低的水平(24 毫秒以内)。

  • 随着分区数量增加,Kafka P99 端到端延迟逐渐拉长。有 10000 个分区时,Kafka P99 端到端延迟高达 180 秒,是 Pulsar 的 34416 倍。

Ack = 2,异步本地持久性

使用异步本地持久性和同步复制持久性 (ack = 2)更改分区数量时,Pulsar 和 Kafka 发布延迟的差异如图 30。表 16 为每种情况下的精确延迟数值。

图 30 分区数量不同,ack=all/2 的发布延迟(无数据同步)

表 16 分区数量不同,ack=all/2 的实际发布延迟测试结果(无数据同步)

图 31 和图 32 分别显示了更改分区数量如何影响 Pulsar 和 Kafka 端到端的延迟。

图 31 分区数量不同,ack=2 时 Pulsar 的端到端延迟(无数据同步)

图 32 分区数量不同,ack=2 时 Kafka 的端到端延迟(无数据同步)

从以上图表可以看出:

  • Pulsar P99 发布延迟稳定在约 4~5 毫秒之间,增加分区数量对其并无影响。

  • 随着分区数量增加,Kafka P99 发布延迟逐渐拉长,有 10000 个分区时,其延迟增加到 1.7 秒,是 100 个分区时的 202 倍,是 Pulsar 的 278 倍。

  • Pulsar P99 端到端延迟稳定在约 4~6 毫秒之间,增加分区数量仅对其造成轻微影响,延迟仍保持在相对较低的水平(28 毫秒以内)。

  • 随着分区数量增加,Kafka P99 端到端延迟逐渐拉长。有 10000 个分区时,Kafka P99 端到端延迟增加到 200 秒,是 Pulsar 的 32362 倍。

结论

基于基准测试结果,我们得出以下结论:

  • 纠正配置和调优错误后,Pulsar 与 Kafka 在 Confluent 有限测试用例中实现的端到端延迟基本一致。

  • 在同等持久性保证下,Pulsar 在模拟实际应用场景的工作负载上性能优于 Kafka。

  • 以上测试中,改变了持久性保证设置、订阅、分区和客户端数量,结果表明 Pulsar 在延迟和 I/O 隔离方面均明显优于 Kafka。

原文链接:https://streamnative.io/en/blog/tech/2020-11-09-benchmark-pulsar-kafka-performance-report

相关阅读链接:https://www.infoq.cn/article/xeyeEeNNY5CG0PGyxeVD

Pulsar 用户调研:https://forms.office.com/Pages/ResponsePage.aspx?id=2zjkx2LkIkypCsNYsWmAs96ZDwmey39DhXAvi6EqbJpUNlZWQzRPMlVWNTc1WUcwUE5CWFMyUlI3QS4u