![Pulsar 和 Kafka 基准测试报告(下)](https://static001.infoq.cn/resource/image/e5/80/e502507yy02d94085f1bcc95b145fe80.png)
为了更全面地了解 Pulsar 和 Kafka,我们“复现”了 Confluent 对 Pulsar 和 Kafka 基准测试。重复这一基准测试的原因有两个,一是 Confluent 的测试方法存在一些问题;二是 Confluent 的测试范围和测试场景不够全面。为了更准确地对比 Pulsar 和 Kafka,我们在测试中不仅修复了 Confluent 测试中的问题,还扩大了测试范围,纳入更多性能衡量标准,模拟更多实际场景。
和 Confluent 的测试相比,我们的测试主要有三项改进:
包含 Pulsar 和 Kafka 支持的所有持久性级别。在同等持久性级别下,对比二者的吞吐量和延迟。
引入影响性能的其他因素和测试条件,如分区数量、订阅数量、客户端数量等。
测试的混合负载同时包含写入、追赶读和追尾读,模拟实际使用场景。
我们进行了最大吞吐量测试、发布和端到端延迟测试、追赶读测试和混合工作负载测试(详见上篇)。由于篇幅有限,本篇主要介绍发布和端到端延迟测试详情。
发布和端到端延迟测试
测试目标:观测在处理发布和追尾读工作负载时 Pulsar 和 Kafka 可实现的最低延迟。
测试设置:通过调整订阅数量和分区数量,观测订阅数量和分区数量对发布延迟和端到端延迟的影响。
测试策略:
将所有消息都复制三次,确保容错;
改变 ack 数量,测试在不同持久性保证下,Pulsar 和 Kafka 吞吐量的差异;
改变订阅数量(从 1 到 10),分别测试延迟;
改变分区数量(从 100 到 10000),分别测试延迟;
消息大小为 1KB;
生产者以 200000/s(约 200MB/s)的固定速度发送消息,追尾读消费者在生产者持续发送消息时处理消息。
各项测试结果如下。
#1 100 个分区, 1 个订阅
我们从 100 个分区、1 个订阅开始,在所有不同持久性保证下,对 Pulsar 和 Kafka 能实现的最低延迟进行了基准测试。
测试证明,在所有持久性级别上,Pulsar 的发布延迟和端到端延迟都比 Kafka 低,是 Kafka 的 1/5 到 1/2。
发布延迟 - 同步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 10。表 2 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 延迟是 Kafka 的 1/3; 在同步复制持久性(ack-2)下是 Kafka 的 1/5。
![](https://static001.infoq.cn/resource/image/c8/1c/c8828bd53b91aca9a765f5291d20621c.png)
图 10 Pulsar 和 Kafka 的发布延迟(数据同步)
表 2 Pulsar 和 Kafka 的实际发布延迟测试结果(数据同步)
为了更深入地了解延迟如何随时间变化,我们绘制了 Pulsar 和 Kafka 采取不同复制持久性设置时的 P99 延迟图。如图 11 所示,Pulsar 的延迟比较稳定(约 5 毫秒),但 Kafka 的延迟波动较大。对于关键任务服务(mission-critical services)来说,稳定、持续的低延迟至关重要。
![](https://static001.infoq.cn/resource/image/9f/5b/9f49d0eabfeb36910b49b74a75d8f85b.png)
图 11 Pulsar 和 Kafka 的 P99 延迟
端到端延迟--同步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 12。表 3 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 端到端延迟是 Kafka 的 1/3,在同步复制持久性(ack-2)下是 Kafka 的 1/5。
![](https://static001.infoq.cn/resource/image/7d/3a/7d46b026cc1d195e535a47d5f1f42e3a.png)
图 12 1 个订阅时,Pulsar 和 Kafka 的端到端延迟(数据同步)
表 3 1 个订阅时,Pulsar 和 Kafka 的实际端到端延迟测试结果(数据同步)
发布延迟 - 异步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 13。表 4 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Kafka 性能更优,但 Pulsar P99 发布延迟更稳定(低于 5 毫秒),增加复制持久性保证(从 ack-1 到 ack-2)并未影响延迟。在同步复制持久性(ack-2)下,Kafka P99 发布延迟是 Pulsar 的 2 倍。
![](https://static001.infoq.cn/resource/image/98/2b/98e9918b1b4aee849a6d4d169942792b.png)
图 13 Pulsar 和 Kafka 的发布延迟(无数据同步)
表 4 Pulsar 和 Kafka 的实际发布延迟测试结果(无数据同步)
为了更深入地了解发布延迟如何随时间变化,我们绘制了 Pulsar 和 Kafka 在不同复制持久性设置下的 P99 发布延迟图。如图 14 所示,Pulsar 的延迟始终保持在较低的水平(低于 5 毫秒),而 Kafka 的延迟始终是 Pulsar 的 2 倍。
![](https://static001.infoq.cn/resource/image/86/ae/86b22dda18605492ce4344370ae7f1ae.png)
图 14 不同复制持久性设置下,Pulsar 和 Kafka 的 P99 发布延迟
端到端延迟--异步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 15。表 5 为每种情况下的精确延迟数值。在所有情况下,Pulsar 的性能都优于 Kafka。Pulsar P99 端到端延迟保持稳定(约 5 毫秒),改变复制持久性设置对其并无影响。对于 ack-1,Kafka 的 P99 端到端延迟比 Pulsar 高;对于 ack-2,Kafka 的 P99 端到端延迟是 Pulsar 的 2 倍。
![](https://static001.infoq.cn/resource/image/4f/2f/4fe43f34203a939fd78b4f0e9a94f22f.png)
图 15 1 个订阅时,Pulsar 和 Kafka 的端到端延迟(无数据同步)
表 5 1 个订阅时,Pulsar 和 Kafka 的实际端到端延迟测试结果(无数据同步)
#2 100 个分区, 10 个订阅
了解 Pulsar 和 Kafka 只有一个订阅时的性能后,我们想知道更改订阅数量会如何影响发布延迟和端到端延迟。于是我们把订阅数量从 1 增加到 10,并为每个订阅分配了 2 个消费者。
从表 6 的数据中可以看出,我们的测试结果表明:
Pulsar P99 发布延迟和端到端延迟保持在 5 到 10 毫秒之间。
增加订阅数量会对 Kafka 的 P99 发布和端到端延迟产生巨大影响,导致延迟增加到几秒。
表 6 10 个订阅时,发布和端到端延迟的测试结果
发布延迟 - 同步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 16。表 7 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 发布延迟仍然是 Kafka 的 1/3。但在同步复制持久性(ack-2)下,Pulsar 的发布延迟是 Kafka 的 1/160(1 个订阅时,Pulsar 的发布延迟是 Kafka 的 1/5)。
![](https://static001.infoq.cn/resource/image/16/d6/16a6e45bdyyfe063240c59aea7c308d6.png)
图 16 10 个订阅时,Pulsar 和 Kafka 的发布延迟(数据同步)
表 7 10 个订阅时,Pulsar 和 Kafka 的实际发布延迟测试结果(数据同步)
端到端延迟--同步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和同步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 17。表 8 为每种情况下的精确延迟数值。在异步复制持久性(ack-1)下,Pulsar P99 延迟是 Kafka 的 1/20,在同步复制持久性(ack-2)下是 Kafka 的 1/110 。
![](https://static001.infoq.cn/resource/image/ff/49/ffba1f49278e1531c4f353c8ae934b49.png)
图 17 10 个订阅时,Pulsar 和 Kafka 的端到端延迟(数据同步)
表 8 10 个订阅时,Pulsar 和 Kafka 的实际端到端延迟测试结果(数据同步)
发布延迟 - 异步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 发布延迟的差异如图 18。表 9 为每种情况下的精确延迟数值。Pulsar 的性能显著优于 Kafka。Pulsar 的平均发布延迟约为 3 毫秒,P99 延迟在 5 毫秒以内。Kafka 在异步复制持久性(ack-1)下性能令人满意,但在同步复制持久性(ack-2)下性能差了很多。在同步复制持久性下,Kafka 的 P99 发布延迟是 Pulsar 的 270 倍。
![](https://static001.infoq.cn/resource/image/9a/2d/9a63b1e6a8f914c8b23a00dca439872d.png)
图 18 10 个订阅时,Pulsar 和 Kafka 的发布延迟(无数据同步)
表 9 10 个订阅时,Pulsar 和 Kafka 的实际发布延迟测试结果(无数据同步)
端到端延迟--异步本地持久性
使用两种复制持久性设置(分别为 ack-1 和 ack-2)和异步本地持久性时,Pulsar 和 Kafka 端到端延迟的差异如图 19。表 10 为不同情况下的精确延迟数值。在所有情况下,Pulsar 的性能始终优于 Kafka。Pulsar 的端到端延迟始终保持在 4~7 毫秒之间,改变复制持久性设置对其并无影响。对于 ack-1,Kafka 的 P99 端到端延迟是 Pulsar 的 13 倍;对于 ack-2,则是 187 倍。
![](https://static001.infoq.cn/resource/image/6a/34/6aaa289389c4a607949fbfdce178df34.png)
图 19 10 个订阅时,Pulsar 和 Kafka 的端到端延迟(无数据同步)
表 10 10 个订阅时,实际端到端延迟测试结果(无数据同步)
#3 100, 5000, 8000, 10000 个分区
了解更改订阅数量会如何影响 Pulsar 和 Kafka 的发布延迟后,我们想更改分区数量,看看会产生什么效果。于是,我们把分区数量从 100 个累加到 10000 个,观察发生了什么变化。
测试数据见表 11,测试结果表明:
分区数量增加时,Pulsar P99 发布延迟稳定在 5 毫秒内。
Kafka 的 P99 发布延迟受分区数量累加影响很大,延迟上升到几秒。
分区数量超过 5000 后,Kafka 的消费者就跟不上发布吞吐量了。
表 11 不同 ack 和不同持久性下的实际发布延迟测试结果
Ack = 1,同步本地持久性
使用同步本地持久性和异步复制持久性 (ack = 1) 更改分区数量时,Pulsar 和 Kafka 发布和端到端延迟的差异分别如图 20 和图 21。
![](https://static001.infoq.cn/resource/image/0b/e1/0b6ec2e8afc745a2b96ab46f64c187e1.png)
图 20 分区数量不同,ACK=1 时的发布延迟(数据同步)
![](https://static001.infoq.cn/resource/image/8f/11/8f7669e4363a3476788ced67f9fd8511.png)
图 21 分区数量不同,ACK=1 时的端到端延迟(数据同步)
表 12 显示了分区数量不同,ACK=1 时的实际发布延迟测试结果。表 13 显示了分区数量不同,ACK=1 时的实际端到端延迟测试结果。
表 12 分区数量不同,ACK=1 时的实际发布延迟测试结果(数据同步)
表 13 分区数量不同,ACK=1 时的实际端到端延迟测试结果(数据同步)
图 22 给出了分区数量不同,ACK=1 时 Pulsar 端到端的延迟。图 23 给出了分区数量不同,ACK=1 时 Kafka 端到端的延迟。
![](https://static001.infoq.cn/resource/image/dd/8e/dd6fc4a2169b5f2c687dd677df95388e.png)
图 22 分区数量不同,ACK=1 时 Pulsar 的端到端延迟(数据同步)
![](https://static001.infoq.cn/resource/image/f6/92/f63a2195bc40c587529aa19b313f5a92.png)
图 23 分区数量不同,ACK=1 时 Kafka 的端到端延迟(数据同步)
从以上图表可以看出:
Pulsar P99 发布延迟稳定在 5 毫秒左右,更改分区数量对其并无影响。
Pulsar P99 端到端延迟稳定在 6 毫秒左右,更改分区数量对其并无影响。
Kafka 的 P99 发布延迟随着分区数量增加而逐渐拉长,在 10000 个分区时,其延迟增加了 5 倍(与 100 个分区时相比),比 Pulsar 的延迟高出 10 倍。
Kafka 的 P99 端到端延迟随着分区数量增加而逐渐拉长,在 10000 个分区时,其延迟高出 10000 倍(与 100 个分区时相比),增加到 180 秒,是 Pulsar 的 280000 倍。
Ack = 2,同步本地持久性
使用同步本地持久性和同步复制持久性(ack = 2)更改分区数量时,Pulsar 和 Kafka 发布延迟的差异如图 24。表 14 为每种情况下的精切延迟数值。
![](https://static001.infoq.cn/resource/image/fc/4e/fc16d7dbb7df1dec268914a7aa68c34e.png)
图 24 分区数量不同,ack=2/all 时的发布延迟(数据同步)
表 14 分区数量不同, ack=2/all 时的实际发布延迟测试结果(数据同步)
图 25 和图 26 分别显示了更改分区数量如何影响 Pulsar 和 Kafka 端到端的延迟。
![](https://static001.infoq.cn/resource/image/59/45/59cfbe12e99465c501510b4e5428e945.png)
图 25 分区数量不同,ack=2 时 Pulsar 的端到端延迟(数据同步)
![](https://static001.infoq.cn/resource/image/f4/40/f45a915c2473d850fb3c775939ff1c40.png)
图 26 分区数量不同,ack=2 时 Kafka 的端到端延迟(数据同步)
从以上图表可以看出:
Pulsar P99 发布延迟稳定在约 10 毫秒,增加分区数量对其并无影响。
随着分区数量增加,Kafka 的 P99 发布延迟逐渐拉长;有 10000 个分区时,其延迟是 100 个分区的 30 倍,增加到 1.7 秒,是 Pulsar 的 126 倍。
Pulsar P99 端到端延迟稳定在约 10 毫秒,增加分区数量仅对 Pulsar P99 端到端延迟产生轻微影响。但即使有 10000 个分区,延迟仍相对较低,约为 50 毫秒。
随着分区数量增加,Kafka 的 P99 端到端延迟逐渐拉长。有 10000 个分区时,Kafka P99 端到端延迟增加到 200 秒,是 Pulsar 的 14771 倍。
Ack = 1, Async 本地持久性
使用异步本地持久性和异步复制持久性(ack = 1)更改分区数量时,Pulsar 和 Kafka 发布延迟的差异如图 27。表 15 为不同情况下的精切延迟数值。
![](https://static001.infoq.cn/resource/image/0c/d6/0c02b4488399e82ce8e6f1674f0038d6.png)
图 27 分区数量不同,ack=1 时的发布延迟(无数据同步)
表 15 分区数量不同,ack=1 时的实际发布延迟测试结果(无数据同步)
图 28 和图 29 分别显示了更改分区数量如何影响 Pulsar 和 Kafka 端到端的延迟。
![](https://static001.infoq.cn/resource/image/32/ac/329f3651ef8bfe94c210c402702101ac.png)
图 28 分区数量不同,ack=1 时,Pulsar 端到端的延迟(无数据同步)
![](https://static001.infoq.cn/resource/image/96/98/96e667ac0efd732ffa0yyc0a0448d598.png)
图 29 分区数量不同,ack=1 时,Kafka 端到端的延迟(无数据同步)
从以上图表可以看出:
Pulsar P99 发布延迟稳定在约 4~5 毫秒之间,增加分区数量对其并无影响。
Kafka P99 发布延迟随着分区数量增加而逐渐拉长,有 10000 个分区时,延迟增加到 41 毫秒,是有 100 个分区时的 13 倍,是 Pulsar 的 8 倍。
Pulsar P99 端到端延迟稳定在约 4~6 毫秒之间,增加分区数量仅对 Pulsar P99 端到端延迟产生轻微影响,但即使有 10000 个分区,它也保持在相对较低的水平(24 毫秒以内)。
随着分区数量增加,Kafka P99 端到端延迟逐渐拉长。有 10000 个分区时,Kafka P99 端到端延迟高达 180 秒,是 Pulsar 的 34416 倍。
Ack = 2,异步本地持久性
使用异步本地持久性和同步复制持久性 (ack = 2)更改分区数量时,Pulsar 和 Kafka 发布延迟的差异如图 30。表 16 为每种情况下的精确延迟数值。
![](https://static001.infoq.cn/resource/image/a7/e9/a7a1f13c29956babf847bdb99b6cf0e9.png)
图 30 分区数量不同,ack=all/2 的发布延迟(无数据同步)
表 16 分区数量不同,ack=all/2 的实际发布延迟测试结果(无数据同步)
图 31 和图 32 分别显示了更改分区数量如何影响 Pulsar 和 Kafka 端到端的延迟。
![](https://static001.infoq.cn/resource/image/a7/18/a7877d3a4f482eyy7e507fec84508a18.png)
图 31 分区数量不同,ack=2 时 Pulsar 的端到端延迟(无数据同步)
![](https://static001.infoq.cn/resource/image/49/0d/499814de1989a4b8fa0a2ef497cd0c0d.png)
图 32 分区数量不同,ack=2 时 Kafka 的端到端延迟(无数据同步)
从以上图表可以看出:
Pulsar P99 发布延迟稳定在约 4~5 毫秒之间,增加分区数量对其并无影响。
随着分区数量增加,Kafka P99 发布延迟逐渐拉长,有 10000 个分区时,其延迟增加到 1.7 秒,是 100 个分区时的 202 倍,是 Pulsar 的 278 倍。
Pulsar P99 端到端延迟稳定在约 4~6 毫秒之间,增加分区数量仅对其造成轻微影响,延迟仍保持在相对较低的水平(28 毫秒以内)。
随着分区数量增加,Kafka P99 端到端延迟逐渐拉长。有 10000 个分区时,Kafka P99 端到端延迟增加到 200 秒,是 Pulsar 的 32362 倍。
结论
基于基准测试结果,我们得出以下结论:
纠正配置和调优错误后,Pulsar 与 Kafka 在 Confluent 有限测试用例中实现的端到端延迟基本一致。
在同等持久性保证下,Pulsar 在模拟实际应用场景的工作负载上性能优于 Kafka。
以上测试中,改变了持久性保证设置、订阅、分区和客户端数量,结果表明 Pulsar 在延迟和 I/O 隔离方面均明显优于 Kafka。
原文链接:https://streamnative.io/en/blog/tech/2020-11-09-benchmark-pulsar-kafka-performance-report
相关阅读链接:https://www.infoq.cn/article/xeyeEeNNY5CG0PGyxeVD
评论 2 条评论