Java 实时系统扩容：事件驱动设计的隐性权衡

事件驱动架构已成为构建可伸缩分布式系统的默认首选方案。其核心优势极具吸引力：松耦合、独立伸缩、故障隔离，以及无需紧密同步依赖即可处理海量吞吐量的能力。对于实时协作平台（如呼叫中心、统一通信系统和视频会议）而言，这些特性似乎是为它们量身定制的。

我花了数年时间构建和扩展一个云呼叫中心平台，该平台在高峰时段可处理八万余次呼叫完成量（BHCC），支持一万名并发座席，每日处理超五百万笔业务。我们全面采用事件驱动架构，以 Apache Kafka 作为主要消息总线。但产出的复杂结果却是架构图纸永远无法体现的。

本文并非要否定事件驱动设计，而是客观阐述仅在生产环境中才会暴露的各类取舍权衡，尤其是对于实时响应能力不是锦上添花而是产品核心硬性要求的系统来说。

根本矛盾：架构默认异步，业务需求实时

呼叫中心平台对系统性能要求极为严苛。当座席接听来电时，UI 必须在毫秒级内刷新状态，而不是秒级。当主管查看团队仪表盘时，过时的在线状态数据并非小事情，它会实时影响人力调度决策。

事件驱动架构本质上是异步的。每条 Kafka 消息的发布、消费和处理都会在每一跳增加延迟。在微服务架构中，单个用户操作会触发下游事件链，包括路由引擎、座席状态服务、在线状态服务和 UI 通知服务，这些延迟会不断累积。

我们发现，在座席拨打外呼电话时，UI 要延迟两到三秒才会刷新通话状态。在峰值负载期间，来电接听事件偶尔未能及时传播，导致源端超时。从技术层面看系统本身运行无误，事件均能正常处理，但管道的异步特性违背了产品必须满足的实时响应约束。

我们从中得到的经验教训是：事件驱动架构非常适合可接受最终一致性的场景。在实时通信系统中，对于一些关键路径（如呼叫信令、座席状态转换和在线状态更新）来说，最终一致性等同于功能故障。这些路径需要同步或近乎同步的通信机制，而非异步事件管道。

缓存不匹配问题：伪装之下的分布式状态

事件驱动架构的一大典型优势是：每个服务可基于事件流维护自身本地状态。这种架构摒弃了共享数据库和紧耦合关系。然而，在实时协同平台的实际落地场景中，这种方案会产生一个隐蔽而危险的问题：多服务实例间出现缓存数据不一致。

在我们的系统中，每个微服务都维护一个基于 Kafka 事件构建的本地内存缓存。在正常条件下，所有服务实例消费相同的事件流并保持一致的状态。但在网络出现分区、消费者滞后和部分重启等异常边界场景下，不同实例的状态就会出现分歧。

这个问题不会报错或抛出异常，而是静默的错误：语音和聊天交互的工单会卡在座席 UI 上，展示的状态与实际情况不匹配。由于不匹配发生在跨 Pod 的内存缓存之间，标准的监控体系无法发现。座席会反馈卡死的工单，但等工程师介入排查时，状态往往已经自行恢复。在某些情况下，工单会卡住超过二十四小时才被发现和解决。

正是这个问题促使我们引入 Redis 作为共享状态存储，这也是我们状态管理方案迭代的第三代架构，后文会对此展开详细说明。

三代状态管理演进

我们在状态管理策略上的探索或许是整个系统中最具借鉴意义的演进脉络，整个过程共历经三代架构设计，每一代都解决了前一代存在的痛点，同时又引入了自身的问题。

第一代：Kafka 全局状态存储

我们第一代方案采用 Kafka Streams 全局状态存储，这是 Kafka 的内置机制，可将主题数据同步复制至所有容器实例，让每个实例都持有一份完整的共享状态本地副本。这种方法当初看起来十分理想：所有 Pod 实例无需发起网络请求就能完整获取全部状态数据。

这种方法有同步延迟问题。全局状态存储通过 Kafka 的变更日志主题进行异步复制。在高负载情况下下，Pod 之间的复制延迟十分明显。对于实时呼叫中心，这种延迟是不可接受的。Pod A 和 Pod B 会同时持有同一座席呼叫状态的不同版本。Pod A 做出的路由决策可能与 Pod B 稍后做出的决策冲突。用户状态和呼叫状态会短暂出现数据不一致，这类问题很难被监测到，并且几乎无法在测试环境复现。

第二代：通过 Kafka 重放构建的本地内存缓存

解决同步延迟的方法是彻底放弃全局状态存储，让每个 Pod 基于 Kafka 事件流构建自己的本地内存缓存。每个事件携带一个头部标志（CREATED、UPDATED 或 DELETED），Pod 独立维护自己的状态，不进行跨 Pod 同步，也没有复制延迟。

这种设计解决了一致性问题，但引入了两个新问题。首先是启动延迟：冷启动的 Pod 必须重放整个积压事件从零开始重建缓存。在我们的系统中，重放每个 Pod 事件大约需要五分钟，这会导致 Kubernetes 水平 Pod 自动扩缩器（HPA）失效，因为负载峰值触发的新 Pod 在重建状态期间有五分钟不可用。其次是边界异常场景（如网络分区、消费者滞后和部分重启）：不同的 Pod 实例会出现分歧，产生前述的缓存不匹配问题——工单卡住超过二十四小时，以及标准监控无法发现的静默错误。

第三代：带弹性层的 Redis 共享缓存

最终架构用 Redis 作为共享状态存储取代了本地缓存。Kafka 事件更新 Redis，所有 Pod 直接从 Redis 读取数据。这种直接读取数据的方式解决了跨 Pod 不一致和启动重放问题。

启动延迟降低了 60%。Pod 从 Redis 加载数据初始化，而不是重放数千条 Kafka 事件。但将 Redis 引入关键路径需要弹性策略，Redis 中断不能导致座席状态完全瘫痪。

我们的解决方案是新增静默恢复线程。在 Pod 启动时，如果 Redis 不可用或数据未完整加载，后台线程会基于 Kafka 事件流静默重建 Redis 缓存，全程不阻塞 Pod 对外提供服务。Pod 会以降级状态先行启动，随着恢复线程逐步填充 Redis 数据，状态持续完善，无需等待五分钟才能开始处理业务流量。

如图 1 所示，这种设计为我们提供了共享状态的一致性、热缓存的快速启动以及恢复路径的弹性，同时还避免了前三代所有的原始故障模式。

图 1：三代状态管理演进

我们得到的经验是：事件驱动系统中的状态管理并非已有标准答案，而是一系列权衡取舍，这些权衡只有在生产负载下才会出现。全局状态存储会带来同步延迟，本地缓存会导致启动耗时与数据分叉，共享缓存会产生可用性依赖。关键在于从架构设计之初就同时针对这三类故障模式做好预案：使用 Redis 作为共享权威状态，快照初始化用于启动速度，后台恢复线程用于弹性。不要等到生产故障接连发生才逐一补齐这些能力。

分区限制：水平伸缩的隐藏天花板

Kafka 的伸缩模型理论上十分精巧：只需增加分区、增加消费者，就能实现线性伸缩。但在多服务共用消息主题的生产环境中，实际会受到诸多限制。

在我们的架构中，大流量主题有 12 个分区，中等流量主题有 6 个，低流量主题有 3 个。Kafka 消费者群组的设计使得每个主题的最大活跃消费者数等于分区数。如果部署的消费者 Pod 超过分区数，多余的 Pod 就会闲置，消耗内存和计算资源但对吞吐量却毫无贡献。

对于被多个服务共同消费的共享主题，这种设计带来了一个硬性上限：我们无法将单个服务独立扩展至超过分区数，除非为所有消费者承担闲置 Pod 的成本。

解决该问题最直观的办法是增加分区数量，但这种方案会衍生出新的问题。对正在运行的 Kafka 主题重新分区会触发消费者群组再均衡。在再均衡期间，消费者处于暂停状态。对于实时呼叫中心来说，任何暂停都会对业务运行造成严重影响。生产环境触发再均衡的风险使得扩容分区的操作具备极高风险，最终我们只能沿用初次部署时设定的分区数量。

我们最终通过 Redis 解决了这个问题。将共享状态从 Kafka 主题移到 Redis 显著减少了跨服务主题依赖，将过度碎片化的微服务整合为内聚的功能服务减少了竞争分区的消费者群组数量。这两项调整都属于事后补救措施，是受生产环境故障倒逼而出，并非前期规划好的架构设计。

从中总结的经验：在架构设计阶段就要谨慎确定分区数量，因为上线后很难安全地调整分区；尽可能避免多个服务共用同一主题，按服务单独拆分主题，能让各团队拥有独立的伸缩能力。最后需要注意的是，Kafka 的水平伸缩能力受分区数量约束，而非算力资源。

跨集群事件传播：去重带来的性能损耗

我们的平台跨越两个 Azure Kubernetes Service 集群——UI 框架在一个集群中，后端路由核心在另一个集群中，语音交换机单独运行在谷歌云上。这种拓扑结构引入了一个消息去重问题，这也是系统最重要的延迟来源之一。

UI 通过 gRPC 与后端通信，有独立的上游和下游通道。由于所有后端 gRPC Pod 都订阅了同一通道，每条 UI 消息会被全部 Pod 同时接收。如果不做消息去重，每个 Pod 都会单独处理同一事件并发布重复的下游消息。

我们的第一个解决方案是使用 Kafka 实现去重。所有 gRPC Pod 使用 call_id 作为分区键将接收到的消息写入原始 Kafka 主题。由于 Kafka 保证相同分区键的消息落在同一分区中，单个消费者 Pod 会接收到给定通话的所有重复消息。该实例会读取第一条消息，并丢弃其余消息，并发布到去重后的下游主题。

这个解决方案在功能上能够正常运行，但引入了叠加延迟问题。Kafka 消费者默认轮询间隔为 100 毫秒，因此每个事件在经历一个跳点时至少会产生 100 毫秒延迟。去重模式为每次 UI 交互增加了两个完整的 Kafka 跳点：一个到原始主题，一个从去重主题到下游服务。仅按最小轮询间隔计算，在下游服务看到事件之前、在进行处理之前、在发出 REST 调用之前、在产生跨集群网络开销之前，就已经有 200 毫秒的延迟。

我们最终用 Redis 的“先写获胜（First-Write-Wins）”模式（如图 2 所示）取代了基于 Kafka 的去重。第一个成功在 Redis 中声明 call_id 键的 Pod 成为指定处理器，其余所有处理器立即丢弃本条消息。这种方法省去了原始消息主题，并从关键路径中移除了一个 Kafka 跳点。

图 2：Redis 先写获胜跨集群去重

本次得到的经验：在延迟敏感的路径上使用 Kafka 作为去重机制代价高昂。轮询间隔在每个跳点创造了不可避免的延迟下限。对于实时系统来说，基于 Redis 的协调模式消除了这个下限，应当作为跨实例消息去重的首选。

JVM 特定考量：Java 带来的额外取舍问题

上文所述的故障模式属于架构层面问题，与开发所用编程语言无关。但基于 JVM、采用 Java 构建这个系统会衍生出额外的性能约束，Java 架构师需要重点关注。

Spring Boot 启动开销

Spring Boot 应用上下文初始化会占用可观的启动时长，在此之后 Kafka 消费者才能就绪并处理消息。在我们的系统中，Spring Boot 上下文初始化在 Kafka 消费者注册开始前增加了大约 30 到 45 秒的 Pod 启动时间。结合前述的 Kafka 事件重放问题，最坏情况下总 Pod 启动时间接近六分钟，这导致 HPA 自动扩缩问题相比轻量级运行时严重得多。

两项变更直接解决了这个问题：spring.main.lazy-initialization=true 的懒初始化将 Bean 创建推迟到首次使用时，而转向 Redis 快照初始化消除了 Kafka 重放阶段。这些变更在常规场景下将 Spring Boot Pod 启动时间降至 90 秒以下。

高吞吐量 Kafka 消费下的 GC 压力

在峰值负载下——八万次高峰时段呼叫和五百万日业务量——Kafka 消息反序列化、对象创建和状态操作给 JVM 堆带来了巨大的 GC 压力。我们观察到在峰值期间出现 Stop-the-World GC 暂停，导致消费者滞后。在峰值消费期间经历 200 到 400 毫秒 GC 暂停的 Pod 会落后于分区生成事件的速率，堆积的消息延迟往往需要数分钟才能恢复。

升级至 JDK 17 是收效最显著的一项优化。JDK 17 对 G1GC（G1 垃圾回收器）做了改进，无需额外配置就能大幅降低 GC 停顿的发生频次。除 JDK 版本升级外，三个 JVM 参数调优进一步叠加了优化效果：配置 G1GC 停顿目标参数 -XX:MaxGCPauseMillis=100，为 GC 停顿时长设定明确上限，减少业务峰值下长时间停顿的出现概率；开启分层编译 -XX:+TieredCompilation，让 JVM 在方法执行不同阶段结合解释执行、C1 轻量编译优化、C2 深度编译优化降低 Kafka 消费高频方法与核心状态管理代码路径的 CPU 开销；在持续业务峰值下，CPU、内存占用优化效果可量化观测；引入对象池机制，对频繁创建销毁的消息包装对象做池化复用，减轻内存分配压力、降低 GC 触发频率。这些优化组合让系统在业务峰值下的 CPU、内存占用均控制在合理区间。对比升级 JDK 17 之前的基准环境，本次优化改善十分明显 —— 此前 GC 压力始终是消费者消息堆积突增的主要诱因。

JDK 21 虚拟线程

JDK 21 的虚拟线程直接解决了这类问题。使用虚拟线程的 Kafka 消费者可以在不阻塞底层载体线程的情况下进行阻塞 REST 调用，允许 JVM 在 I/O 完成时调度其他任务。虽然本文所述故障发生时该特性尚未可用，但对于无法完全规避下游同步调用的 Java 版 Kafka 消费者，值得尝试该方案。

本次得到的经验：搭建基于 Kafka 实时系统的 Java 架构师应当将 Spring Boot 启动耗时、GC 停顿以及消费线程中的阻塞 IO 视为架构的重要考量点，而非单纯的实现细节。JDK 21 虚拟线程能有效解决阻塞 IO 问题，而 GC 调优与延迟初始化则可优化启动开销。务必提前针对这些细节做好规划。

Kafka Streams 与 RocksDB 性能陷阱

我们的几个服务使用 Kafka Streams 进行有状态事件流处理，将 Agent 事件、UserFeature 事件和 VoiceAgent 事件连接成统一的 UserAggregate 事件。从理论层面看，Kafka Streams 是正确的工具：它提供了精确一次处理语义、内置状态管理和 Kafka 深度集成。

但实际上，其性能特征并不适配实时呼叫中心的业务负载场景。

Kafka Streams 使用 RocksDB 作为中间聚合的嵌入式状态存储。RocksDB 是高性能磁盘键值存储，对于批处理和近实时工作负载来说速度很快，但不是内存级水平。对于座席状态变化需要在数百毫秒内完成传播的平台，RocksDB 物化的磁盘 I/O 开销增加了在开发和测试中不可见但在生产负载下十分显著的延迟。

我们没有直接测量 RocksDB 的压缩延迟，但性能退化在峰值负载下的端到端座席状态传播中是可观察到的。根本原因在于拓扑的设计：Kafka Streams 管道中的每个转换器阶段都会维护自己的中间状态存储，保存在 RocksDB 中。当数据源与数据输出端之间有多个转换器阶段时，RocksDB 的读/写操作在每个阶段都会叠加。经评估，转换器阶段更少的拓扑或完全绕过 RocksDB 的普通 Kafka 消费者，保守估计可将状态存储读/写开销降低约 30%。由压缩引发的延迟在流量高峰期最为明显，此时 RocksDB 后台压缩任务会和负责实时状态查询的前台读写操作直接争抢系统资源。

更深层的问题出在消费者群组设计上。同一消费者群组同时消费源主题（如 Agent、UserFeature 和 VoiceAgent）和连接操作产生的内部 UserAggregate 主题。源主题的滞后直接使聚合消费者处于等待状态——单个慢分区上游可能导致整个连接管道延迟。

本次得到的经验：Kafka Streams 非常适用于数据分析与准实时业务场景，这类场景能够接受 RocksDB 的磁盘存储所带来的性能损耗。对于亚秒级实时场景，应最小化转换器阶段，以便减少 RocksDB 物化点——每个中间状态存储在压缩任务执行时都会成倍放大延迟。源主题和派生主题的独立消费者群组必须拆分独立。共享消费者群组在处理流程之间造成了隐性的耦合。在可能的情况下，为延迟敏感路径选择以 Redis 为后端的普通 Kafka 消费者，而不是使用 RocksDB 的 Kafka Streams。

级联故障：当下游延迟阻塞上游消费者时

我们经历过的最严重的生产事件不是单一故障，而是由单个慢 REST API 调用向上游传播导致整个管道的级联故障。

故障场景为批量坐席开通操作：管理员通过管理 UI 触发最多一万名座席的批量开通操作，将事件发布到一个只有三个分区的 Kafka 主题。我们的服务消费这些事件，并调用下游 REST API 在客户端云平台完成每个座席的开通配置。管理 UI 对整批批量操作设置了总计 30 分钟的超时限制。

本次故障链路存在四项叠加恶化的问题。首先，只有三个分区，Kafka Streams 为每个分区使用两个线程，总共最多只有六个线程处理一万个座席开通事件。其次，每个消费者线程向下游服务发出同步阻塞 REST 调用。当下游 REST API 在高负载下触发服务降级时，这六个线程阻塞。当线程被阻塞时，Kafka 消息消费完全停止。第三，开通流程需要将每个座席的三个独立事件（如 Agent、UserFeature 和 VoiceAgent）连接成 UserAggregate，这导致有三万条消息流经三个分区。第四，共享消费者群组设计导致原始事件堆积与聚合事件堆积相互叠加。

消费者滞后累积时长超过 30 分钟，管理 UI 超时被触发。批量开通操作失败，但不是完全失败。一些座席已在客户端开通，另一些则没有。系统处于不一致状态，且没有自动数据恢复机制。

修复需要做出两项重大架构变更。首先，三个独立的开通事件合并为单个事件，将消息量减少三分之二并完全移除内部连接主题。其次，同步 REST 调用被 Redis 队列取代。消费者线程将开通请求写入 Redis 并立即返回，由独立的异步工作线程池独立处理 REST 调用。消费者线程再也不会被下游延迟阻塞。

数据部分不一致问题——一些座席在客户端开通而另一些没有——需要进行手动协调。故障恢复团队将客户端开通系统已确认的记录与管理 UI 操作的预期开通清单进行交叉比对。确认为已在客户端开通但平台内部状态缺失的座席，借助幂等检查机制单独重新触发：每次开通调用包含唯一操作 ID，下游系统拒绝已处于开通状态的重复开通请求。在客户端侧开通失败的坐席则被筛选出来，送入改造后的流水线重新排队处理。手动协调工作花了大约三个小时。

优化效果是可量化的：消费者滞后降低了约 50%，借助 Redis 的队列持久性，开通操作操作变得可安全重启，失败的 REST 调用会自动重试而无需从 Kafka 重新消费消息。

本次得到的经验：Kafka 消费者线程内的同步阻塞调用是架构隐患。单个慢的下游依赖可能阻塞整个主题的消费，并通过管道将延迟向上游传播。任何必须调用外部服务的消费者线程都应该通过写入持久队列进行异步化。消费线程是核心宝贵资源，其唯一职责仅为拉取消息并转交异步处理，绝不允许发生阻塞。

如果重新设计，我会怎么做

回顾过去，五个架构决策会显著改变我们的轨迹：

对延迟敏感操作使用同步路径。呼叫信令、座席状态转换和 UI 通知应该使用同步或低延迟发布订阅通信（如 WebSockets 或 gRPC 流），而非 Kafka。Kafka 仅用于持久、非延迟敏感的业务：分析、审计日志和下游 CRM 同步。

从一开始就使用具有弹性能力的 Redis 共享缓存。与其经历三代状态管理的演变——全局状态存储、本地缓存，再到 Redis——不如一开始就将 Redis 作为实时状态存储，用快照初始化实现快速启动，并通过后台恢复线程应对 Redis 故障。这三个元素缺一不可，只实现一两个会引入新的故障模式。

使用快照优先初始化。任何需要本地状态的服务都应该从快照初始化，而不是进行完整的事件重放。在部署到生产环境之前设计好快照机制，事后改造比从一开始就构建要复杂得多。

对跨集群扇出场景使用 Redis 去重方案。存在多个 Pod 同时接收相同消息的架构都应该从一开始就使用 Redis 的先写获胜区去重机制。基于 Kafka 的去重在每个跳点都会增加不可避免的轮询延迟。

绝不阻塞消费者线程。消费者线程绝不能发出同步外部调用。从一开始就要设计成异步移交模式（如 Redis 队列和独立工作线程池）。消费者线程的职责是消费和移交，不应承担其他逻辑。

结论

这些问题都不是理论层面的隐患，每一个问题都曾引发生产故障，包括卡住的工单、座席开通超时、自动扩缩器瘫痪、不一致的呼叫状态和 UI 延迟。每起故障都违反了产品所需的实时契约。

以上观点并非为了否定事件驱动架构，而是倡导在设计时做到全盘明晰：分清哪些场景适合异步、哪些不适合；将消费线程视作不可阻塞的核心资源；从一开始就针对三类故障场景统筹规划状态管理；认识到分区拓扑和消费者群组设计是一等架构决策，而非实现细节。

在生产环境中表现最好的系统很少是完全拘泥于单一范式的系统。这类系统会谨慎应用事件驱动模式，并清楚在哪些地方存在局限。

查看英文原文：https://www.infoq.com/articles/tradeoffs-event-driven-design/

创作场景