写点什么

Cloudflare 优化边缘栈:从大缓存转向高核并行

作者:Renato Losio
  • 2026-05-06
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

Cloudflare近期发布了Gen 13服务器,这标志着其网络处理流量方式的一次转变。公司不再依赖大容量 CPU 缓存来提速,而是重构软件,在最新的 AMD 服务器上利用更多处理器核心并行工作。

Cloudflare 强调了硬件与软件协同设计的重要性,过去,部分软件在多核场景下扩展性不足,需要依赖超大 CPU 缓存来弥补。如今通过软硬件同步调整,单机容量与边缘应用性能都得到了提升,同时能效也有所改善。

根据规格配置,Gen 13 采用 192 核AMD EPYC Turin 9965处理器、768 GB DDR5-6400 内存、24 TB PCIe 5.0 NVMe 存储,以及双 100 GbE 网卡。在满足相同响应时间目标的前提下,新规格让 Gen 13 单台服务器可承载的流量最高达到了上一代Gen 12(采用 AMD Genoa-X 9684X)的两倍。相关改动还带来了约 60%的机架容量提升,且不增加功耗,同时可用内存、存储和网络带宽也同步提高。

在另一篇文章“Inside Gen 13: how we built our most powerful server yet”中,Syona Sarma、JQ Lau、Ma XiongVictor Hwang介绍了新平台背后的工程取舍,内容涵盖 AMD EPYC 9965 服务器的布局与组件,以及理想的每核内存配置、散热效率和向 100 GbE 网络迁移的细节。在另一篇聚焦于硬件如何与重构后的Rust版FL2软件栈对齐的文章中,他们写道:

我们的目标是支持这样一类工作负载:它们如今依赖并行能力扩展,而非依赖缓存,从而在 Cloudflare 全球边缘基础设施上显著提升请求承载能力和单位功耗性能。

作者表示,Cloudflare 此前依赖具备超大 L3 缓存的处理器来维持低延迟,因为其部分软件尚未完全优化。在测试较新的 Turin Dense CPU(其缓存大约只有此前的三分之一)时,延迟最初上升了约 50%。通过与 AMD 共同分析问题并重写关键软件模块,Cloudflare 消除了这部分延迟惩罚,并释放出显著收益。团队补充说:

FL2 更清晰的架构、更好的内存访问模式和更少的动态分配,可能不像 FL1 那样依赖超大的 L3 缓存。这让我们有机会借助向 FL2 迁移,验证 Gen 13 的吞吐提升能否在不付出延迟代价的情况下实现。

在一则热门的Hacker News讨论中,许多读者认为这一架构转向很有意思,但也质疑性能提升中硬件与软件改写各自贡献了多少。不少人希望看到更清晰的基准测试和更多技术细节。用户 gdwatson 评论称:

我认为他们并没有解释清楚是如何解决缓存问题的,只是说他们用 Rust 重写了软件(……)。他们谈到了 Rust 更高的内存安全性;如果能进一步说明是否有某些具体语言特性影响了缓存表现,或者只是 Rust 让作者更安心地使用系统级语言来做这件事,那就更好了。

除核心架构调整外,此次发布还引入了 PCIe 加密硬件支持,并增强了 PCIe 加速器的支持。

原文链接:

Cloudflare Optimizes Edge Stack for High-Core CPUs Instead of Large Cache