谷歌云显著减少了为 Kubernetes 集群配置新节点池所需的时间。
官方公告概要介绍了本次更新如何解决大规模计算集群扩展过程中常见的延迟问题。这正是广泛运行分布式工作负载的企业所普遍面临的痛点。
改进的重点是谷歌的 Kubernetes 引擎(GKE)及其节点自动配置功能。该功能可以根据待处理的 Pod 的特定要求自动创建节点池。这一增强对于在动态环境中保持高可用性至关重要。
通常,快速扩展的挑战来自在云环境中新建基础设施组件的开销。当集群需要一个当前节点池中不存在的新类型的节点时,系统必须向底层的 Compute Engine API 发起一系列的请求,以便分配资源、配置网络并将节点加入集群。这个过程可能会引入延迟,影响应用程序的响应性,特别是在需求突然激增或部署高容量批处理作业时。
为了解决这些瓶颈,谷歌优化了 GKE 控制平面与计算基础设施之间的通信机制。新的功能增强实现了更高效的请求批处理,减少了各种云服务握手过程的开销。通过改进控制平面处理这些操作的方式,与以前的版本相比,现在平台可以更快地将新节点置于就绪状态。这对于使用异构集群的用户尤其有用,因为这类集群需要各种机器类型来执行不同的任务。
虽然长期以来, GKE 都提供了自动扩展功能,但这些性能提升使其更接近于 Karpenter 等可选的生态系统工具的能力。Karpenter 最初由亚马逊云科技公司开发,现在是一个开源项目,它能够绕过标准 Kubernetes Cluster Autoscaler 使用的部分传统抽象层快速配置节点,这项能力备受推崇。通过提升节点池自动创建的速度,谷歌旨在提供一种可以匹配或超过第三方替代方案响应能力的原生体验,而且不需要用户管理额外的控制器。
这次更新是 Time to Ready 指标改进工作的一部分。该指标衡量一个 Pod 从被调度到实际在节点上运行所经过的时间。对于使用无服务器风格架构或大规模 AI 训练模型的开发者来说,这一指标的改进至关重要,这些场景需要即时获取计算资源。在谷歌对这次更新的技术描述中,Kaslin Fields 和 Yury Gofman 指出,“GKE 节点池自动创建的速度现在比以往任何时候都快,新节点启动并运行工作负载所需的时间显著减少。”
不只是速度,此次更新还增强了扩展过程的可靠性。当数百个节点同时尝试加入集群时,高容量集群经常会面临压力,这可能会影响控制平面。最新的优化措施包括改进速率限制和优先级逻辑,确保即使在大规模扩展期间,集群仍然能保持稳定,节点仍然能以可预测的方式集成。这种稳定性对于达成生产环境的服务水平目标至关重要。
软件工程师和 DevOps 团队可以期待这些变更将自动推送到支持的 GKE 版本中。随着云服务商在托管 Kubernetes 服务效率方面的竞争持续升级,关注点正从简单的功能对等转向深度性能优化。对于实施多云战略的企业而言,相比于仍依赖旧式扩展模式的 Azure Kubernetes Service 或其他托管平台,这些改进使 GKE 在高性能计算和延迟敏感型应用场景中变得更具吸引力。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:https://www.infoq.com/news/2026/03/gke-node-pool-speed-update/





