10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

高级自动扩展功能助力企业降低 70% 的 AWS 成本

作者:Matt Saunders

  • 2025-09-02
    北京
  • 本文字数:1575 字

    阅读完需:约 5 分钟

大小:782.52K时长:04:27
高级自动扩展功能助力企业降低70%的AWS成本

下一代 Kubernetes 自动扩展技术与工具正在帮助组织节省大量的云基础设施成本。最近,Svetlana Burninova 使用 Karpenter 构建了一个多架构 EKS 集群,在提高性能的同时节省了 70% 的成本。

 

Hackernoon 的一篇文章中,Burninova 解释了她的技术如何将 Pod 调度延迟从三分钟减少到 20 秒。

 

在将约 70% 的实例切换至 Karpenter 后,我们的月度计算成本下降了 70%。这一显著的降幅为新功能开发和基础设施升级释放了可观的预算。

 

Burninova 的实现包括用 Karpenter 替换传统的 Kubernetes 集群自动扩展器,并转向采用 AMD64 和 ARM64 实例的多架构设置。这一变化提升了资源利用率,Karpenter 的精确配置能力帮助将 CPU 利用率从固定节点的平均 25% 提高到 70%。

 

云优化平台 nOps 也在一篇博文中探讨了使用 Karpenter 进行自动扩展的好处。他们解释说, Karpenter 是一个“开源、灵活、高性能的 Kubernetes 集群自动扩展器,提供了高级的调度和扩展能力”。与传统集群自动扩展器使用固定的节点组操作不同,Karpenter 会检查待处理的 Pod 并提供最具成本效益的实例以满足特定的资源需求。最近,Karpenter 发布了 1.0 版本,这是一个里程碑,提供了更好的稳定性,并引入了新的中断预算和节点合并功能。

 

我们运行的基础设施更具弹性和成本效益,并且能够智能扩展。仅第一个月节省下来大量成本就抵消了我在这个迁移上花费的工程时间。

 

Burninova 的成本优化主要来自两个策略:价格优化和效率优化。价格优化是通过 AWS 定价模型最大化折扣,包括预留实例、节省计划和竞价实例,这些可以提供高达 90% 的折扣,不过增加了两分钟终止通知的风险。效率优化侧重于通过更好的资源利用率和更细粒度的扩缩决策来减少浪费。



将一些工作负载转移到 ARM64 Graviton 实例上,与等效的 x86 实例相比节省了大约 20% 的成本,并且也显示出了性能提升,一个示例图像处理服务在 Graviton 硬件上的运行速度提高了 15%。然而,Burninova 指出,这项更改需要仔细检查应用程序的兼容性,并且需通过适当的 taints 标记正确配置节点池,以防止不兼容的工作负载被调度到 ARM64 节点上。

 

最近,借助 2024 年 11 月推出的 Amazon EKS Auto Mode,亚马逊云科技实现了这个领域的又一次技术进化 。在一篇面向 AWS 社区构建者的文章中,开发人员 Rodrigo Fernandes 将 EKS Auto Mode 描述为 Karpenter 的一个简单的自然演进。Fernandes 接着解释了 EKS Auto Mode 如何抽象基础设施管理。它根据 Pod 需求自动配置和移除节点,而不是根据传统的 CPU 和内存指标。



Auto Mode 设法优化了成本,其措施包括根据待处理的 Pod 智能扩展集群、优化竞价实例使用率以及消除闲置节点。在这样做时,它综合考虑了 Pod 资源需求、实例定价、可用区分布及架构兼容性。Fernandes 指出,早期实现已经将管理时间缩减了高达 80%,基础设施支出节省了 60% 到 70%。但对于需要使用自定义 AMI、专用硬件(如 GPU 实例)或精细控制合规环境配置的企业,该模式仍存在一定的局限性。

 

这些工具带来了额外的复杂性,在可观测性和安全性方面需要做一些配套的工作,Fernandes 鼓励工程师关注诸如节点创建和终止率、Pod 调度效率和节点利用率等指标。像 Kubecost 这样的工具可以可视化命名空间级成本的详情,以及竞价与按需比的有效性。最佳安全实践包括:采用服务账户的IAM角色(IRSA)来消除硬编码凭证、通过子网标签实现资源精准发现,以及准确配置中断预算以确保应用程序在扩展期间持续可用。

 

这里详细说明的所有方法都旨在减少过度配置的资源,加速对扩展需求的响应。现代工具使工程师能够近乎即时地为其工作负载配置最佳类型的资源。但这需要周密的规划、针对资源请求和限制的合理的应用程序配置,以及持续的监控。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/08/autoscaling-karpenter-automode/

2025-09-02 15:001

评论

发布
暂无评论

用APICloud开发iOS App Clip(苹果小程序)详细教程

YonBuilder低代码开发平台

小程序云开发 大前端 移动开发 APP开发

第一章作业

tera

图解 | 原来这就是TCP

程序员 网络协议 架构师

【面试必备】Swift 面试题及其答案

ios swift

软件架构模式之分层架构

架构精进之路

架构设计 七日更 28天写作

拍乐云技术分享 | 美术教学中视频矫正是怎么做的?

拍乐云Pano

音视频 RTC 图像处理 拍乐云 视频处理

架构师训练营第九周作业

zamkai

目标岗位差异化对比

Geek_6a8931

高承实:区块链是一个技术结构组织 而不是技术

CECBC

大数据

测试一下

TJJ

重学JS | Set和Map是如何过滤重复值的?

梁龙先森

面试 大前端 编程语言 28天写作

想学AI开发很简单:只要你会复制粘贴

华为云开发者联盟

GitHub 开源 AI mindspore 推理

Java 程序经验小结: 慎用可变参数

后台技术汇

28天写作

见证产品成长,共享AI力量!

百度大脑

喜讯 | 拍乐云Pano荣获「2020大数据产业创新技术突破」奖

拍乐云Pano

大数据 音视频 RTC 拍乐云

产品思维和产品意识

ALone

常见运维监控系统的技术选型

OpsMind

运维 监控系统

第一周作业-产品备忘录

Eva

第四周作业

oooh-la

老熟人,新朋友!写作平台邀新季!

InfoQ写作社区官方

热门活动

Java程序员福音!阿里最新产物分布式小册:存储+计算+通信+资源调度

Java架构追梦

Java 阿里巴巴 架构 面试 分布式

谷歌面试题:如何从无序链表中移除重复项?

田维常

面试

别让假“努力”毁掉了你!面试了10家企业软件测试岗位,面试题整理

程序员阿沐

程序员 面试 软件测试 自动化测试 测试工程师

LocalDateTime、OffsetDateTime、ZonedDateTime互转,这一篇绝对喂饱你

YourBatman

LocalDateTime OffsetDateTime ZonedDateTime

PostgreSQL中Oid和Relfilenode的映射

PostgreSQLChina

数据库 postgresql 开源 软件

红河州加速区块链等新技术与实体经济的深度融合

CECBC

数字经济

应对新冠病毒传播-粤政协委员建议构建公共卫生区块链平台

CECBC

区块链 公共卫生

都在用Kafka ! 消息队列序列化怎么处理?

李尚智

Java kafka 架构 消息队列 消息中间件

区块链挖矿到底是什么,该怎么挖?

v16629866266

数据库表数据量大读写缓慢如何优化(3)【Elasticsearch的使用】

我爱娃哈哈😍

大数据 elasticsearch 架构 优化 死磕Elasticsearch

Hbase内核剖析

永健_何

大数据 HBase 底层技术 分布式数据储存

高级自动扩展功能助力企业降低70%的AWS成本_云计算_InfoQ精选文章