写点什么

Amazon EKS 支持每个集群 10 万节点的超大规模 AI/ML 工作负载

作者:Claudio Masolo

  • 2025-09-04
    北京
  • 本文字数:1916 字

    阅读完需:约 6 分钟

大小:991.45K时长:05:38
Amazon EKS支持每个集群10万节点的超大规模AI/ML工作负载

亚马逊网络服务宣布在容器编排方面取得了重大突破,亚马逊弹性 Kubernetes 服务(Amazon Elastic Kubernetes Service,EKS)现在支持高达 10 万个节点的集群,这比以前的限制增加了 10 倍。这一增强为人工智能和机器学习工作负载提供了前所未有的规模,在单个 Kubernetes 集群中可能支持多达 160 万个AWS Trainium芯片或 80 万个NVIDIA GPU

 

拥有数万亿个参数的最先进 AI 模型,在上下文理解、推理和解决复杂任务方面展现出了显著的优越能力。然而,开发和管理这些日益强大的模型需要访问单个集群中的大量计算加速器。将这些作业分割到不同的集群可能会由于容量碎片化或重新映射延迟而降低利用率,因此单一大规模集群对于最佳性能来说至关重要。

 

在单个集群中运行它们可以提供某些关键优势。首先,它通过共享容量池提高利用率来降低计算成本,这些容量池用于运行从大型预训练到微调实验和批量推理的异构作业。此外,与管理分割集群部署相比,调度、发现和修复等集中操作大大简化了。

 

AWS 通过几个架构突破实现了这个 100K 节点能力,从根本上重新设计了 Kubernetes 集群的核心组件,同时保持了 Kubernetes 的完全一致性。

 

最重要的创新在于对 Kubernetes 核心数据存储 etcd 的彻底改造。通过根本性的改变,亚马逊 EKS 已经将 etcd 的共识后端从基于raft的实现转移到了 journal 日志,这是 AWS 已经构建了十多年的内部组件。这个日志系统提供了超快速、有序的数据复制,具有多可用区的持久性。

 

AWS 还使用tmpfs将 etcd 的后端数据库完全转移到内存存储中,以更高的读/写吞吐量、可预测的延迟和更快的维护操作的形式提供数量级的性能优势。支持的最大数据库大小增加了一倍,达到 20 GB,同时在故障期间保持较低的平均恢复时间。

 

工程团队对 API 服务器和关键 Webhook 进行了广泛的调优,仔细地优化了请求超时、重试策略、工作并行性和节流规则等配置。Kubernetes v1.31 引入了从缓存中读取的强一致性,允许将大部分读取流量从 etcd 卸载到 API 服务器,将服务器端 CPU 使用量降低了 30%,并将列表请求速度提高了三倍。

 

在集群范围内运行的控制器得到了显著的改进,可以最大限度地减少锁争用并支持事件的批处理。即使在 10K 节点规模下,Kubernetes 调度器也能根据工作负载精心定制调度器插件并优化节点过滤/评分参数,持续提供高达 500 个 pods/秒的吞吐量。

 

对于需要高带宽的加速工作负载,AWS 配置了带有前缀模式的 Amazon VPC CNI 进行地址管理,允许在单个 VPC 中为 10K 节点进行流线型网络操作,同时将节点启动速率提高至三倍。对于需要高带宽的加速工作负载,他们启用了额外网络卡上的 pod ENIs,增强了 pod 的网络带宽容量(超过 100 GB/s)和数据包速率性能。

 

容器镜像管理通过可寻址 OCI(SOCI)快速拉取技术得到了关注,该技术使大型 AI/ML 容器镜像(通常超过 5 GB)能够同时下载和解包。结合并行解包能力相结合,测试表明与默认设置相比,整体镜像下载和解包减少了高达 2 倍。

 

AWS 进行了广泛的测试,模拟真实世界的超大规模 AI/ML 场景。测试涵盖了在所有 100K 节点上运行的大规模预训练作业、10 个并行微调作业,每个作业使用 10K 节点,以及结合微调和推理任务的混合模式工作负载。

 

在 100K 节点上运行的 AI/ML 测试场景

 

节点生命周期测试显示,Karpenter可以在 50 分钟内启动 100K 个 Amazon EC2 实例,每分钟有 2000 个节点准备好加入集群。在尊重节点中断预算的同时,更新所有节点到新 AMI 集群的漂移操作大约需要 4 小时。

 

测试期间的性能指标令人印象深刻:集群包含超过 1000 万个 Kubernetes 对象,包括 100K 个节点和 900K 个 pods,跨分区的聚合 etcd 数据库大小达到 32 GB。在所有测试场景中,API 延迟始终保持在 Kubernetes SLO 目标之内。

 

这一进步特别有利于从事尖端 AI 研究和大规模机器学习操作的组织。除了直接消费 Amazon EKS 的客户外,这些改进还扩展到了其他 AI/ML 服务,如利用 EKS 作为其计算层的 Amazon SageMaker HyperPod,提高 AWS 的整体超大规模计算能力。

 

这项公告使 AWS 在 Kubernetes 集群规模方面显著领先于其主要的云竞争对手。谷歌 Kubernetes 引擎(GKE)目前支持每个标准集群最多 15,000 个节点,需要更高限制时则需要特殊批准和特定配置,例如具有私有服务连接的区域集群。微软 Azure Kubernetes 服务(AKS)通过虚拟机规模集支持每个集群最多 5,000 个节点,尽管接近上限的集群可以联系支持人员以提高限制。

 

AWS 的 10 万个节点的能力比 GKE 的标准限制提高了 6.7 倍,比 AKS 的最大限制提高了 20 倍,为需要大规模 AI/ML 基础设施的组织建立了实质性的竞争优势。考虑到竞争对手的更高限制通常伴随着额外的限制或需要特殊批准流程,,而 AWS 的超大规模集群被设计为标准产品,完全符合 Kubernetes 标准,这一差距变得更加明显。

 

原文链接:

https://www.infoq.com/news/2025/09/aws-eks-kubernetes-ultrascale/

2025-09-04 15:007891

评论

发布
暂无评论

轻帆云ITSM:以AI赋能制造业,构建高效运维新范式

云智慧AIOps社区

ITSM ITSM软件 工单管理系统

“从PMO到VMO价值交付管理” — Agile VMO业务敏捷CVP认证 | 7月26-27日 · 上海线下

ShineScrum

WebGL与App的集成开发

北京木奇移动技术有限公司

软件外包公司 webgl开发 webgl外包开发

从三流作者到虎嗅公众号头条——我的AI写作方法论

田威AI

AI

通义灵码上下文能力解析:自由组合需求描述,生成结果更高效

阿里云云效

阿里云 云原生 通义灵码

TiDB 全文搜索功能公开测试中

TiDB 社区干货传送门

新版本/特性解读

微信小游戏外包开发流程

北京木奇移动技术有限公司

小游戏开发 软件外包公司 游戏开发公司

混合应用开发新范式:2025年企业级移动生态降本增效破局点

xuyinyin

HarmonyOS NEXT 使用 relationalStore 实现数据库操作

威哥爱编程

【CodeBuddy】三分钟开发一个实用小功能之:3D旋转相册

jimaks

CSS

#放码来战.端云一体化开发#HarmonyOS 5 【农民叔叔】04.创建端云一体化工程项目

与辉鸿蒙

HarmonyOS HarmonyOS NEXT 端云一体化

英特尔至强6家族又添新成员:释放GPU潜能,AI性能更出色

E科讯

从炫技到实用,天工超级智能体(Skywork Super Agents)的破冰之旅

脑极体

AI

CST软件TDR时域仿真实例

思茂信息

cst CST软件 CST Studio Suite

极兔快递Java岗,薪资18-35K,看看难度

王中阳Go

Java

#放码来战.端云一体化开发#HarmonyOS 5 【农民叔叔】06.部署模板示例的云测工程到AGC云端

与辉鸿蒙

HarmonyOS HarmonyOS NEXT 端云一体化

全国独家线下面授 | 大规模敏捷LeSS认证上海6月19-21日【报名享多重福利优惠】

ShineScrum

四位图灵奖掌舵 2025智源大会揭示AI进化新路径

智源研究院

浅聊一下搭建企业私有知识库的可行方案

为自己带盐

人工智能 RAG应用

AI 技术在英语学习中的应用

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI技术应用

MySQL 派生表查询导致 Crash 的根源分析与解决方案

GreatSQL

通义灵码上下文能力解析:自由组合需求描述,生成结果更高效

阿里巴巴云原生

阿里云 云原生 通义灵码

YashanDB:助力企业攻克AI时代数据管理难题,拥抱智能转型

极客天地

从40秒到11毫秒:TiDB环境下一次SQL深潜优化实战

TiDB 社区干货传送门

性能调优 7.x 实践 TiDB Cloud TiDB第四届征文-运维开发之旅

微信小游戏的上线流程

北京木奇移动技术有限公司

游戏开发 微信小游戏 软件外包公司

「金融证券行业」 如何搭建自己的研发智能管理体系?

禅道项目管理

项目 金融 银行 项目管理软件 软件项目管理

WebGL与APP之间的通讯方式

北京木奇移动技术有限公司

软件外包公司 webgl开发 webgl外包公司

#放码来战.端云一体化开发#HarmonyOS 5 【农民叔叔】03.什么是端云一体化开发,有什么优势?

与辉鸿蒙

HarmonyOS HarmonyOS NEXT

#放码来战.端云一体化开发#HarmonyOS 5 【农民叔叔】05.端云一体化开发工程目录结构

与辉鸿蒙

HarmonyOS HarmonyOS NEXT 端云一体化

蚂蚁集团数字蚂力与珀莱雅战略合作:打造AI智能化应用矩阵 提升消费者体验和企业竞争力

Lily

"催化型领导力(Catalyst Leadership)" 敏捷领导者CAL 1认证 · 8月9-10日(周末班)

ShineScrum

Amazon EKS支持每个集群10万节点的超大规模AI/ML工作负载_云计算_InfoQ精选文章