写点什么

微软升级 AKS 服务:新增裸金属、集群舰队管理及 AI 基础设施方案

作者:Craig Risi
  • 2026-06-29
    北京
  • 本文字数:2069 字

    阅读完需:约 7 分钟

2026 年微软开发者大会上,微软公布了一系列增强功能,旨在让 Azure Kubernetes Service (AKS) 成为 AI 训练、推理和大规模云原生应用的首选平台。本次发布的更新覆盖基础设施、多集群管理、AI 编排与模型服务四大领域,充分体现微软的观点:AI 的未来将越来越多地运行在 Kubernetes 上,而非定制的 AI 基础设施栈。

其中最引人注目的更新包括:AKS 裸金属版,可让工作负载无需虚拟机监控程序即可直接访问硬件;适用于启用了 Arc 的集群的 Azure Kubernetes Fleet Manager,将集中式管理扩展到云端和本地环境;Anyscale,一项用于分布式 AI 工作负载的托管 Ray 服务;通过 AI RunwayKubernetes AI Toolchain Operator (KAITO) 改进 AI 模型部署。这些公告共同表明,微软正致力于让 Kubernetes 成为企业级大规模 AI 的运营底座。

微软的首要关注领域是简化集群运维。本次正式商用的两项功能分别为:AKS Automatic 中的托管系统节点池(Managed System Node Pools)和 Azure Container Linux,后者是一款专为容器优化的轻量级操作系统。

托管系统节点池将核心 Kubernetes 组件与应用工作负载分离,由 Azure 自动完成容量管理、补丁更新及弹性扩缩容操作。这对于 GPU 密集型 AI 工作负载来说尤为关键,因为系统服务争夺资源会影响性能和可预测性。同时,Azure Container Linux 提供了一个最小化的、由微软维护的操作系统,旨在减少配置漂移并简化大型 Kubernetes 集群的维护工作。

该思路反映出各大云厂商的一大主流趋势:抽象化 Kubernetes 本身的运维复杂性,让团队能够更多地专注于应用和 AI 模型,而非集群管理。

本次发布中技术含金量最高的是 AKS 裸金属版,目前处于公开预览阶段。通过移除虚拟化层,AKS 现在可以直接访问 NVLinkRDMA 和高性能网络等技术,这些能力对于大语言模型训练、低延迟敏感型推理任务而言,正变得愈发关键。

微软认为,虽然虚拟化提供了灵活性,但某些 AI 工作负载会因额外的抽象层而产生可量化的性能损失。裸金属 AKS 旨在兼顾两者优势:既保有 Kubernetes 统一规范的运维能力,又能释放专用硬件的原生极致性能。当下企业普遍训练规模更大的 AI 模型、部署资源需求持续走高的推理业务,即便小幅提升运行效率,也能大幅缩减成本。

微软同时宣布,适用于启用了 Arc 的集群的 Azure Kubernetes Fleet Manager 正式可用,集群舰队全域管理能力不再局限于 Azure 云平台,现已扩展到混合云和多云环境。

舰队管理器不再将 Kubernetes 集群视为孤立的系统,可在整个集群舰队中进行集中式策略执行、工作负载调度、分阶段发布和 RBAC 权限治理。随着企业在多区域、云提供商和本地环境中部署 AI 应用,同时又追求统一的运维标准与治理管控,这项能力的重要性也随之不断提升。

微软大力推进舰队管理,折射出行业的一个逐渐形成的共识:Kubernetes 的成熟度不在于运维单个集群,而在于将整个集群资产作为统一平台进行管理。在整体开源生态与 Kubernetes 发展战略中,微软也正持续围绕这一理念打造 AKS 产品体系。

除了 Kubernetes 基础设施,微软还宣布了几项以 AI 为中心的功能,旨在简化模型训练和推理。

目前处于公开预览阶段的 Azure 托管 Anyscale 服务,将托管版 Ray 框架接入 AKS,让企业能够使用跨动态扩展集群的 CPU 和 GPU 编排分布式 AI 工作负载。该服务直接集成到 Azure 订阅和治理模型中,使企业能够训练和部署大型 AI 模型,而无需独立管理 Ray 集群的复杂性。

微软还重点介绍了 AI Runway,这是一款原生基于 Kubernetes 的模型部署框架,于 2026 年初首次发布。AI Runway 让用户能够通过 Kubernetes 原生抽象选择模型、验证 GPU 需求、估算部署成本并启动生产端点。底层由 KAITO 完成资源调度、启动 vLLM 等优化推理运行时,同时对接 Kubernetes 自动扩缩容组件与 KEDA、网关 API 等网络相关技术。

由此打造出的模型服务平台在简化 AI 部署流程的同时不会屏蔽底层 Kubernetes 基础原语,平台工程师仍可使用这些原语保持控制能力和可观测性。

在微软的这些公告发布之际,各大云厂商为成为 AI 基础设施首选平台正激烈角逐。亚马逊云科技继续通过 EKSBedrock 扩展其 Kubernetes 和 AI 服务,而谷歌云则在 GKE 和 AI 原生基础设施方面大力投入。与此同时,围绕 Ray、vLLMKubeRayGateway API 的开源生态系统也在迅速成熟。

微软方案的差异化核心在于:它试图将各类组件整合为一套完整统一的平台。微软并未从零搭建完全封闭的专属 AI 基础设施,而是深度依赖 Kubernetes、Ray、网关 API、云原生网络等开源技术,同时将其与托管服务、治理功能和企业集成相结合。

这一战略与行业一个内日益形成的共识相契合:AI 基础设施的演进将复刻云原生计算——随着 AI 从实验阶段进入主流生产环境,开放标准和共享运维模式将比专有编排系统变得更加重要。

微软在 Build 大会发布的一系列产品传递出一个核心观点:AI 是否适合运行在 Kubernetes 之上,这个问题已有定论。行业当下的挑战已变成如何在平衡成本、性能和可扩展性的同时,可靠地运营 AI 工作负载。

查看英文原文:https://www.infoq.com/news/2026/06/microsoft-build-aks-ai/