CNCF 推出 Kubernetes AI 一致性认证计划,旨在标准化工作负载

作者:Mark Silvester
  • 2026-01-01
    北京
  • 本文字数:1198 字

    阅读完需:约 4 分钟

云原生计算基金会(CNCF)引入了一项新的认证,旨在规范 Kubernetes 上快速扩展的 AI 世界。这一举措旨在确保 AI 工作负载在不同的云提供商和本地环境之间保持可移植性和一致性。

 

Kubernetes AI 一致性认证计划是在亚特兰大举行的 KubeCon 北美大会上宣布的。它为运行机器学习框架的平台建立了一个技术基线,解决了不同供应商处理专用硬件(如 GPU 和高性能网络)时日益严重的碎片化问题。

 

该认证出现的背景是,越来越多的企业试图将生成式 AI 模型从实验性 Notebook 转移到生产环境。如果没有统一的标准,在不同的云平台或专用基础设施提供商之间移动工作负载时,这些团队往往会面临巨大的技术债务

 

CNCF 首席技术官 Chris Aniszczyk 表示:“随着生产环境中的 AI 应用持续扩展并利用多个云和系统,团队需要一个他们可以依赖的一致的基础设施。”他补充说,该计划将创建共享标准,确保 AI 工作负载在不同环境中的行为可预测。

 

从技术上讲,该计划专注于 Kubernetes 技术栈中之前缺少标准化的几个关键领域。这包括用于管理加速器的动态资源分配(Dynamic Resource Allocation)、用于处理大型数据集的卷处理,以及用于分布式训练的作业级网络。

 

该计划的 v1.0 版本还强制要求支持组调度(gang scheduling)。这是一个关键特性,它可以确保分布式训练作业的所有组件在其中任何部分开始占用 GPU 时间之前均已准备就绪,从而防止资源死锁。

 

虽然 Kubernetes 已经成为事实上的容器编排器,但它在 AI 领域面临着来自专业替代方案的竞争。像 Ray 这样的编排器因原生支持基于 Python 的分布式计算而备受欢迎,而 HashiCorp Nomad 则经常被视为一个更简洁的高性能批处理替代方案。

 

通过引入这项认证,CNCF 将 Kubernetes 定位为互操作性 AI 的首选平台。该计划旨在确保符合标准的分发提供相同的底层原语,而不管是哪家供应商提供的,从而防止专有云 AI 平台(如 Amazon SageMakerGoogle Vertex AI)中常见的“围墙花园”。

 

该计划的初始参与者包括像 Microsoft Azure 和 Google Cloud 这样的主要云提供商,以及像 CoreWeaveAkamai 这样的专用基础设施提供商。这些供应商必须通过严格的测试套件来证明他们的平台符合社区定义的要求。

 

Google Cloud Kubernetes 和 GKE 工程总监 Jago Macleod 表示:“通过推动供应商尽早遵循这一标准,我们正在帮助开发人员和企业更轻松地构建生产就绪、可移植且高效的 AI 应用程序,而无需为每次部署重新改造基础设施。”

 

该基金会已经开始为预计在 2026 年推出的 v2.0 制定路线图。未来的迭代可能会包括更高级的推理模式、增强的监控指标和更严格的模型服务安全要求。

 

这次发布标志着 CNCF 向 AI-native 生态系统的重大转变。通过标准化 Kubernetes 与硬件层的交互方式,该基金会希望降低组织扩展 AI 运营的进入门槛,消除长期供应商锁定的风险。

 

原文链接:

https://www.infoq.com/news/2025/12/cncf-kubernetes-ai-conformance/