写点什么

谷歌在 Next '26 大会上宣布推出 GKE Agent Sandbox 和 Hypercluster,并将 Kubernetes 定位为 AI 代理

作者:Steef-Jan Wiggers
  • 2026-05-12
    北京
  • 本文字数:1704 字

    阅读完需:约 6 分钟

在 Cloud Next '26 大会上,谷歌宣布了 Google Kubernetes Engine(GKE)的多项重大更新,其中最引人注目的是用于保证代理代码执行安全的 GKE Agent Sandbox,以及可以通过一个控制平面管理多达一百万个加速器芯片的 GKE hypercluster。编排与 Kubernetes 产品管理高级总监 Drew Bradstock 以及 GKE 产品组经理 Gari Singh 写道

Kubernetes 已经迅速成为 AI 时代的操作系统,目前 GKE 正为该平台上所有前 50 名的大客户提供 AI 工作负载支持,其中包括规模最大的前沿模型构建商。

这种框架反映了更广泛的行业趋势。根据 Databricks 的数据,多智能体 AI 工作流在近几个月里激增了 327%;而根据 CNCF 的数据,目前有 66% 的企业依赖 Kubernetes 来支撑生成式 AI 应用和智能体。

GKE Agent Sandbox 利用 gVisor(即保障 Gemini 安全的那项沙箱技术)为不受信任的代理代码执行提供内核级隔离。谷歌声称,该服务每秒可创建 300 个沙箱,延迟低于一秒,而且在 Axion 上运行时,其性价比比其他超大规模云平台高出 30%。作为 Kubernetes SIG Apps 的子项目,Agent Sandbox 在 2025 年 KubeCon NA 大会上发布,并引入了三个新的 Kubernetes 原语:Sandbox(核心工作负载资源)、SandboxTemplate(安全蓝图)和 SandboxClaim(用于向 ADK 或 LangChain 等更高层框架请求执行环境的事务性资源)。预配置的 Pod 预热池将冷启动延迟降至一秒以内。

Lovable 平台每天为超过 20 万个由 AI 生成的全新项目提供支持。它目前正在 Agent Sandbox 上运行生产工作负载。Lovable 联合创始人 Fabian Hedin 指出

GKE 先进的沙箱功能使我们能够每秒可靠地扩展数百个安全沙箱,即使在需求激增且难以预测的情况下,也能为构建者提供完美的支持。

代理沙箱领域正演变为三种方案之间的三方竞争。近日,Cloudflare 在其边缘网络上推出了基于容器隔离的 Sandboxes GA 服务,同时还针对比较轻量级的工作负载推出了基于 V8 隔离器的 Dynamic Workers。E2B 则采用 Firecracker 微虚拟机。值得注意的是,正如 Google Cloud 大使兼首席架构师 Alex Gkiouros 所说的那样,在三大超大规模云服务商中,GKE Agent Sandbox 目前是唯一提供原生代理沙箱解决方案的。谷歌有一个更广泛的战略是,让 Kubernetes 本身成为代理运行时,由 gVisor 作为开源的 Kubernetes 基础组件而非专有平台特性来提供隔离功能。这种开源特性是一个关键的差异化因素:任何 Kubernetes 集群都能运行 Agent Sandbox,而不仅限于 GKE。

GKE hypercluster 现在已经进入私有版正式发布阶段,其目标是解决另一种扩展难题。随着 AI 训练需求的增长,企业往往将基础设施拆分为数百个彼此孤立的集群,这增加了运维负担。Hypercluster 允许在一个符合规范的 GKE 控制平面上管理分布于 256000 个节点、横跨多个区域的 100 万个芯片。其安全性依托于谷歌的 Titanium Intelligence Enclave,这是一种经过硬件认证的“无管理员访问”模型,专有模型权重和提示词通过加密手段与平台管理员隔离开来。

Gkiouros 指出了一个需要认真权衡的现实问题:

一个 GKE 控制平面跨区域管理一百万个芯片,听起来很美妙,但当你考虑到影响范围和变更管理等问题时,就会发现它并不那么理想。私有 GA 才是适合它的地方。

在推理方面,两项改进带来了切实的性能提升。GKE Inference Gateway 中的“预测性延迟优化(Predictive Latency Boost)”功能利用机器学习驱动的路由机制,将首个 Token 延迟降低了多达 70%,用可以实时感知容量的智能调度取代了启发式猜测。该功能基于 llm-d 构建,后者最近已成为 CNCF Sandbox 的正式项目。跨 RAM、本地 SSD 和 Google Cloud Storage 的自动 KV 缓存存储分层功能解决了长上下文内存瓶颈。据谷歌报告,将 1 万条提示词卸载至 RAM 可提升 50% 的吞吐量,而将 5 万条提示词卸载至 SSD 则可提升近 70% 的吞吐量。

其他更新包括:用于优化强化学习工作负载的 RL Scheduler、用于内核隔离式奖励评估的 RL Sandbox,以及基于意图的自定义指标自动扩展功能。该功能通过直接从 Pod 获取指标(而非依赖外部监控技术栈),将 HPA 响应时间从 25 秒缩短至 5 秒。

原文链接:https://www.infoq.com/news/2026/05/gke-agent-sandbox-hypercluster/