在 Cloud Next '26 大会上,谷歌宣布了 Google Kubernetes Engine(GKE)的多项重大更新,其中最引人注目的是用于保证代理代码执行安全的 GKE Agent Sandbox,以及可以通过一个控制平面管理多达一百万个加速器芯片的 GKE hypercluster。编排与 Kubernetes 产品管理高级总监 Drew Bradstock 以及 GKE 产品组经理 Gari Singh 写道:
Kubernetes 已经迅速成为 AI 时代的操作系统,目前 GKE 正为该平台上所有前 50 名的大客户提供 AI 工作负载支持,其中包括规模最大的前沿模型构建商。
这种框架反映了更广泛的行业趋势。根据 Databricks 的数据,多智能体 AI 工作流在近几个月里激增了 327%;而根据 CNCF 的数据,目前有 66% 的企业依赖 Kubernetes 来支撑生成式 AI 应用和智能体。
GKE Agent Sandbox 利用 gVisor(即保障 Gemini 安全的那项沙箱技术)为不受信任的代理代码执行提供内核级隔离。谷歌声称,该服务每秒可创建 300 个沙箱,延迟低于一秒,而且在 Axion 上运行时,其性价比比其他超大规模云平台高出 30%。作为 Kubernetes SIG Apps 的子项目,Agent Sandbox 在 2025 年 KubeCon NA 大会上发布,并引入了三个新的 Kubernetes 原语:Sandbox(核心工作负载资源)、SandboxTemplate(安全蓝图)和 SandboxClaim(用于向 ADK 或 LangChain 等更高层框架请求执行环境的事务性资源)。预配置的 Pod 预热池将冷启动延迟降至一秒以内。
Lovable 平台每天为超过 20 万个由 AI 生成的全新项目提供支持。它目前正在 Agent Sandbox 上运行生产工作负载。Lovable 联合创始人 Fabian Hedin 指出:
GKE 先进的沙箱功能使我们能够每秒可靠地扩展数百个安全沙箱,即使在需求激增且难以预测的情况下,也能为构建者提供完美的支持。
代理沙箱领域正演变为三种方案之间的三方竞争。近日,Cloudflare 在其边缘网络上推出了基于容器隔离的 Sandboxes GA 服务,同时还针对比较轻量级的工作负载推出了基于 V8 隔离器的 Dynamic Workers。E2B 则采用 Firecracker 微虚拟机。值得注意的是,正如 Google Cloud 大使兼首席架构师 Alex Gkiouros 所说的那样,在三大超大规模云服务商中,GKE Agent Sandbox 目前是唯一提供原生代理沙箱解决方案的。谷歌有一个更广泛的战略是,让 Kubernetes 本身成为代理运行时,由 gVisor 作为开源的 Kubernetes 基础组件而非专有平台特性来提供隔离功能。这种开源特性是一个关键的差异化因素:任何 Kubernetes 集群都能运行 Agent Sandbox,而不仅限于 GKE。
GKE hypercluster 现在已经进入私有版正式发布阶段,其目标是解决另一种扩展难题。随着 AI 训练需求的增长,企业往往将基础设施拆分为数百个彼此孤立的集群,这增加了运维负担。Hypercluster 允许在一个符合规范的 GKE 控制平面上管理分布于 256000 个节点、横跨多个区域的 100 万个芯片。其安全性依托于谷歌的 Titanium Intelligence Enclave,这是一种经过硬件认证的“无管理员访问”模型,专有模型权重和提示词通过加密手段与平台管理员隔离开来。
Gkiouros 指出了一个需要认真权衡的现实问题:
一个 GKE 控制平面跨区域管理一百万个芯片,听起来很美妙,但当你考虑到影响范围和变更管理等问题时,就会发现它并不那么理想。私有 GA 才是适合它的地方。
在推理方面,两项改进带来了切实的性能提升。GKE Inference Gateway 中的“预测性延迟优化(Predictive Latency Boost)”功能利用机器学习驱动的路由机制,将首个 Token 延迟降低了多达 70%,用可以实时感知容量的智能调度取代了启发式猜测。该功能基于 llm-d 构建,后者最近已成为 CNCF Sandbox 的正式项目。跨 RAM、本地 SSD 和 Google Cloud Storage 的自动 KV 缓存存储分层功能解决了长上下文内存瓶颈。据谷歌报告,将 1 万条提示词卸载至 RAM 可提升 50% 的吞吐量,而将 5 万条提示词卸载至 SSD 则可提升近 70% 的吞吐量。
其他更新包括:用于优化强化学习工作负载的 RL Scheduler、用于内核隔离式奖励评估的 RL Sandbox,以及基于意图的自定义指标自动扩展功能。该功能通过直接从 Pod 获取指标(而非依赖外部监控技术栈),将 HPA 响应时间从 25 秒缩短至 5 秒。
原文链接:https://www.infoq.com/news/2026/05/gke-agent-sandbox-hypercluster/





