
生成式人工智能技术需要支持新的工作负载、流量模式和基础设施需求,并需要一套新的工具来应对 GenAI 时代。来自 Tetrate 的 Erica Hughberg 和来自彭博社的 Alexa Griffith 在 2025 年北美 KubeCon + CloudNativeCon 会议上讨论了构建大规模提供模型推理服务的 GenAI 平台所需的条件。
基于 Gen AI 的应用程序的新需求包括动态的、基于模型的路由、token 级别的速率限制、安全且集中的凭证管理,以及针对 AI 的可观测性、弹性和故障转移措施。现有的工具由于缺乏 AI 原生逻辑、只有简单的速率限制和基于请求的路由,所以不足以支持这些用例。Kubernetes 平台和像 KServe、vLLM、Envoy 和 llm-d 这样的工具可以用来实现这些新需求。而对于 AI 应用程序的监控和可观测性,我们可以利用像 OpenTelemetry、Prometheus 和 Grafana 这样的框架。
两位演讲者讨论了他们使用开源项目开发的 AI 应用程序架构,如Envoy AI Gateway和 KServe。Envoy AI Gateway 帮助管理边缘处的流量,并为应用程序客户端提供统一的对 GenAI 服务,如推理服务或模型上下文协议(MCP)服务器的访问。它的设计基于双层网关模式,第一层网关称为 AI 网关,作为集中的入口点,负责认证、顶级路由、统一的 LLM API 和基于 token 的速率限制。它还可以作为 MCP 代理。
第二层网关称为参考网关,管理进入 Kubernetes 集群上托管的 AI 模型的流量,也负责对模型的细粒度访问控制。Envoy AI Gateway 支持不同的 AI 提供商,如 OpenAI、Azure OpenAI、Google Gemini、Vertex AI、AWS Bedrock 和 Anthropic。
KServe 是自托管模型的开源标准,为 Kubernetes 平台上的生成式和预测性 AI 推理提供统一平台。作为一个单一的、声明式的模型 API,它可以为每个模型提供一个稳定的内部端点,Envoy AI Gateway 可以将流量路由到这些端点。它最近被重新设计以支持一系列生成式 AI 能力,如 LLM 多框架支持、OpenAI 兼容 API、LLM 模型缓存、KV 缓存卸载、多节点推理、基于指标的自动扩展和对 Hugging Face 模型的原生支持,以及简化的部署工作流。
KServe 提供了一个基于 llm-d 的 Kubernetes 自定义资源定义(CRD),llm-d 是一个 Kubernetes 原生的 LLM 推理框架,用于在不同框架上服务模型,如 PyTorch、TensorFlow、ONNX 或 HuggingFace。CRD 的 K8s 配置 YAML 脚本包括InferenceService类型,我们可以在其中指定模型元数据和用于外部访问的网关 API。
Hughberg 和 Griffith 在演讲结束时重申,GenAI 带来了有状态的、资源密集型的和基于 token 的工作负载。你需要动态的、基于模型的路由和基于 token 的速率限制及成本控制这样的 AI 原生能力。像 Kubernetes、Envoy AI Gateway 和 KServe 这样的 CNCF 工具可以帮助开发基于 Gen AI 的应用程序。
原文链接:KubeCon NA 2025 - Erica Hughberg and Alexa Griffith on Tools for the Age of GenAI







评论