KubeCon NA 2025：探讨生成式AI时代的工具_AI&大模型

2天时间，聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情 



 写点什么



大小：554.18K时长：03:09

生成式人工智能技术需要支持新的工作负载、流量模式和基础设施需求，并需要一套新的工具来应对 GenAI 时代。来自 Tetrate 的 Erica Hughberg 和来自彭博社的 Alexa Griffith 在 2025 年北美 KubeCon + CloudNativeCon 会议上讨论了构建大规模提供模型推理服务的 GenAI 平台所需的条件。

基于 Gen AI 的应用程序的新需求包括动态的、基于模型的路由、token 级别的速率限制、安全且集中的凭证管理，以及针对 AI 的可观测性、弹性和故障转移措施。现有的工具由于缺乏 AI 原生逻辑、只有简单的速率限制和基于请求的路由，所以不足以支持这些用例。Kubernetes 平台和像 KServe、vLLM、Envoy 和 llm-d 这样的工具可以用来实现这些新需求。而对于 AI 应用程序的监控和可观测性，我们可以利用像 OpenTelemetry、Prometheus 和 Grafana 这样的框架。

两位演讲者讨论了他们使用开源项目开发的 AI 应用程序架构，如Envoy AI Gateway和 KServe。Envoy AI Gateway 帮助管理边缘处的流量，并为应用程序客户端提供统一的对 GenAI 服务，如推理服务或模型上下文协议（MCP）服务器的访问。它的设计基于双层网关模式，第一层网关称为 AI 网关，作为集中的入口点，负责认证、顶级路由、统一的 LLM API 和基于 token 的速率限制。它还可以作为 MCP 代理。

第二层网关称为参考网关，管理进入 Kubernetes 集群上托管的 AI 模型的流量，也负责对模型的细粒度访问控制。Envoy AI Gateway 支持不同的 AI 提供商，如 OpenAI、Azure OpenAI、Google Gemini、Vertex AI、AWS Bedrock 和 Anthropic。

KServe 是自托管模型的开源标准，为 Kubernetes 平台上的生成式和预测性 AI 推理提供统一平台。作为一个单一的、声明式的模型 API，它可以为每个模型提供一个稳定的内部端点，Envoy AI Gateway 可以将流量路由到这些端点。它最近被重新设计以支持一系列生成式 AI 能力，如 LLM 多框架支持、OpenAI 兼容 API、LLM 模型缓存、KV 缓存卸载、多节点推理、基于指标的自动扩展和对 Hugging Face 模型的原生支持，以及简化的部署工作流。

KServe 提供了一个基于 llm-d 的 Kubernetes 自定义资源定义（CRD），llm-d 是一个 Kubernetes 原生的 LLM 推理框架，用于在不同框架上服务模型，如 PyTorch、TensorFlow、ONNX 或 HuggingFace。CRD 的 K8s 配置 YAML 脚本包括InferenceService类型，我们可以在其中指定模型元数据和用于外部访问的网关 API。

Hughberg 和 Griffith 在演讲结束时重申，GenAI 带来了有状态的、资源密集型的和基于 token 的工作负载。你需要动态的、基于模型的路由和基于 token 的速率限制及成本控制这样的 AI 原生能力。像 Kubernetes、Envoy AI Gateway 和 KServe 这样的 CNCF 工具可以帮助开发基于 Gen AI 的应用程序。

原文链接：KubeCon NA 2025 - Erica Hughberg and Alexa Griffith on Tools for the Age of GenAI

发布

暂无评论

创作场景

KubeCon NA 2025：探讨生成式 AI 时代的工具

评论

41 个下载免费 3D 模型的最佳网站

大模型驱动全面重构，百度联盟的增长飞轮转起来了

“源聚一堂”开源技术沙龙济南站顺利举办

面向OpenHarmony终端的密码安全关键技术

融云聊天室再放大招，服务更完整、集成更便捷

更多场景、更多选择，Milvus 新消息队列 NATS 了解一下

如何选择美国多IP站群服务器?学习如何统筹管理多个站点

Orca LLM：模拟 ChatGPT 的推理过程

搭建无损网络的关键要素与技术

奇点云对话顺丰科技、周大生：数据中台不是一次性项目

GLTF在线编辑器

软件测试丨探索基于大模型的人工智能应用与开发，开启智能化时代

HarmonyOS Codelab 优秀样例——溪村小镇（ArkTS）

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源！

深入学习 FastAPI 鉴权：实现可扩展的身份认证机制

你应该知道的几个国产化平台-行云管家

百度肖阳：语义检索技术和大语言模型深度结合，重构百度搜索

性能、安全和稳定，DataAPI 为企业 API 保驾护航

舞台租赁LED显示屏技术

即时通讯技术文集（第20期）：IM架构设计技术文章(Part3) [共14篇]

如何实现一个数据库的 UDF？图数据库 NebulaGraph UDF 功能背后的设计与思考

如何实现MongoDB副本集实例间的数据迁移

从AIxCC大赛看下一代AI漏洞挖掘

使用代理IP可以解决哪些网络问题？代理ip是怎么优化网络游戏玩家的游戏体验的？

8个免费的AI和LLM游乐场

glTF和GLB有什么区别？

泄露个人信息的2300余名“内鬼”被抓？

软件测试/测试开发丨ChatGPT在测试计划中的应用策略

WavJourney：进入音频故事情节生成世界的旅程

创作场景

KubeCon NA 2025：探讨生成式 AI 时代的工具

评论

推荐阅读

电子书

大厂实战PPT下载

推荐阅读