2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

KubeCon NA 2025:探讨生成式 AI 时代的工具

作者:Srini Penchikala

  • 2025-11-26
    北京
  • 本文字数:1111 字

    阅读完需:约 4 分钟

大小:554.18K时长:03:09
KubeCon NA 2025:探讨生成式AI时代的工具

生成式人工智能技术需要支持新的工作负载、流量模式和基础设施需求,并需要一套新的工具来应对 GenAI 时代。来自 Tetrate 的 Erica Hughberg 和来自彭博社的 Alexa Griffith 在 2025 年北美 KubeCon + CloudNativeCon 会议上讨论了构建大规模提供模型推理服务的 GenAI 平台所需的条件。

 

基于 Gen AI 的应用程序的新需求包括动态的、基于模型的路由、token 级别的速率限制、安全且集中的凭证管理,以及针对 AI 的可观测性、弹性和故障转移措施。现有的工具由于缺乏 AI 原生逻辑、只有简单的速率限制和基于请求的路由,所以不足以支持这些用例。Kubernetes 平台和像 KServe、vLLM、Envoy 和 llm-d 这样的工具可以用来实现这些新需求。而对于 AI 应用程序的监控和可观测性,我们可以利用像 OpenTelemetry、Prometheus 和 Grafana 这样的框架。

 

两位演讲者讨论了他们使用开源项目开发的 AI 应用程序架构,如Envoy AI Gateway和 KServe。Envoy AI Gateway 帮助管理边缘处的流量,并为应用程序客户端提供统一的对 GenAI 服务,如推理服务或模型上下文协议(MCP)服务器的访问。它的设计基于双层网关模式,第一层网关称为 AI 网关,作为集中的入口点,负责认证、顶级路由、统一的 LLM API 和基于 token 的速率限制。它还可以作为 MCP 代理。

 

第二层网关称为参考网关,管理进入 Kubernetes 集群上托管的 AI 模型的流量,也负责对模型的细粒度访问控制。Envoy AI Gateway 支持不同的 AI 提供商,如 OpenAI、Azure OpenAI、Google Gemini、Vertex AI、AWS Bedrock 和 Anthropic。

 

KServe 是自托管模型的开源标准,为 Kubernetes 平台上的生成式和预测性 AI 推理提供统一平台。作为一个单一的、声明式的模型 API,它可以为每个模型提供一个稳定的内部端点,Envoy AI Gateway 可以将流量路由到这些端点。它最近被重新设计以支持一系列生成式 AI 能力,如 LLM 多框架支持、OpenAI 兼容 API、LLM 模型缓存、KV 缓存卸载、多节点推理、基于指标的自动扩展和对 Hugging Face 模型的原生支持,以及简化的部署工作流。

 

KServe 提供了一个基于 llm-d 的 Kubernetes 自定义资源定义(CRD),llm-d 是一个 Kubernetes 原生的 LLM 推理框架,用于在不同框架上服务模型,如 PyTorch、TensorFlow、ONNX 或 HuggingFace。CRD 的 K8s 配置 YAML 脚本包括InferenceService类型,我们可以在其中指定模型元数据和用于外部访问的网关 API。

 

Hughberg 和 Griffith 在演讲结束时重申,GenAI 带来了有状态的、资源密集型的和基于 token 的工作负载。你需要动态的、基于模型的路由和基于 token 的速率限制及成本控制这样的 AI 原生能力。像 Kubernetes、Envoy AI Gateway 和 KServe 这样的 CNCF 工具可以帮助开发基于 Gen AI 的应用程序。

 

原文链接:KubeCon NA 2025 - Erica Hughberg and Alexa Griffith on Tools for the Age of GenAI

2025-11-26 11:233

评论

发布
暂无评论

41 个下载免费 3D 模型的最佳网站

3D建模设计

模型 3D

大模型驱动全面重构,百度联盟的增长飞轮转起来了

极客天地

“源聚一堂”开源技术沙龙济南站顺利举办

inBuilder低代码平台

开源 低代码

面向OpenHarmony终端的密码安全关键技术

OpenHarmony开发者

OpenHarmony

融云聊天室再放大招,服务更完整、集成更便捷

融云 RongCloud

产品 通信 服务 融云 属性

更多场景、更多选择,Milvus 新消息队列 NATS 了解一下

Zilliz

非结构化数据 Milvus Zilliz 向量数据库

如何选择美国多IP站群服务器?学习如何统筹管理多个站点

一只扑棱蛾子

站群服务器

Orca LLM:模拟 ChatGPT 的推理过程

3D建模设计

ChatGPT

搭建无损网络的关键要素与技术

百度开发者中心

AIGC ChatGPT 千帆大模型平台

奇点云对话顺丰科技、周大生:数据中台不是一次性项目

极客天地

GLTF在线编辑器

3D建模设计

gltf/glb模型 GLTF gltf编辑器

软件测试丨探索基于大模型的人工智能应用与开发,开启智能化时代

测试人

人工智能 程序员 软件测试 公开课 ChatGPT

HarmonyOS Codelab 优秀样例——溪村小镇(ArkTS)

HarmonyOS开发者

HarmonyOS

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源!

阿里云大数据AI技术

机器学习 阿里云

深入学习 FastAPI 鉴权:实现可扩展的身份认证机制

Apifox

程序员 后端 鉴权 FastApi ptyhon

你应该知道的几个国产化平台-行云管家

行云管家

信创 国产化 国产化平台

百度肖阳:语义检索技术和大语言模型深度结合,重构百度搜索

极客天地

性能、安全和稳定,DataAPI 为企业 API 保驾护航

袋鼠云数栈

大数据 数据中台 API

舞台租赁LED显示屏技术

Dylan

技术 LED显示屏 led显示屏厂家

即时通讯技术文集(第20期):IM架构设计技术文章(Part3) [共14篇]

JackJiang

网络编程 即时通讯 IM

如何实现一个数据库的 UDF?图数据库 NebulaGraph UDF 功能背后的设计与思考

NebulaGraph

数据库 UDF

如何实现MongoDB副本集实例间的数据迁移

NineData

数据库 mongodb 复制 迁移 NineData

从AIxCC大赛看下一代AI漏洞挖掘

云起无垠

使用代理IP可以解决哪些网络问题?代理ip是怎么优化网络游戏玩家的游戏体验的?

巨量HTTP

代理IP

8个免费的AI和LLM游乐场

3D建模设计

人工智能 AI LLM

glTF和GLB有什么区别?

3D建模设计

GLTF glb

泄露个人信息的2300余名“内鬼”被抓?

极盾科技

数据安全

软件测试/测试开发丨ChatGPT在测试计划中的应用策略

测试人

人工智能 软件测试 测试开发 ChatGPT

WavJourney:进入音频故事情节生成世界的旅程

3D建模设计

LLM 大语言模型

KubeCon NA 2025:探讨生成式AI时代的工具_AI&大模型_InfoQ精选文章