写点什么

谷歌 Cloud Run 现在为 AI 和批处理提供了无服务器 GPU

  • 2025-06-11
    北京
  • 本文字数:1398 字

    阅读完需:约 5 分钟

大小:687.28K时长:03:54
谷歌Cloud Run现在为AI和批处理提供了无服务器GPU

谷歌云宣布 NVIDIA GPU 支持 Cloud Run(无服务器运行时)的全面可用性。通过这一增强功能,谷歌云旨在为广泛的 GPU 加速用例,特别是在 AI 推理和批处理方面,提供一个功能强大且成本效益显著的环境。

 

在一篇公司的博客文章中,谷歌强调,开发人员青睐 Cloud Run,因为它简单、灵活且可扩展。随着对 GPU 支持的增加,它现在将其核心优势扩展到 GPU 资源:

 

  • 按秒计费:用户现在只需根据他们消耗的 GPU 资源付费,精确到秒——从而最大限度地减少浪费。

  • 缩放到零:Cloud Run 在非活动状态下自动将 GPU 实例缩放到零,消除空闲成本——对于间歇性或不可预测的工作负载尤其有益。

  • 快速启动和扩展:带有 GPU 和驱动程序的实例可以在 5 秒内启动,使应用程序能够非常快速地响应需求。

  • 完整的流支持:对 HTTP 和 WebSocket 流的内置支持允许交互式应用程序,例如实时 LLM 响应。

 

NVIDIA 加速计算产品总监 Dave Salvator 评论道:

 

无服务器 GPU 加速代表了使尖端 AI 计算更易于访问的重大进步。通过无缝访问 NVIDIA L4 GPU,开发人员现在可以比以往任何时候都更快、更经济地将 AI 应用程序投入生产。

 

一个重要的入门障碍已经被移除,因为 Cloud Run 上的 NVIDIA L4 GPU 支持现在对所有用户开放,无需请求配额。开发人员可以通过简单的命令行标志(--gpu 1)或在谷歌云控制台中勾选一个框来启用 GPU 支持。

 

支持 GPU 的 Cloud Run 已经可以投入生产,由 Cloud Run 的服务水平协议(SLA)覆盖,以确保可靠性和正常运行时间。默认情况下,它为弹性提供了区域冗余,并在区域性故障时提供最佳努力故障转移的选项,通过关闭区域冗余,以降低价格。

 

在 Cloud Run 上对 GPU 的普遍支持也引发了开发者社区关于其竞争影响的讨论,特别是与其他主要云提供商的关系。ZenRows 的首席软件工程师 Rubén del Campo强调,谷歌的举动是“AWS 多年前就应该打造的东西:真正有效的无服务器 GPU 计算。”

 

他的观点突出了对 AWS Lambda 能力的“巨大差距”的感知,特别指出 Lambda 的 15 分钟超时和仅限 CPU 计算对于现代 AI 工作负载(如 Stable Diffusion 推断、模型微调或实时视频分析)来说是令人难以接受的。“尝试在 Lambda 中运行 Stable Diffusion 推理,微调模型或使用 AI 处理视频。这是不可能的,”一位用户评论道,并强调 Cloud Run GPU 使这些任务“在缩放到零的无服务器 GPU 上变得微不足道”。

 

虽然 Cloud Run gpu 提供了引人注目的功能,但一些 Hacker News帖子上的用户对缺乏硬性计费限制表示担忧,这可能会导致意想不到的成本。虽然 Cloud Run 允许设置最大实例限制,但它不提供实际的基于美元的支出上限。

 

此外,在同一个 Hacker News帖子上的比较也表明,其他提供商,如 Runpod.io 可能会为类似的 GPU 实例提供更有竞争力的价格。例如,一些用户指出,即使考虑到谷歌的按秒计费,Runpod 的 L4、A100 和 H100 GPU 的小时费率也可能明显低于谷歌的小时费率。

 

除了实时推理,谷歌还宣布 GPU 在Cloud Run作业上的可用性(目前处于私有预览阶段),为批处理和异步任务解锁了新的用例。这些功能在全球范围内得到支持,Cloud Run GPU 可在五个谷歌云区域使用:us-central1(美国爱荷华州)、european -west1(比利时)、european -west4(荷兰)、asia-southeast1(新加坡)和 asia-south1(印度孟买)。规划增加更多的区域。

 

最后,该公司表示,开发人员可以通过利用官方文档快速入门优化模型加载的最佳实践来开始构建 Cloud Run GPU。

 

原文链接:

https://www.infoq.com/news/2025/06/google-cloud-run-nvidia-gpu/

2025-06-11 11:063628

评论

发布
暂无评论

数据库索引相关和EFCore的索引映射

C++后台开发

数据库 后端开发 Linux服务器开发 C++开发 数据库索引

首份关基安全国标刚发布,客户把我叫到了办公室......

青藤云安全

网络安全 青藤云安全

【Go】力扣 - 剑指 Offer 第五天 - 二维数组中的查找

陈明勇

Go 数据结构与算法 力扣 11月月更

聊一聊华为云弹性公网IP的那些事儿

爱尚科技

索引数据结构千千万 , 为什么B+Tree独领风骚

程序知音

行业首个测试开发技术大赛开始报名啦~ 10万现金奖励等你来挑战

测吧(北京)科技有限公司

软件测试

进大厂必刷的Java面试题

钟奕礼

Java java程序员 java面试 java编程

简述SpringAOP的实现原理

千锋IT教育

Java面试读这一篇就够了:100个互联网大厂Java面试真题整理

钟奕礼

Java Java 面试 java程序员 java编程

微服务平滑迁移上云最佳实践

阿里巴巴云原生

阿里云 微服务 云原生

阿里P8大佬神创“Netty突击笔记”,堪称全网最全最牛逼的核心原理手册

程序知音

Java Netty JAVA开发 java架构 后端技术

小令观点 | 急需身份证扫描件?【A4证照扫描王】来帮你

令牌云数字身份

软件推荐 入职 打印 证照扫描

Wallys//IPQ6010/IPQ6018/IPQ6000/industrial wifi6 router/DFS/M.2/ 2x2 2.4GHz/5GHz

wallysSK

IPQ6010 ipq6018 IPQ6000

1000道最新高频Java面试题,覆盖25个技术栈(多线程、JVM、高并发、spring、微服务、kafka,redis、分布式)从底层原理到架构!

程序知音

Java Java 面试 大厂面试 java架构 后端技术

我服了,阿里挖过来的leader连垃圾回收都说不清楚

钟奕礼

Java java程序员 java面试 java编程

聊聊mybatis的架构模块

急需上岸的小谢

11月月更

防止会议被入侵,华为云会议更专业

IT科技苏辞

聊聊mybatis的反射之Reflector类

急需上岸的小谢

11月月更

PG SQL 语法汇总

蜗牛也是牛

Python3.10的开发环境的搭建

千锋IT教育

一个 3 年 Java 程序员 5 家大厂的面试总结(已拿Offer)

钟奕礼

Java java程序员 java面试 java编程

被性能优化撂倒无数次后的顿悟!465页调优笔记助力大厂面试之旅

程序知音

Java JVM 性能调优 java架构 后端技术

Serverless 的前世今生

阿里巴巴云原生

阿里云 Serverless 云原生

PCB焊接出问题了,是PCB工程师的锅吗?

华秋PCB

PCB PCB设计 焊接

HDC.Cloud Day | 全国首场上海站告捷,聚开发者力量造梦、探梦、筑梦

华为云开发者联盟

云计算 华为云

基于云原生网关的可观测性最佳实践

阿里巴巴云原生

阿里云 微服务 云原生 可观测

三个经典的MySQL问题

千锋IT教育

开源|ftlog升级啦!功能更强,性能更高,细节更极致

非凸科技

聊聊索引

急需上岸的小谢

11月月更

一个关于X证券20000台服务器的血泪故事

青藤云安全

网络安全 青藤云安全

Docker搭建私有registry镜像仓库

蜗牛也是牛

谷歌Cloud Run现在为AI和批处理提供了无服务器GPU_AI&大模型_Steef-Jan Wiggers_InfoQ精选文章