IBM Cloud Code Engine Serverless Fleets配备GPU以实现高性能人工智能和并行计算

IBM 战略性全托管无服务器平台IBM Cloud Code Engine引入了支持集成 GPU 的 Serverless Fleets。凭借这项新能力，该公司直接解决了在简化版按需付费无服务器模型上运行大规模计算密集型工作负载的挑战，如企业级人工智能、生成式人工智能、机器学习和复杂仿真。

正如学术论文中所指出的那样（包括康奈尔大学最近发表的一篇论文），历史上，无服务器技术在高效支持这些要求苛刻的并行工作负载方面存在困难，这类负载通常需要使用专用的硬件同时执行数千或数百万个任务。通过 Serverless Fleets，IBM 旨在通过提供高性能计算资源来弥合这一差距，而且又不需要用户应对管理专用基础设施的操作复杂性。

Michael Behrendt 是无服务器平台首席技术官兼 IBM 杰出工程师，他在 LinkedIn 上的一篇博文中评论道：

在很大程度上，这项能力的架构灵感来自在数十万个处理器上运行现实世界的大型工作负载。它的构建方式非常健壮，以至于可以在几乎没有 SRE 人员的情况下运行这些工作负载。

Serverless Fleets 提供了单个端点用于提交大量的批处理作业，简化了数据科学家和开发人员执行计算密集型任务的方式。在这篇博文中，IBM 提到，Code Engine 随后会自动处理基础设施编排：

该服务会自动配置所需的计算资源，包括虚拟机（VM）和无服务器图形处理单元（GPU），如 NVIDIA L40，以便可以同时运行多个任务。
此外，Serverless Fleets 旨在运行可弹性扩展的运行至完成任务。该系统会确定所需的工作实例的最优数量并将其部署，以便高效处理并行执行。
最后，当工作负载完成后，资源将自动移除，确保用户仅需为执行过程中实际消耗的技术资源付费。

随着 IBM Cloud Code Engine Serverless Fleets 的推出，公司带来了一项极具竞争力的服务。在其他超大型提供商中，亚马逊云科技提供了AWS Fargate这样的解决方案，用于在无服务器计算上运行容器（通常搭配 EKS 或 ECS 进行编排），而 Azure 在Container Apps中提供了Serverless GPU。然而，IBM 致力于提供一个统一的环境，通过单个简单的平台为 Web 应用、函数以及现有的大量 GPU 加速的批处理作业提供服务。

竞争对手可能需要开发人员将多个服务（如无服务器运行时、容器服务和批处理编排器）拼接在一起，Serverless Fleets 则旨在简化这一过程，通过单个端点就可以完全管理基于 GPU 的虚拟机的配置和弹性扩展，减少了通常与在云中运行 GPU 密集型弹性工作负载相关的复杂性和运营开销。在 Medium 上的一篇博文中，Luke Roy 总结道：

无论你是在进行媒体处理、AI 推理还是科学工作负载，IBM Cloud Code Engine Serverless Fleets 都提供了一个健壮且对开发者友好的解决方案。

在一篇博文中，该公司表示，在当今竞争激烈的格局中，各行各业的企业都需要能够快速、便捷地交付服务，同时优先考虑安全性、弹性和成本节省。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：https://www.infoq.com/news/2025/10/ibm-cloud-code-engine-serverless/

创作场景

IBM Cloud Code Engine Serverless Fleets 配备 GPU 以实现高性能人工智能和并行计算