2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

效率提升 11 倍,PODsys 如何快速部署大模型 AI 算力平台?

  • 2023-11-09
    北京
  • 本文字数:1875 字

    阅读完需:约 6 分钟

大小:957.59K时长:05:26
效率提升11倍,PODsys如何快速部署大模型AI算力平台?

大模型是通用人工智能的底座,但大模型训练对算力平台的依赖非常大。大模型算力平台是指支撑大模型训练和推理部署的算力基础设施,包括业界最新的加速卡、高速互联网络、高性能分布式存储系统、液冷系统和高效易用的大模型研发工具和框架。在算力平台的部署过程中,大模型研发机构常常需要面对一系列的问题:大模型算力平台是什么样的?如何快速构建大模型算力平台?如何确保算力平台稳定可靠?如何提升部署效率?如何提升算力平台的性能……这些问题能否顺利解决,直接关系到大模型研发和应用落地的速度。

 

为了帮助用户加速大模型的技术创新与应用落地,浪潮信息发布了大模型智算软件栈 OGAI(Open GenAI Infra)。OGAI 由 5 层架构组成,从 L0 到 L4 分别对应于基础设施层的智算中心 OS 产品、系统环境层的 PODsys 产品、调度平台层的 AIStation 产品、模型工具层的 YLink 产品和多模纳管层的 MModel 产品。

 

其中 L1 层 PODsys 是一个为客户提供智算集群系统环境部署方案的开源项目,具备基础设施环境安装、环境部署、用户管理、系统监控和资源调度等能力。用户只需执行两条简单的命令,即可完成大模型算力平台的部署,将大模型算力平台部署效率提升 11 倍,帮助用户顺利迈出大模型研发的第一步。(下载地址:https://podsys.ai/

大模型算力平台部署难题亟待求解

 

大模型参数量和训练数据复杂性快速增加,对 AI 算力平台的建设提出了新的要求,即需要从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡的可扩展集群系统,以满足 AI 大模型的训练需求。

 

强大的大模型算力平台不仅需要高性能的 CPU、GPU、存储、网络等硬件设备,还需要考虑不同硬件和软件之间的兼容性和版本选择,确保驱动和工具的适配性和稳定性。当算力平台的规模从十几台服务器扩展到几百台,平台部署难度会呈指数级上升。

 

首先,算力平台部署需要的相关驱动程序、软件包往往高达数十个,正确安装、部署并优化这些驱动程序与软件,需要专业的运维工程师和大量调试时间,严重影响部署效率。其次,为了确保算力平台的高性能和稳定运行,需要验证不同硬件环境下的软件适配,优化 BIOS、操作系统、底层驱动、文件系统和网络等多项指标,找到最优的选择,这一工作同样费时费力。此外,算力平台的资源状态处于时刻的变动中,如果不进行合理的资源调度与管理,很容易影响平台的资源利用率。

如何快速部署大模型算力平台?

 

PODsys 专注于大模型算力平台部署场景,提供包括基础设施环境安装、环境部署、用户管理、系统监控和资源调度在内的完整工具链,旨在打造一个开源、高效、兼容、易用的智算集群系统方案。

 

PODsys 整合了大模型算力平台部署所需的数十个驱动、软件等安装包以及对应的依赖和兼容关系,并提供了一系列的简化部署的脚本工具。使用这些工具只需要简单 2 个步骤,PODsys 即可帮助用户快速部署大模型算力平台。



步骤 1:使用 docker run 命令快速启动 PODsys 系统。

 

PODsys 系统集成了大模型算力平台部署所需的操作系统、GPU 驱动、网卡驱动、通信加速库等数十个驱动程序、软件和安装包,并提供了一系列脚本工具来简化部署,让用户可以快速安装、配置和更新集群环境。PODsys 大量选用了业界广泛使用的主流开源系统、工具、框架和软件,来保障整个部署方案的开放性、兼容性和稳定性。

 

步骤 2:使用 install_client 命令快速部署大模型算力平台的并行软件环境。

 

PODsys 将单机部署方式改成集群部署方式,可将部署效率提升 11 倍以上。在管理节点运行一句简单的命令(install_client.sh),即可完成大模型算力平台的环境配置,集成了高速文件系统接口、自动化运维工具、NVDIA CUDA 编程框架、NCCL 高性能通信库,支持 NGC 加速平台等功能。并能实现多用户、多租户管理集群。

 

PODsys 提供了全面的系统监控和管理,帮助用户实时监控集群的状态和性能指标。通过可视化的界面,用户可以查看集群资源的使用情况、作业的执行情况和性能瓶颈,从而及时调整集群配置和优化作业性能,来保证算力平台的高性能和稳定运行。



此外,PODsys 具备高效的资源调度和作业管理功能,可以根据用户的需求自动调度和管理作业,确保集群的资源利用率和作业的执行效率。

 

伴随着大模型的快速应用,算力平台的鲁棒性、易用性、部署效率成为用户关注的首要问题。针对商业用户,PODsys 还提供专业的算力平台性能调优服务。总之,PODsys 提供了一套完整的工具链,将大模型平台部署变得像系统安装一样简单,让用户省时、省力地部署大模型算力平台,助力大模型创新走好第一步。

2023-11-09 17:185670

评论

发布
暂无评论
发现更多内容

photoshop 2023存储为窗口显示空白、黑屏如何解决

互联网搬砖工作者

从DPU角度,谈谈关于国产OS开源社区发展的思考

大禹智芯

DPU 国产OS开源社区

分享:如何给 DBA 减负?

OceanBase 数据库

数据库 oceanbase

用这三本书,探究 ChatGPT 的底层逻辑

图灵社区

深度学习 GPT #人工智能 ChatGPT

选择KV数据库最重要的是什么

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

4.0 功能抢先看 | 读懂一个项目的研发效能 之 项目交付效率

思码逸研发效能

研发效能

流量调度、微服务可寻址性和注册中心

有态度的马甲

直播指南!解锁 OceanBase DevCon • 2023

OceanBase 数据库

数据库 oceanbase

用138个案例讲明白了Spring全家桶+Docker+MQ

Java你猿哥

spring 面试 Spring Cloud Spring Boot 面经

ChatGPT4 给出数据库开发者最容易犯的10个错误和解决方案

NineData

数据库 程序员 开发者 dba ChatGPT

数据采集&流批一体化处理使用指南

大河

批处理 ETL 流处理 bboss 流批一体化

2023年,LED显示屏配套设备急需升级和优化

Dylan

产品 制造 LED显示屏

动手实践开发一个智慧路灯控制器

华为云开发者联盟

后端 物联网 华为云 华为云开发者联盟 企业号 3 月 PK 榜

Web前端设计开发工具集(JS框架、CSS预处理)

2D3D前端可视化开发

前端开发 代码编辑器 css预处理器 web前端开发 前端开发工具

快速开始高性能Elasticsearch客户端bboss

大河

elasticsearch java bboss restclient

爱因斯坦霉霉同框只需15秒,最新可控AI一玩停不下来,在线试玩已出丨开源

Openlab_cosmoplat

开源社区 AI绘画

Springboot 撞上 NebulaGraph——NGbatis 初体验

NebulaGraph

Java ORM 图数据库

信息抓包工具:Charles 激活版

真大的脸盆

Mac Mac 软件 抓包工具 信息抓包

文本数据标注,支持词典导入及更多快捷方式|ModelWhale 版本更新

ModelWhale

机器学习 数据分析 云平台 标注 标注工具

分享:FactorJoin,一种新的连接查询基数估计框架

OceanBase 数据库

数据库 oceanbase

集成化、小型化、大势所趋,模块电源优势明显

华秋电子

软件测试/测试开发丨app自动化测试之设备交互API详解

测试人

软件测试 自动化测试 测试开发 appium

分享:ODC 如何精准展现 SQL 执行的耗时?

OceanBase 数据库

数据库 oceanbase

LP流动性挖矿代币分红模式dapp系统开发原理

开发微hkkf5566

用这三本书,探究 ChatGPT 的底层逻辑

图灵教育

深度学习 GPT #人工智能 ChatGPT

Apache HugeGraph1.0.0 版本正式发布!

百度安全

Dragonfly 最新版本 v2.0.9 发布

SOFAStack

开源 互联网 开发者 开发

测试同学职场成长的关键要素

老张

团队管理 个人成长

HUAWEI Mate X3带来全新小艺输入法, 9键双键盘左右开工、语音悬浮气泡免干扰

最新动态

效率提升11倍,PODsys如何快速部署大模型AI算力平台?_AI&大模型_Pu QIN_InfoQ精选文章