MuseAI 是一款专为设计专业人士量身定制的先进 AI 绘图工具,旨在提供卓越的绘画体验,并为设计团队打造一个既稳定又易于管理的创作平台。本专题将汇总阿里大模型创作平台 MuseAI 相关技术研究和最佳实践。
相比于其他 AI 应用,LLM 的推理阶段最大的特点是它是一个自回归过程,绝大部分推理框架的优化工作都是围绕这个自回归过程展开的。
本文介绍了阿里 RTP 平台在异构资源解耦方面的探索与实践,详细探讨了 DLRM 模型的特点、部署挑战以及资源分配与利用效率问题,并分享了在 NSDI25 上发表的相关研究成果。
本文主要分析了平台由于频繁切换 Diffusion Pipeline 引起的用户体验与资源浪费问题,并从网络传输、内存管理、Host-to-Device、模型量化等方面着手优化。
由于初版 rtp-LLM 是基于 nvidia 的开源库开发,在设计上和 cuda 硬件强耦合,无法摆脱对 nvidia gpu 的依赖,因而不能支持 cuda 以外的硬件设备,这样的框架显然难以支持未来更加丰富的硬件生态。而在硬件问题之外,随着业务复杂度的增长,越来越多的缺陷也被暴露出来。因此,我们本着以硬件接口为第一公民的思想,重构了 rtp-LLM 的模型推理逻辑。本文将从以下几个方面,结合源代码中的模块介绍 rtp-LLM 在计算部分的的设计思想。
MuseAI 是由阿里集团爱橙科技研发的面向阿里内部的 AIGC 创作工作台,同时通过与阿里云旗下魔搭社区合作共建的形式,将主体能力通过魔搭社区的 AIGC 专区对公众开放。本文主要介绍该设计平台的定位、目标和主要功能点,同时介绍了一些阿里内部应用的形式与案例。
在大模型的推理过程中,通常可以将任务分为两个阶段:Prefill 阶段处理所有输入的 Token,生成第一个输出 Token,并生成 KVCache。Decode 利用 KVCache 进行多轮迭代,每轮生成一个 Token。Pefill 阶段通常是计算密集型的,Decode 阶段通常是显存带宽瓶颈。本文中,我们阐述了 P-D 分离方案上线的实际效果。