2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地

  • 2025-11-11
    北京
  • 本文字数:1541 字

    阅读完需:约 5 分钟

昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地

作为一个活跃的开源项目,HAMi 由来自 15+ 国家、350+ 贡献者共同维护,已被 200+ 企业与机构在实际生产环境中采纳,具备良好的可扩展性与支持保障。


百度智能云混合云联合昆仑芯、密瓜智能 HAMi,正式推出基于昆仑芯 P800 的 XPU/vXPU 双模式算力调度方案 —— 该方案已率先在某金融客户的昆仑芯集群中落地,为智能客服、营销辅助等十余类 AI 业务提供兼具稳定性与灵活性的算力支撑。客户可在同一集群内灵活调用昆仑芯 P800 的整卡 XPU 与虚拟化 vXPU 资源,让国产算力既高效匹配业务需求,又实现资源的最大化利用。


XPU/vXPU 双模式调度方案,把集群中的昆仑芯 P800 算力用透


百度智能云联合 HAMi,基于昆仑芯 P800 构建「XPU 整卡 + vXPU 虚拟化」双模式资源调度体系:XPU 整卡模式通过拓扑寻优调度与健康度评估,实现「多卡单任务」的最优资源调度,保障大规模训练性能和稳定性,并避免资源碎片化;vXPU 虚拟化模式以多规格切分支持「单卡多任务」,最大化资源利用率,灵活适配推理、开发等轻量化场景。双模式协同发力,让昆仑芯 P800 的每一份算力「算尽其用」,为各类 AI 业务提供高效算力支撑。

XPU 整卡模式:拓扑寻优调度 + 集群健康度评估,保障大规模训练性能与集群稳定


在多卡训练等通信性能敏感场景中,调度策略直接决定集群长期可用性与性能稳定性。基于昆仑芯 P800 的物理拓扑特性,方案通过两层逻辑保障整卡模式的「高性能和高稳定性」。


其一,系统自动识别昆仑芯服务器「左右侧翼」物理分区,优先在单侧翼内调度资源,减少跨侧翼通信开销的同时,避免资源零散占用。


其二,当多个节点都能满足需求时,系统会评估调度前后对节点整体结构的影响,优先选择能保持或改善拓扑规整度的节点,留存更多完整拓扑单元,降低后续调度失败或回填导致的性能波动。


凭借「节点内拓扑寻优调度+集群内健康度评估」,运维团队不再需要频繁人工干预去「手动拼卡」,大模型训练可获得稳定通信性能,集群资源利用更紧凑。

vXPU 虚拟化模式:多粒度切分 + 显存自动对齐,用透每一分算力,简化管理难度


针对推理、开发测试、模型验证等轻量化任务的细粒度算力需求,vXPU 虚拟化模式为昆仑芯 P800 打造了「算力精准切分 + 便捷管理」的解决方案。


该模式支持多任务共享单张昆仑芯 P800 显卡,提供 1/4 卡(24GB 显存)、1/2 卡(48GB 显存)两种切分规格。实际使用中,用户仅需声明所需显存,系统便会自动向上匹配最优切分规格 —— 如申请 20GB 显存时,系统自动分配 24GB 规格,无需用户手动换算,大幅降低操作成本。


同时,为避免实例间干扰,方案引入「同规格共享」机制 —— 同一物理卡仅允许相同规格的虚拟实例共享,进一步简化了资源隔离与管理复杂度。

UUID 精准控卡:自动化打底,人工补位,特殊场景不「卡壳」


依托整卡模式的拓扑寻优调度、vXPU 虚拟化模式的显存自动对齐等自动化能力,日常算力调度已实现少干预甚至无干预。针对灰度测试、硬件问题复现等特殊场景,方案预留「人工调节通道」 —— 运维人员只需指定物理卡 UUID,即可直接选定或排除特定卡片。比如灰度发布新模型时,无需调动全量资源,指定部分卡片即可完成测试验证;硬件故障复现时,也能精准定位问题卡片进行调试,无需整机下线。


通过系统自动化调度与人工手动调节的结合,面对大模型训练、推理与开发等复杂场景,既能保障日常调度效率,又具备「因地制宜」的算力管理灵活性,轻松化解运维难题。

结语


XPU/vXPU 双模式协同调度方案在金融行业的落地,是百度智能云混合云联合 HAMi 在国产 AI 硬件调度领域的重要实践 —— 既验证了「场景驱动调度策略」的技术创新价值,也展现了开源生态与企业服务结合的落地能力。


如需了解昆仑芯 P800 虚拟化完整方案,可参考项目文档:https://github.com/Project-HAMi/HAMi/blob/master/docs/kunlun-vxpu-support_cn.md

2025-11-11 18:031
用户头像
李冬梅 加V:busulishang4668

发布了 1200 篇内容, 共 824.4 次阅读, 收获喜欢 1312 次。

关注

评论

发布
暂无评论

祝贺!首届龙蜥社区年度突出贡献奖揭晓,马上查看

OpenAnolis小助手

Linux 开源 互联网 社群运营

SQL学习(持续更新)

阿丞

事务 索引 sql

冬奥高质量炫技,Get同款“魔法”:图像处理算法 | 赠书

博文视点Broadview

终极指南:企业级云原生 PaaS 平台日志分析架构全面解析

尔达Erda

微服务 云原生 PaaS 云原生应用

Apache ShardingSphere 5.1.0 正式发布

SphereEx

数据库 开源社区 SphereEx Apache ShardingSphere

第十四节:SpringBoot使用JdbcTemplate访问操作数据库基本用法

入门小站

springboot

在线时序流程图制作工具

入门小站

虎符Hoo研究院:Cosmos是如何实现链与链的“港口”相连的?

区块链前沿News

Hoo 虎符交易所 虎符研究院 Cosmos

【C语言】二维数组

謓泽

C语言 2月月更 二维数组

外包学生管理系统的架构设计

yhjhero

#架构训练营

大咖说|极客邦CEO霍太稳对话阿里云存储负责人吴结生:我的数据存储20年(无限生长篇)

大咖说

阿里巴巴 InfoQ 存储线

星巴克涨价引热议!中国现磨咖啡市场目前到底如何?

易观分析

星巴克涨价 中国咖啡市场

会声会影2022语音转文字功能怎么用

懒得勤快

会声会影2022美颜功能介绍 教你玩转视频美颜

懒得勤快

2022年1月视频行业用户洞察:假期影响下活跃用户开始回升

易观分析

移动视频 视频app

巧用EasyRecovery监控硬盘!为你的电脑保驾护航!

淋雨

EasyRecovery 数据恢复’

哪里可以查到网络安全等级测评与检测评估机构目录?

行云管家

网络安全 等保 等级测评

晟盾科技加入龙蜥社区,共建开源新生态

OpenAnolis小助手

Linux 开源

迁移学习综述与未来展望 | 社区征文

战场小包

人工智能 迁移学习 新春征文 2月月更

华为云企业级Redis揭秘第16期:超越开源Redis的ACID"真"事务

华为云开发者联盟

redis 事务 ACID GaussDB(for Redis) 开源Redis

感谢认可!一封又一封的感谢信

郑州埃文科技

IP地址 网络空间 地图测绘

再见了,我的散装研发管理平台;再见了,4台ECS!

阿里云云效

阿里云 DevOps 云原生 研发 敏捷研发

英特尔2022年投资者大会:以软件解锁更大增长机遇

科技新消息

《数字经济全景白皮书》数字冰雪篇 重磅发布

易观分析

数字经济 冬奥会

会声会影2022重磅发布!会声会影2022全新功能详解

懒得勤快

网络安全kali渗透学习 web渗透入门 如何进行NESSUS漏洞检测

学神来啦

黑客马拉松(Hackathon)是什么?

Speedoooo

黑客马拉松 黑客松

学生管理系统模块4作业

刘洋

#架构实战营 「架构实战营」

面对锁等待难题,数仓如何实现问题的秒级定位和分析

华为云开发者联盟

sql GaussDB(DWS) 锁等待 分布式死锁

数据同步与缓存一致性问题

Mars

布隆过滤器 缓存一致性

记录一些Oracle操作命令

wong

oracle

昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地_芯片&算力_密瓜智能_InfoQ精选文章