【锁定直播】字节、华为云、阿里云等技术专家讨论如何将大模型接入 AIOps 解决实际问题,戳>>> 了解详情
写点什么

在 GCP 搭建使用 NVIDIA GPU 做机器学习的 K8S 集群

  • 2021-03-24
  • 本文字数:1665 字

    阅读完需:约 5 分钟

在 GCP 搭建使用 NVIDIA GPU 做机器学习的 K8S 集群

本文介绍如何使用 NVIDIA 官方推荐工具和 K8S 插件,在谷歌云 GCP 的虚机上搭建用于机器学习任务的带显卡 K8S 集群。

 

另外,也介绍了如何更新 K8S 插件,来解决当带显卡 Node 维护重启时,由于 GPU ID 发生变化而导致训练任务无法继续的问题。该问题的描述可以参考在线记录。注意,该问题在使用各公有云虚机时都可能发生,触发原因是虚机维护重启后,从一台宿主机迁移到另一台宿主机,所配置的显卡实例也随之改变,显卡 ID 变化,而 NVIDIA K8S 插件在 0.9.0 版本之前不能容忍这个变化,而导致上层 Tensorflow 等应用无法在重启后获取到显卡。此问题在谷歌云 GKE 环境中不会发生,因为谷歌云 GKE 使用的是定制版插件。

 

本文搭建一个包含一台 Master 和一台 Node 的 K8S 集群,其中 Node 上配置一块 NVIDIA T4 显卡。之后复现显卡 ID 问题,并介绍升级环境解决问题的步骤。

创建虚机实例

 

在谷歌云控制台创建以下配置的虚机。注意确认使用的项目和区域有充足的 CPU 和 GPU quota。

●      一台 Master 节点

○      k8s-m

○      n1-standard-1

○      Ubuntu LTS 16.04

 

●      一台 Node 节点

○      k8s-t4-node

○      n1-standard-1

○      Ubuntu LTS 16.04

○      T4 GPU

创建完后确认 master 和 node 都运行正常。

搭建 K8S 集群

 

参考 NVIDIA 官方文档

https://docs.nvidia.com/datacenter/cloud-native/kubernetes/install-k8s.html#option-1-installing-kubernetes-using-deepops

以及 DeepOps 文档

https://github.com/NVIDIA/deepops/tree/master/docs/k8s-cluster

首先,登录到 k8s-m,执行以下命令安装 Ansible 工具

下载并初始化 DeepOps 脚本

创建 SSH 密钥对,并将公钥配置为 Node 的允许密钥。注意要将私钥配置为其它用户不可访问。

参照下面截图更改 Ansible 配置文件,指定 K8S 的 master 和 node 信息,以及密钥对信息



验证 Ansible 配置


启动 Ansible 来安装 K8S 集群

安装完成后,用下面命令来验证集群运行正常


在 gpu01 节点上运行以下命令确认容器环境可以识别到显卡。

注意:Image 版本需要参考官方文档

至此,K8S 集群安装完毕。现在可以部署机器学习训练或预测任务在此集群。

复现节点重启后 GPU Device ID 变化问题

 

在刚搭建好的 K8S 集群 master 上查看 NVIDIA K8S Plugin 的版本




根据输出,此集群上使用的 NVIDIA K8S 插件为 0.7.0 版本。此版本会产生重启后显卡 Device ID 变化而找不到显卡的问题。

 

查看当前显卡 Device ID 。

 



用下面命令用序号查看显卡设备。

 


安装并运行测试程序容器 nvidia-loop 。其功能是持续占用显卡并不断打印 GPU Device ID 。

 


查看 nvidia-loop 的日志

 


以上命令都应该成功无错。到此都不会出现任何问题。

 

使用以下命令模拟 GCP 虚机维护事件。

 


命令完成后 1 小时,节点会进行重启( 1 小时延迟因为需要完成一个重启前一小时的通知消息)。重启后 node 虚机应该会迁移到另一台宿主机并配置不同 ID 的显卡。此时可以登录到 Node 来查看 GPU Device ID。

 


也可以使用 cuda 镜像来测试在容器内获取 GPU Device ID,也一样发生了变化

可以看到 Device ID 发生了变化。

 

此时查看 nvidia-loop 容器的状态,由于 Device UUID 发生了变化,导致不断 crash。

 


查看 pod 描述,可以看到具体错误为 UUID 变化。

 


修复节点重启后 GPU Device ID 变化问题

 

下面步骤验证 NVIDIA K8S Plugin release 0.9.0 修复了节点重启后 Device ID 变化的问题。

 

首先安装 NVIDIA K8S Plugin 的 0.9.0 版本,并删除之前版本。

 


确认安装成功

 


更新 Node 上 nvidia-runtime 的配置文件,允许 volume mount (否则测试容器 nvidia-loop 会运行失败)。

现在 K8S 插件更新完毕。可以验证问题修复。

 

再次使用以下命令模拟 GCP 虚机维护事件。



等一小时后维护重启完成后,查看 nvidia-loop 容器状态,应该是 Running,而不会再因为维护重启而导致崩溃。

 


也可以查看 nvidia-loop 的日志,确保输出 ID 正常。

 

kubectl logs nvidia-loop --tail=5

参考文档

 

[1] Using the GPU id instead of uuid in the NVIDIA device plugin

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-03-24 17:451427

评论

发布
暂无评论
发现更多内容

“息壤”引领首个算力互联互通验证平台建设,天翼云开启算力互联网新纪元!

天翼云开发者社区

人工智能 云计算

一文弄懂 OceanBase 用户管理和访问控制

爱可生开源社区

MySQL oceanbase

赋能政企深度用云,华为云数据库大咖有话说

YG科技

从新手游上线看游戏数据库选型

YG科技

AI赋能文明的发展,就看低代码了吗?

EquatorCoco

低代码 AI赋能

谷歌正研发“人类最强大模型”!开启智能模型的新纪元:探索迭代发展和低代码开发平台的无限可能

不在线第一只蜗牛

低代码 谷歌 人工智能模型 ChatGPT

数智底座必备能力之轻松驾驭新技术

用友BIP

数智底座 Pass平台

鲸鸿动能对话汽车之家,全链路营销助力新增长

最新动态

共筑数字化未来 金山办公携手华为云完成文档中心和GaussDB适配

YG科技

「悟道·视界」视觉大模型系列,6项领先成果技术详解

硬科技星球

停机不收费!华为云RDS for MySQL降本有奇招

轶天下事

路径万千,华为云数据库选择珠峰北坡登顶,给世界一个更优选择

YG科技

即时通讯系统为什么选择GaussDB(for Redis)?

YG科技

瓴羊Quick BI数据门户,让企业数据管理一目了然

巷子

全量通过!华为云GaussDB首批完成信通院全密态数据库评测

YG科技

分布式机器学习(Parameter Server)

这我可不懂

机器学习 分布式

go语言中如何实现同步操作呢

高端章鱼哥

Go 语言

深耕数据库根技术,华为云云原生数据库推动汽车产业数智升级

轶天下事

Redis跳跃表是如何添加元素的?

王磊

java面试

挑选最佳美国主机,让你的网站飞跃

一只扑棱蛾子

美国主机

海量数据运维要给力,华为云GaussDB(for Cassandra)来助力

YG科技

[Paddle] ERNIE-UIE 通用信息抽取模型(含自定义细分领域模型训练)

alexgaoyh

paddle 文心 ERNIE 数据标注 ernie-uie doccano

苏光牛:坚持产品能力的升级,做金融数字化的坚实数据底座

YG科技

【精彩回顾】华为云亮相2023开放原子全球开源峰会

华为云开源

#云原生 #开源

解析数字信息时代下的信息安全挑战:大道至简——JNPF快速开发平台的低代码之光

快乐非自愿限量之名

低代码 信息安全 企业数字化 低代码数字转型

inBuilder今日分享丨RPM包制作入门

inBuilder低代码平台

宝兰德应用服务器软件与华为云GaussDB完成兼容互认证

YG科技

悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆

硬科技星球

2023-06-27:redis中什么是缓存雪崩?该如何解决?

福大大架构师每日一题

Redis 7 福大大架构师每日一题

MacOS专业截屏指南——截屏技巧和截屏工具分享

互联网工科生

macos mac截图工具

“云创未来,共享生态”——支付宝小程序云产品发布会,报名开启!

TRaaS

小程序

在 GCP 搭建使用 NVIDIA GPU 做机器学习的 K8S 集群_语言 & 开发_于有志_InfoQ精选文章