最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

利用 Amazon CloudWatch 监控 GPU 利用率

  • 2019-11-07
  • 本文字数:1956 字

    阅读完需:约 6 分钟

利用 Amazon CloudWatch 监控 GPU 利用率

深度学习需要进行大量的矩阵相乘和向量运算,而 GPU (图形处理单元) 可以并行处理这些运算,因为 GPU 拥有数以千计的核心。Amazon Web Services 为您提供的 P2P3 实例非常适用于运行深度学习框架,如 MXNet,该框架强调加速部署大型深度神经网络。


数据科学家和开发人员在微调网络时,希望优化其 GPU 的利用率,以使用最适当的批处理大小。在这篇博文中,我将向您展示如何使用 Amazon CloudWatch 指标监控 GPU 和内存的使用情况。至于 Amazon 系统映像 (AMI),我们建议您的实例使用 Amazon Deep Learning AMI


要监控和管理已启用 GPU 的实例,目前常见的有益做法是使用 NVIDIA 系统管理接口 (nvidia-smi),这是一个命令行实用程序。用户可以利用 nvidia-smi 查询 NVIDIA GPU 设备的 GPU 利用率、内存消耗情况、风扇使用情况、功耗以及温度信息。



由于 nvidia-smi 的基础是 NVIDIA Management Library (NVML),所以我们可以使用这个基于 C 的 API 库捕捉相同的数据点,并作为自定义指标发送给 Amazon CloudWatch。如需了解有关此库的更多信息,请转至参考手册。在这篇博文中,我们将使用此库的 Python 包装程序 pyvnml


Amazon CloudWatch 可以非常出色地监控您在 EC2 实例上的工作负载,无需设置、管理,也无需为它扩展系统和基础设施。默认情况下 CloudWatch 可提供 CPU 利用率、磁盘读取操作、磁盘写入操作、网络输入和网络输出等指标。(点击此处了解适用于您的实例的完整指标列表)


除了提供这些指标,我们还能够使用 API、软件开发工具包或 CLI 通过 Amazon CloudWatch 自定义指标推送我们自己的数据点。我们将使用 Python Boto3 软件开发工具包。


您可以在 Amazon CloudWatch 中创建自定义控制面板来查看您的资源。您还可以为您的指标创建警报。还有许多可以与 CloudWatch 结合使用的功能和服务。如果您希望访问并存储 Amazon EC2 实例生成的日志,可以使用 Amazon CloudWatch Logs。此外,Amazon CloudWatch Events 可以为您提供描述 AWS 资源变化的数据流,例如,如果有人试图在模型训练完成之前终止您的实例,您可以收到提醒。

立即设置

默认情况下,已对您的实例启用基本监控。我们会启用详细监控,Amazon EC2 控制台将以 1 分钟为间隔显示实例的监控状态。


注意:基本监控是免费的,但详细监控会收取费用。新客户和现有客户每月可免费获得 10 个指标、10 个警报,以及 100 万个 API 请求 (包括 PutMetricData)。


鉴于您的实例已运行在 Deep Learning AMI 之上,我们需要创建一个 IAM 角色,为您的实例授权,使其能够向 Amazon CloudWatch 推送指标。我们需要根据文档中的描述创建一个 EC2 服务角色。请确保您的角色允许以下策略。


Json


{      "Version": "2012-10-17",       "Statement": [              {                    "Action": [                          "cloudwatch:PutMetricData",                       ],                     "Effect": "Allow",                     "Resource": "*"              }       ] }
复制代码


接下来在您的实例上下载 Python 代码。我们将使用此脚本,将 GPU 使用情况、内存使用情况、温度和电源使用情况作为自定义 CloudWatch 指标进行推送。


安装必要的程序包,以使用代码:


Bash


sudo pip install nvidia-ml-py -ysudo pip install boto3 -y
复制代码


请确保根据您的工作负载更改命名空间和间隔。您还可以选择更改 store_reso,使用间隔缩短至 1 秒的高精度指标,从而更精确地了解 GPU 的使用情况。


默认情况下,这些是顶部的参数:


Bash


#在此处选择命名空间参数###my_NameSpace = ‘DeepLearningTrain’### 选择推送间隔 ####sleep_interval = 10### 选择存储精度 (在 1-60 之间) ####store_reso = 60
复制代码


运行脚本:


Bash


python gpumon.py
复制代码


训练完成后按 ctrl-zctrl-c 停止脚本。


以下是一个正在运行的训练的 Amazon CloudWatch 视图示例。请观察在计算过程中所有指标是如何互相关联的。


结论

在这篇博文中,我将提供一种简便的方法,它不仅可以监控 GPU 利用率,还可以监控您的 NVIDIA GPU 设备的内存、温度和电源使用情况。如果您要添加其他自定义指标或删除自定义指标,可以修改我提供的代码。接下来,就像我们在介绍时提到的,要尝试为您的指标创建 CloudWatch 警报。例如,您可以设置 Amazon SNS 通知,在模型训练期间,GPU 利用率低于 20% 即向您发送电子邮件。

补充阅读

开始使用 AWS Deep Learning AMI 进行深度学习


作者简介

**



Keji Xu 是 AWS 的解决方案架构师,现居旧金山。**他帮助客户理解云端高级解决方案,以及如何将现有的工作负载迁移到云,以实现客户的业务目标。他在闲暇时喜欢聆听音乐,以及为他的新英格兰运动队加油呐喊。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/monitoring-gpu-utilization-with-amazon-cloudwatch/


2019-11-07 08:00653

评论

发布
暂无评论
发现更多内容

Kubernetes成本优化

俞凡

Kubernetes

JProfiler 14 序列号激活 附 完整安装教程

繁星

JAVA开发 JProfiler 14

iTubeGo for Mac(网页视频下载软件)完美激活版

mac

视频下载工具 苹果mac Windows软件 iTubeGo

Modern CSV for mac(适用于Mac的CSV文件编辑器)

iMac小白

目前为止BRC-20是炒作还是泡沫

币离海

BRC-20 铭文

ClickCharts for Mac(轻量级思维导图软件)v8.67激活版

影影绰绰一往直前

SQL 的 AND、OR 和 NOT 运算符:条件筛选的高级用法

小万哥

MySQL sql 程序员 后端 开发

Rocket Typist pro for mac(文本快速输入工具)v3.0.8激活版

影影绰绰一往直前

Mate Translate for Mac(翻译软件) v8.1.3激活特别版

mac

翻译软件 苹果mac Windows软件 Mate Translate

MacOS数据库:Navicat Premium 15 for Mac中文破解版

影影绰绰一往直前

高性价比的轻量应用服务器

Hanson

Topaz Photo AI for Mac(图像处理AI软件) 2.1.2激活版

iMac小白

Rhino 8 for Mac「犀牛 3D建模工具」

繁星

犀牛3D建模软件 3d建模 Rhino 8

Amazon EC2的出现,是时代的选择了它,还是它选择了时代

淼.

Coherence X for mac(将网站转变为Mac应用程序)v4.5.2激活版

影影绰绰一往直前

Jenkins 打包shell出现gradle命令不存在,jvm内存溢出

javaNice

Java jenkins

jdk8 Stream流中将集合转成map,重复key处理,统计最大值,获取某个属性集合等10种最常用方法

javaNice

Java stream

基于FX构建大型Golang应用

俞凡

golang 架构

Topaz DeNoise AI for Mac(图片降噪软件) v3.7.2完美激活版

mac

苹果mac Windows软件 图片降噪软件 Topaz DeNoise AI

Charles for Mac中文破解版下载

影影绰绰一往直前

DAPP代币燃烧铸币质押挖矿系统开发(源码搭建)

l8l259l3365

SQL INSERT INTO 语句详解:插入新记录、多行插入和自增字段

小万哥

MySQL 数据库 sql 程序员 后端开发

iShowU Studio 2 for mac(屏幕录像编辑工具)v2.3.12注册激活版

影影绰绰一往直前

「Macos排版神器」Affinity Publisher for Mac中文直装版

彩云

Affinity Publisher

Redis缓存雪崩、击穿、穿透解释及解决方法,缓存预热,布隆过滤器 ,互斥锁

javaNice

Java redis

亚马逊Lightsail:云服务新篇章,轻松开启您的数字未来

熬夜磕代码、

亚马逊云 AWS Lightsail

menubarx for mac(强大的菜单栏浏览器工具)v1.6.5直装版

影影绰绰一往直前

Coherence X for Mac「网站转换为Mac应用」

彩云

Coherence X

ON1 Photo RAW 2024 for Mac(照片编辑器)中文版

影影绰绰一往直前

文心一言 VS 讯飞星火 VS chatgpt (138)-- 算法导论11.4 2题

福大大架构师每日一题

福大大架构师每日一题

专业核磁数据处理软件MestReNova 14破解版

iMac小白

利用 Amazon CloudWatch 监控 GPU 利用率_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章