一个能够简洁的显示海光 DCU 设备状态的命令行工具;
之前使用GPU时习惯了使用工具 gpustat
查看GPU状态,使用海光的 DCU 设备之后发现并没有类似的工具,于是仿照 gpustat
自己写了一个;
显示效果如下图:
python版本要求:python>=3.8
;
该工具的底层是调用的命令 rocm-smi
,所以在使用该工具前需要确保 DCU 的固件和驱动都正常安装。
pip install dcustat
使用如下命令单次获取当前 dcu 设备信息:
dcustat
使用如下命令动态刷新当前 dcu 设备信息,默认每2秒刷新一次:
dcustat --watch
可选参数如下:
usage: dcustat [-h] [-i [INTERVAL]] [--light] [--debug] [-v]
optional arguments:
-h, --help show this help message and exit
-i [INTERVAL], --interval [INTERVAL], --watch [INTERVAL]
动态刷新模式;INTERVAL为刷新间隔,单位:秒;默认每2秒刷新一次;
--light 使用较亮的模式显示,如果显示器渲染出来的结果较暗,可以打开该参数;
--debug Debug模式时允许在程序出错的情况下打印更多的调试信息;
-v, --version show program's version number and exit
有的显示器渲染结果中部分指标比较暗,如下图左侧所示。此时可以添加上 --light 参数,所有的结果都会以更亮的形式进行显示,如下图右侧所示。
dcustat --watch --light
默认 | 加--light参数 |
---|---|
sxcs-k8s-master-01 Mon Aug 7 17:35:53 2023
ID 温度, 风扇, AvgPwr / PwrCap, 显存, Core
[0] 43.0°C, 0.0%, 20.0W / 450.0W, 0.0%, 0.0%
[1] 43.0°C, 0.0%, 20.0W / 450.0W, 0.0%, 0.0%
[2] 43.0°C, 0.0%, 20.0W / 450.0W, 0.0%, 0.0%
[3] 43.0°C, 0.0%, 20.0W / 450.0W, 0.0%, 0.0%
-
header:第1行为header,展示的信息从左到右依次为机器名称、当前时间;
-
title:第2行为title,title是对后面展示的信息的各字段的说明:
-
ID
列是显卡的id; -
温度
列是显卡的当前温度; -
风扇
列是显卡风扇的当前转速; -
AvgPwr
列是平均功率; -
PwrCap
列是显卡的功率上限; -
显存
列是当前显存的使用率; -
Core
列是当前计算资源的使用率。
-
本项目的灵感、排版展示、以及代码的整体结构都是源自 gpustat
,本项目只是将其工作适配到了海光 DCU 设备上;