设备修改选项(DEVICE MODIFICATION OPTIONS)
本文为NVIDIA-SMI系列命令详解第九篇-设备修改选项(4),介绍和演示了nvidia-smi 命令的设备修改选项最后一部分,介绍了如下命令:
GPU 最大电源功率限制命令 -pl。
GPU 覆盖或者恢复默认 cuda 时钟频率 -cc。
GPU 记账模式命令 -am/-acc。
GPU auto boost相关命令。
GPU 切MIG设置命令。
GPU 温度设置相关命令。
设备修改选项,修改GPU设备的命令,支持的参数列表如下:
-pm, --persistence-mode= 设置持久性模式: 0/DISABLED, 1/ENABLED
-e, --ecc-config= 切换 ECC 支持: 0/DISABLED, 1/ENABLED
-p, --reset-ecc-errors= 重置 ECC 错误计数: 0/VOLATILE, 1/AGGREGATE
-c, --compute-mode= 为计算应用程序设置模式:
0/DEFAULT, 1/EXCLUSIVE_PROCESS,
2/PROHIBITED
-dm, --driver-model=
-fdm, --force-driver-model= 强制启用或禁用 TCC 驱动程序模型。
--gom= 设置 GPU 操作模式:
0/ALL_ON, 1/COMPUTE, 2/LOW_DP
-r --gpu-reset 触发 GPU 的重置。
可用于在需要重启机器的情况下重置 GPU 硬件状态。
如果发生双位 ECC 错误,通常很有用。
重置操作不能保证在所有情况下都有效,应谨慎使用。
-vm --virt-mode= 切换 GPU 虚拟化模式:
将 GPU 虚拟化模式设置为 3/VGPU 或 4/VSGA。
GPU 的虚拟化模式只能在它运行在管理程序上时设置。
-lgc --lock-gpu-clocks= 将指定的一对 <minGpuClock,maxGpuClock> 时钟
频率取值范围(例如 1500,1500),设置为需锁定
的 GPU 时钟频率的范围(以 MHz 为单位)。
无论 GPU 上是否存在正在运行的应用程序,设置此项
将取代applications-clocks并生效。
输入也可以是一个单一的期望时钟值
(例如 <GpuClockValue>)。
-rgc --reset-gpu-clocks 重置 GPU 时钟频率到默认值。
-lmc --lock-memory-clocks= 将指定的一对 <minMemClock,maxMemClock> 时钟
频率取值范围(例如 5100,5100) ,设置为需锁定
的 GPU 内存时钟频率的范围(以 MHz 为单位)。
输入也可以是一个单一的期望时钟值
(例如<MemClockValue>).
-rmc --reset-memory-clocks 重置 GPU 内存时钟频率到默认值。
-ac --applications-clocks= 将指定的一对 <memory,graphics> 时钟
频率值(例如 2000,800) ,设置为 GPU 上
运行的应用程序的memory和graphics时钟
频率值(以 MHz 为单位)。
-rac --reset-applications-clocks 重置应用程序时钟到默认值。
-pl --power-limit= 以瓦特为单位指定最大电源管理限制。
-cc --cuda-clocks= 覆盖或恢复默认 CUDA 时钟频率。
在覆盖模式下,GPU 在运行 CUDA 应用程序时
时钟频率更高。 仅适用于从 Volta 系列开始的
受支持设备。 需要管理员权限。
0/RESTORE_DEFAULT, 1/OVERRIDE
-am --accounting-mode= 启用或禁用记帐模式: 0/DISABLED, 1/ENABLED
-caa --clear-accounted-apps 清除缓冲区中所有已记账的进程pid信息。
--auto-boost-default= 将默认自动增强策略设置为 0/DISABLED
或 1/ENABLED,仅在最后一个提升客户端
退出后强制执行更改。
--auto-boost-permission= 允许非管理员/root 对自动增强模式进行控制:
0/UNRESTRICTED, 1/RESTRICTED
-mig --multi-instance-gpu= 启用或禁用多实例 GPU: 0/DISABLED, 1/ENABLED
需要 root 权限.
-gtt --gpu-target-temp= 以摄氏度为单位设置 GPU 的 GPU 目标温度。
需要管理员权限
-pl 设置GPU最大额定功率(单位:瓦特)
以瓦特为单位指定最大功率限制。 接受整数和浮点数。
被设置的值需要在 nvidia-smi 输出的 Min 和 Max Power Limit 之间。
注意:
需要管理员权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
仅可在 Kepler 系列受支持的设备上运行。
取值范围:设备支持的Min~设备支持的最大功率
不同设备支持的Min和Max Power Limit如下图所示:
设备型号 | Min | Max Power Limit |
---|---|---|
NIVIDA A30 | 100.00W | 165.00W |
NIVIDA A100 | 100.00W | 400.00W |
NIVIDA V100 | 150.00W | 300.00W |
NVIDIA T4 | 60.00W | 70.00W |
运行示例:
设置 GPU 功率限制为200 W运行示例:
nvidia-smi -pl 200
可以看到GPU的功率从400.00 W修改到 200.00 W。
再次执行nvidia-smi,可以看到功率容量(Pwr:Usage/Cap)的位置已经变成 200W
注意:
对于 A100 型号 GPU 卡,最小限制功率为 100W,设置低于 100W 的功率限制将会报错,例如:
nvidia-smi -pl 50
-cc 覆盖或恢复默认 CUDA 时钟频率限制
覆盖或恢复默认 CUDA 时钟频率。 在覆盖模式下,GPU 在运行 CUDA 应用程序时 时钟频率更高。
注意:
需要管理员权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
仅适用于从 Volta 系列开始的受支持设备。
取值范围:0|RESTORE_DEFAULT, 1|OVERRIDE。
运行示例:
设置 GPU cuda 时钟为恢复默认0|RESTORE_DEFAULT运行示例:
nvidia-smi -cc 0
注意:由于本环境A100设备不支持设置Cuda时钟频率限制,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。
设置 GPU cuda 时钟为覆盖模式 1|OVERRIDE 运行示例:
nvidia-smi -cc 1
注意:由于本环境A100设备不支持设置Cuda时钟频率限制,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。
-am 启用或禁用记账模式
启用或禁用 GPU 记账模式。 使用 GPU 记账模式可以跟踪单个进程的整个生命周期内的资源使用情况。
注意:
需要管理员权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
仅可在 Kepler 系列受支持的设备上运行。
取值范围:0|DISABLED, 1|ENABLED
运行示例:
禁用 GPU 记账模式 运行示例:
nvidia-smi -am 0
启用 GPU 记账模式 运行示例:
nvidia-smi -am 1
-caa 清除缓冲区中所有已记账的进程pid信息
清除缓冲区中所有已记账的进程pid信息。
注意:
需要管理员权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
仅可在 Kepler 系列受支持的设备上运行。
运行示例:
清除缓冲区中所有已记账的进程pid信息 运行示例:
nvidia-smi -caa
-mig 启用或禁用多实例 GPU 模式
启用或禁用多实例 GPU 模式。
注意:
需要root权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
仅可在基于 NVIDIA Ampere 架构支持的设备上运行。
取值范围:0|DISABLED, 1|ENABLED
运行示例:
禁用多实例 GPU 模式 运行示例:
nvidia-smi -mig 0
运行nvidia-smi可以查看MIG信息:
启用多实例 GPU 模式 运行示例:
nvidia-smi -mig 1
运行nvidia-smi可以查看MIG信息:
可以看到,启用 MIG 模式后,nvidia-smi 会输出 MiG 设备相关的列表信息。
-gtt 以摄氏度为单位设置 GPU 的 GPU 目标温度
以摄氏度为单位设置 GPU 的 GPU 目标温度
注意:
需要管理员权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
运行示例:
设置 GPU 目标温度限制 运行示例:
nvidia-smi -gtt 30
注意:由于本环境A100设备不支持设置 GPU 目标温度限制,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。
auto boost相关设置
--auto-boost-default=模式
将默认自动提升策略设置为 0/DISABLED 或 1/ENABLED,仅在最后一个提升客户端退出后强制执行更改。
注意:
需要root权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
仅适用于 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备。
取值范围:0/DISABLED, 1/ENABLED
运行示例:
设置启动 auto boost default 模式 运行示例:
nvidia-smi --auto-boost-default=1
注意:由于本环境A100设备不支持设置 GPU auto boost default模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。
设置禁用 auto boost default 模式 运行示例:
nvidia-smi --auto-boost-default=0
注意:由于本环境A100设备不支持设置 GPU auto boost default模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。
--auto-boost-permission=模式
允许非管理员/root 对自动增强模式进行控制。
注意:
需要root权限。
除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。
仅适用于 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备。
取值范围:0|UNRESTRICTED, 1|RESTRICTED
运行示例:
设置限制 auto boost permission 模式 运行示例:
nvidia-smi --auto-boost-permission=1
注意:由于本环境A100设备不支持设置 GPU auto boost permission 模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。
设置不限制 auto boost permission 模式 运行示例:
nvidia-smi --auto-boost-permission=0
注意:由于本环境A100设备不支持设置 GPU auto boost permission模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。
附加选项
-i 显示单个指定GPU的数据
-i, --id=ID
显示单个指定 GPU 的数据。指定的 id 可能是驱动程序返回的自然枚举中 GPU 的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID(如 domain:bus:device.function in hex)。建议需要一致性的用户使用 UUID 或 PCI 总线 ID,因为设备枚举顺序不能保证在重新启动之间保持一致,并且板序列号可能在同一板上的多个 GPU 之间共享。