Explicación detallada de los comandos de la serie NVIDIA-SMI (9) - opciones de modificación del dispositivo (4)

OPCIONES DE MODIFICACIÓN DEL DISPOSITIVO

Este artículo explica la novena parte de los comandos de la serie NVIDIA-SMI: opciones de modificación del dispositivo (4), presenta y demuestra la última parte de las opciones de modificación del dispositivo del comando nvidia-smi y presenta los siguientes comandos:

Comando de límite de potencia máxima de GPU -pl.

GPU Anula o restaura la frecuencia de reloj cuda predeterminada -cc.

Comandos de modo de contabilidad de GPU -am/-acc.

Comandos relacionados con el impulso automático de GPU.

Comando de configuración MIG de corte de GPU.

Comandos relacionados con la configuración de temperatura de la GPU.

Opciones de modificación de dispositivos, comandos para modificar dispositivos GPU, la lista de parámetros admitidos es la siguiente:

    -pm,  --persistence-mode=   设置持久性模式: 0/DISABLED, 1/ENABLED
    -e,   --ecc-config=         切换 ECC 支持: 0/DISABLED, 1/ENABLED
    -p,   --reset-ecc-errors=   重置 ECC 错误计数: 0/VOLATILE, 1/AGGREGATE
    -c,   --compute-mode=       为计算应用程序设置模式:
                                0/DEFAULT, 1/EXCLUSIVE_PROCESS,
                                2/PROHIBITED
    -dm,  --driver-model=
    -fdm, --force-driver-model= 强制启用或禁用 TCC 驱动程序模型。 
                               
          --gom=                设置 GPU 操作模式:
                                0/ALL_ON, 1/COMPUTE, 2/LOW_DP
    -r    --gpu-reset           触发 GPU 的重置。
                                可用于在需要重启机器的情况下重置 GPU 硬件状态。
                                如果发生双位 ECC 错误,通常很有用。
                                重置操作不能保证在所有情况下都有效,应谨慎使用。
    -vm   --virt-mode=          切换 GPU 虚拟化模式:
                                将 GPU 虚拟化模式设置为 3/VGPU 或 4/VSGA。
                                GPU 的虚拟化模式只能在它运行在管理程序上时设置。
    -lgc  --lock-gpu-clocks=    将指定的一对 <minGpuClock,maxGpuClock> 时钟
                                频率取值范围(例如 1500,1500),设置为需锁定
                                的 GPU 时钟频率的范围(以 MHz 为单位)。 
                                无论 GPU 上是否存在正在运行的应用程序,设置此项
                                将取代applications-clocks并生效。
                                输入也可以是一个单一的期望时钟值
                                (例如 <GpuClockValue>)。
    -rgc  --reset-gpu-clocks    重置 GPU 时钟频率到默认值。
    -lmc  --lock-memory-clocks=     将指定的一对 <minMemClock,maxMemClock> 时钟
                                    频率取值范围(例如 5100,5100) ,设置为需锁定
                                    的 GPU 内存时钟频率的范围(以 MHz 为单位)。
                                    输入也可以是一个单一的期望时钟值
                                    (例如<MemClockValue>).
    -rmc  --reset-memory-clocks    重置 GPU 内存时钟频率到默认值。
    -ac   --applications-clocks= 将指定的一对 <memory,graphics> 时钟
                                    频率值(例如 2000,800) ,设置为 GPU 上
                                    运行的应用程序的memory和graphics时钟
                                    频率值(以 MHz 为单位)。
    -rac  --reset-applications-clocks     重置应用程序时钟到默认值。
    -pl   --power-limit=        以瓦特为单位指定最大电源管理限制。
    -cc   --cuda-clocks=        覆盖或恢复默认 CUDA 时钟频率。
                                在覆盖模式下,GPU 在运行 CUDA 应用程序时
                                时钟频率更高。 仅适用于从 Volta 系列开始的
                                受支持设备。 需要管理员权限。
                                0/RESTORE_DEFAULT, 1/OVERRIDE
    -am   --accounting-mode=    启用或禁用记帐模式: 0/DISABLED, 1/ENABLED
    -caa  --clear-accounted-apps    清除缓冲区中所有已记账的进程pid信息。
          --auto-boost-default= 将默认自动增强策略设置为 0/DISABLED 
                                或 1/ENABLED,仅在最后一个提升客户端
                                退出后强制执行更改。
          --auto-boost-permission=  允许非管理员/root 对自动增强模式进行控制:
                                0/UNRESTRICTED, 1/RESTRICTED
    -mig  --multi-instance-gpu= 启用或禁用多实例 GPU: 0/DISABLED, 1/ENABLED
                                需要 root 权限.
    -gtt  --gpu-target-temp=    以摄氏度为单位设置 GPU 的 GPU 目标温度。
                                需要管理员权限

-pl establezca la clasificación de potencia máxima de la GPU (unidad: vatios)

Especifica el límite máximo de potencia en vatios. Acepta números enteros y flotantes.

El valor a establecer debe estar entre la salida de límite de potencia mínima y máxima de nvidia-smi.

Aviso:

Se requieren derechos de administrador.

Afecta a todas las GPU a menos que se especifique una sola GPU con el parámetro -i.

Se ejecuta solo en dispositivos compatibles con la serie Kepler.

Rango de valores: Min admitido por el dispositivo ~ Potencia máxima admitida por el dispositivo

Los límites de potencia mínimo y máximo admitidos por diferentes dispositivos se muestran en la siguiente figura:

modelo de dispositivo mínimo Límite de potencia máxima
NIVIDA A30 100.00W 165.00W
NIVIDA A100 100.00W 400.00W
NIVIDA V100 150.00W 300.00W
Nvidia T4 60.00W 70.00W

Ejecute el ejemplo:

Establezca el límite de potencia de la GPU en 200 W para ejecutar el ejemplo:

nvidia-smi -pl 200

image

Se puede observar que la potencia de la GPU se ha modificado de 400,00 W a 200,00 W.

Ejecute nvidia-smi nuevamente, puede ver que la posición de la capacidad de energía (Pwr:Usage/ Cap ) se ha convertido en 200W

image

Aviso:

Para las tarjetas GPU del modelo A100, el límite de potencia mínimo es de 100 W y establecer un límite de potencia inferior a 100 W generará un error, por ejemplo:

nvidia-smi -pl 50

image

-cc anula o restaura el límite de frecuencia de reloj CUDA predeterminado

覆盖或恢复默认 CUDA 时钟频率。 在覆盖模式下,GPU 在运行 CUDA 应用程序时 时钟频率更高。

注意:

需要管理员权限。

除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。

仅适用于从 Volta 系列开始的受支持设备。

取值范围:0|RESTORE_DEFAULT, 1|OVERRIDE。

运行示例:

设置 GPU cuda 时钟为恢复默认0|RESTORE_DEFAULT运行示例

nvidia-smi  -cc 0

image

注意:由于本环境A100设备不支持设置Cuda时钟频率限制,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。

设置 GPU cuda 时钟为覆盖模式 1|OVERRIDE 运行示例:

nvidia-smi  -cc 1

image

注意:由于本环境A100设备不支持设置Cuda时钟频率限制,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。

-am 启用或禁用记账模式

启用或禁用 GPU 记账模式。 使用 GPU 记账模式可以跟踪单个进程的整个生命周期内的资源使用情况。

注意:

需要管理员权限。

除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。

仅可在 Kepler 系列受支持的设备上运行。

取值范围:0|DISABLED, 1|ENABLED

运行示例:

禁用 GPU 记账模式 运行示例:

nvidia-smi -am 0

image

启用 GPU 记账模式 运行示例:

nvidia-smi -am 1

image

-caa 清除缓冲区中所有已记账的进程pid信息

清除缓冲区中所有已记账的进程pid信息。

注意:

需要管理员权限。

除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。

仅可在 Kepler 系列受支持的设备上运行。

运行示例:

清除缓冲区中所有已记账的进程pid信息 运行示例:

nvidia-smi -caa

image

-mig 启用或禁用多实例 GPU 模式

启用或禁用多实例 GPU 模式。

注意:

需要root权限。

除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。

仅可在基于 NVIDIA Ampere 架构支持的设备上运行。

取值范围:0|DISABLED, 1|ENABLED

运行示例:

禁用多实例 GPU 模式 运行示例:

nvidia-smi -mig 0

image

运行nvidia-smi可以查看MIG信息:

image

启用多实例 GPU 模式 运行示例:

nvidia-smi -mig 1

image

运行nvidia-smi可以查看MIG信息:

image

可以看到,启用 MIG 模式后,nvidia-smi 会输出 MiG 设备相关的列表信息。

-gtt 以摄氏度为单位设置 GPU 的 GPU 目标温度

以摄氏度为单位设置 GPU 的 GPU 目标温度

注意:

需要管理员权限。

除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。

运行示例:

设置 GPU 目标温度限制 运行示例:

nvidia-smi  -gtt 30

image

注意:由于本环境A100设备不支持设置 GPU 目标温度限制,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。

auto boost相关设置

--auto-boost-default=模式

将默认自动提升策略设置为 0/DISABLED 或 1/ENABLED,仅在最后一个提升客户端退出后强制执行更改。

注意:

需要root权限。

除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。

仅适用于 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备。

取值范围:0/DISABLED, 1/ENABLED

运行示例:

设置启动 auto boost default 模式 运行示例:

nvidia-smi --auto-boost-default=1

image

注意:由于本环境A100设备不支持设置 GPU auto boost default模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。

设置禁用 auto boost default 模式 运行示例:

nvidia-smi --auto-boost-default=0

image

注意:由于本环境A100设备不支持设置 GPU auto boost default模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。

--auto-boost-permission=模式

允许非管理员/root 对自动增强模式进行控制。

注意:

需要root权限。

除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。

仅适用于 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备。

取值范围:0|UNRESTRICTED, 1|RESTRICTED

运行示例:

设置限制 auto boost permission 模式 运行示例:

nvidia-smi --auto-boost-permission=1

image

注意:由于本环境A100设备不支持设置 GPU auto boost permission 模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。

设置不限制 auto boost permission 模式 运行示例:

nvidia-smi --auto-boost-permission=0

image

注意:由于本环境A100设备不支持设置 GPU auto boost permission模式,因此本命令并未执行成功,此处只是为了演示命令没有错误,在支持的设备上执行此命令将会返回执行成功结果。

附加选项

-i 显示单个指定GPU的数据

-i, --id=ID

显示单个指定 GPU 的数据。指定的 id 可能是驱动程序返回的自然枚举中 GPU 的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID(如 domain:bus:device.function in hex)。建议需要一致性的用户使用 UUID 或 PCI 总线 ID,因为设备枚举顺序不能保证在重新启动之间保持一致,并且板序列号可能在同一板上的多个 GPU 之间共享。

Guess you like

Origin juejin.im/post/7121912992215597092