Transferencia desde https://blog.csdn.net/handsome_bear/article/details/80903477
Comandos comunes: watch -n 1 nvidia-smi Ver GPU en tiempo real
1 Introducción a NVIDIA-SMI
nvidia-smi, o NVSMI para abreviar, proporciona funciones para monitorear el uso de GPU y cambiar el estado de la GPU. Es una herramienta multiplataforma que admite distribuciones de Linux compatibles con todos los controladores NVIDIA estándar y sistemas de 64 bits a partir de Windows Server 2008 R2.Esta herramienta se incluye con el controlador de la tarjeta N, siempre que el controlador esté instalado, estará disponible.
Ubicación del programa en Windows: C: \ Archivos de programa \ NVIDIA Corporation \ NVSMI \ nvidia-smi.exe. La ubicación del programa en Linux: / usr / bin / nvidia-smi. Dado que la ubicación se ha agregado a la ruta de la RUTA, puede ingresar directamente nvidia-smi para ejecutar.
2 Explicación detallada de la serie de comandos NVIDIA-SMI
2.1 nvidia-smi
Muestra el estado actual de la información de todas las GPU
En la tabla mostrada:
Ventilador: velocidad del ventilador (0% -100%), N / A significa que no hay ventilador
Temp: temperatura de GPU (la temperatura de GPU demasiado alta hará que la frecuencia de GPU disminuya)
Perf: estado de rendimiento, de P0 (rendimiento máximo) a P12 (rendimiento mínimo)
Pwr: consumo de energía GPU
Persistencia-M: estado de modo persistente (el modo persistente consume mucha energía, pero se tarda menos tiempo en iniciar una nueva aplicación de GPU)
Bus-Id: bus GPU, dominio: bus: dispositivo.función
Disp.A: Pantalla activa, que indica si la pantalla de la GPU está inicializada
Uso de memoria: uso de memoria
Utilidad de GPU volátil: uso de GPU
ECC: si se debe habilitar la tecnología de corrección y verificación de errores, 0 / DESACTIVADO, 1 / HABILITADO
Calcular M .: Modo de cálculo, 0 / PREDETERMINADO, 1 / PROCESO EXCLUSIVO, 2 / PROHIBIDO
Opciones adicionales:
nvidia-smi –i xxx
Especifica una GPU
nvidia-smi –l xxx
Información de actualización dinámica (actualización predeterminada cada 5 s), presione Ctrl + C para detener, puede especificar la frecuencia de actualización, en segundos
nvidia-smi –f xxx
Envíe la información de la consulta a un archivo específico, que no se muestra en el terminal
2.2 nvidia-smi -q
Consultar la información detallada actual de todas las GPU
Opciones adicionales:
nvidia-smi –q –u
Unidad de visualización en lugar de propiedades de GPU
nvidia-smi –q –i xxx
Especifique información específica de GPU o unidad
nvidia-smi –q –f xxx
Envíe la información de la consulta a un archivo específico, que no se muestra en el terminal
nvidia-smi –q –x
Salida de la información de la consulta como xml
nvidia-smi -q –d xxx
Especifica que se muestre cierta información de la tarjeta GPU. El parámetro xxx puede ser MEMORIA, UTILIZACIÓN, ECC, TEMPERATURA, POTENCIA, RELOJ, COMPUTAR, PIDS, RENDIMIENTO, RELOJES SOPORTADOS, RETIRO DE PÁGINA, CONTABILIDAD
nvidia-smi –q –l xxx
Información de actualización dinámica, presione Ctrl + C para detener, puede especificar la frecuencia de actualización, en segundos
nvidia-smi --query-gpu = gpu_name, gpu_bus_id, vbios_version - format = csv
Opciones de consulta selectiva, puede especificar las opciones de atributo mostradas
Las propiedades que se pueden ver son: marca de tiempo, versión de controlador, pci.bus, pcie.link.width.current, etc. (Puede consultar nvidia-smi - help-query - gpu para ver qué atributos)
2.3 Opciones de modificación del dispositivo
Puede configurar manualmente las opciones de estado del dispositivo de la tarjeta GPU
nvidia-smi –pm 0/1
Establecer modo persistente: 0 / DESACTIVADO, 1 / HABILITADO
nvidia-smi –e 0/1
Cambiar compatibilidad con ECC: 0 / DESACTIVADO, 1 / HABILITADO
nvidia-smi –p 0/1
Restablecer recuento de errores ECC: 0 / VOLÁTIL, 1 / AGREGAR
nvidia-smi –c
Establecer el modo de aplicación de cálculo: 0 / PREDETERMINADO, 1 / PROCESO EXCLUSIVO, 2 / PROHIBIDO
nvidia-smi –r
Reinicio de GPU
nvidia-smi –vm
Establecer modo de virtualización de GPU
nvidia-smi –ac xxx, xxx
Establece la frecuencia de trabajo de la GPU. por ejemplo, nvidia-smi --ac2000,800
nvidia-smi -Rincón
Restablecer la frecuencia del reloj a la predeterminada
nvidia-smi -acp 0/1
Requisitos de permiso para cambiar entre -ac y -rac, 0 / SIN RESTRICCIÓN, 1 / RESTRINGIDA
nvidia-smi -pl
Especifique el límite máximo de administración de energía (vatios)
nvidia-smi –am 0/1
Habilitar o deshabilitar el modo de conteo, 0 / DESACTIVADO, 1 / HABILITADO
nvidia-smi - caa
Borrar todos los PID grabados en el búfer, 0 / DESHABILITADO, 1 / HABILITADO
2.4 nvidia-smi dmon
Los comandos de supervisión del dispositivo muestran las estadísticas del dispositivo GPU en forma de barras de desplazamiento.
Las estadísticas de la GPU se muestran en un formato de desplazamiento de una línea, y los indicadores que se deben monitorear se pueden ajustar según el ancho de la ventana del terminal. Monitoree hasta 4 GPU, si no se especifica una GPU, monitoree GPU0-GPU3 de forma predeterminada (el índice de GPU comienza desde 0).
Opciones adicionales:
nvidia-smi dmon –i xxx
Índice de GPU separado, ID de bus PCI o UUID con coma
nvidia-smi dmon –d xxx
Especifique el tiempo de actualización (el valor predeterminado es 1 segundo)
nvidia-smi dmon –c xxx
Mostrar el número especificado de estadísticas y salir
nvidia-smi dmon –s xxx
Especifique qué indicadores de monitoreo mostrar (el valor predeterminado es puc), donde:
p: uso de energía y temperatura (pwr: consumo de energía, temperatura: temperatura)
u: uso de GPU (sm: procesador de flujo, mem: memoria de video, enc: recursos de codificación, dec: recursos de decodificación)
c: procesador GPU y frecuencia de reloj de memoria GPU (mclk: frecuencia de memoria de video, pclk: frecuencia de procesador)
v: potencia y calor anormales
m: memoria FB y memoria Bar1
e: Número de errores de ECC y errores de visualización de PCIe
t: ancho de banda de lectura y escritura PCIe
nvidia-smi dmon -o D / T
Especifique el formato de hora mostrado D: AAAAMMDD, THH: MM: SS
nvidia-smi dmon –f xxx
Envíe la información de la consulta a un archivo específico, que no se muestra en el terminal
2.5 nvidia-smi pmon
Comando de supervisión del proceso para mostrar la información del estado del proceso de la GPU en forma de barra de desplazamiento.
Las estadísticas del proceso de GPU se muestran en un formato de desplazamiento de una línea. Esta herramienta enumera las estadísticas de todos los procesos de GPU. Los indicadores a monitorear se pueden ajustar según el ancho de la ventana del terminal. Monitoree hasta 4 GPU, si no se especifica una GPU, monitoree GPU0-GPU3 de forma predeterminada (el índice de GPU comienza desde 0).
Opciones adicionales:
nvidia-smi pmon –i xxx
Índice de GPU separado, ID de bus PCI o UUID con coma
nvidia-smi pmon –d xxx
Especifique el tiempo de actualización (el valor predeterminado es 1 segundo, el máximo es 10 segundos)
nvidia-smi pmon –c xxx
Mostrar el número especificado de estadísticas y salir
nvidia-smi pmon –s xxx
Especifique qué indicadores de monitoreo mostrar (el valor predeterminado es u), donde:
u: uso de GPU
m: uso de memoria FB
nvidia-smi pmon –o D / T
Especifique el formato de hora mostrado D: AAAAMMDD, THH: MM: SS
nvidia-smi pmon –f xxx
Envíe la información de la consulta a un archivo específico, que no se muestra en el terminal
2.6 nvidia-smi actualiza y resalta el estado en tiempo real
reloj -n 1 -d nvidia-smi