Uso real de la memoria de video durante el entrenamiento del modelo usando monitoreo multiproceso nvidia-smi - Code World

Uso real de la memoria de video durante el entrenamiento del modelo usando monitoreo multiproceso nvidia-smi

Enterprise 2023-09-19 04:43:35 views: null

Cuando se usa torch.cuda.max_allocated_memory, solo se puede devolver el tamaño de la memoria ocupada por el tensor de la antorcha. Es necesario agregar el tamaño del modelo y el tamaño de carga del modelo no es simplemente el tamaño de la carpeta del modelo. Por el momento, solo observe el comando -n 0.1 nvidia-smi para monitoreo humano.

Además, los tiempos de ejecución como TRT no admiten los métodos torch.cuda.

Aquí abrí un hilo para monitorear la memoria.

import nvidia_smi
from threading import Thread
from multiprocessing import Process
import time

class Monitor(Thread):
    def __init__(self, delay, index):
        super(Monitor, self).__init__()
        self.stopped = False
        self.index=index
        self.delay = delay # Time between calls to nvidia-smi
        # st mem
        nvidia_smi.nvmlInit()
        handle = nvidia_smi.nvmlDeviceGetHandleByIndex(index)
        info = nvidia_smi.nvmlDeviceGetMemoryInfo(handle)
        self.st_mem=info.used
        print( "start used memory is {} GiB".format(info.used* 1.0 / 1024**3))
        nvidia_smi.nvmlShutdown()
        #st_end
        self.max_mem=0
        time.sleep(self.delay)
        
        self.start()

    def run(self):
        while not self.stopped:
            nvidia_smi.nvmlInit()
            handle = nvidia_smi.nvmlDeviceGetHandleByIndex(self.index)
            info = nvidia_smi.nvmlDeviceGetMemoryInfo(handle)
            self.max_mem=max(self.max_mem, info.used)
            nvidia_smi.nvmlShutdown()
            time.sleep(self.delay)

    def stop(self):
        self.stopped = True
        res=(self.max_mem-self.st_mem)* 1.0 / 1024**3
        print( "total used memory is {} GiB".format(res))
        return res
        
if __name__=="__main__":
    # Instantiate monitor with a 10-second delay between updates
    monitor = Monitor(0.1,0)

    # Train, etc.
    time.sleep(1)

    # Close monitor
    monitor.stop()

Supongo que te gusta

Origin blog.csdn.net/qq_52712475/article/details/132763538

Uso real de la memoria de video durante el entrenamiento del modelo usando monitoreo multiproceso nvidia-smi

Resumen de optimización del algoritmo: Transofomer evita la memoria de video insuficiente y el tiempo de entrenamiento excesivo

Monitoreo de la memoria del servidor de monitoreo Prometheus

Objective C monitoreo de memoria de aplicaciones y el tamaño de uso de la CPU

La memoria virtual, herramientas de monitoreo en tiempo real (vmstat)

Visualización (1): durante el proceso de entrenamiento del modelo, dibuje una visualización de las características

Linux ver el uso de la memoria del proceso

La Universidad de Fudan lanzó la tecnología de optimización de memoria baja LOMO | ¡Reduce el uso de memoria del entrenamiento de modelos grandes al 10,8%, que está muy por delante de DeepSpeed!

El modelo de memoria del programa: cuatro áreas de memoria

El problema de la pérdida de memoria y la solución durante el uso de apio

Revelando el secreto de la explosión de la memoria: resolviendo el problema OOM del entrenamiento distribuido de modelos grandes

[Linux] Obtenga el uso de memoria del sistema en tiempo real a través de / proc / meminfo

Monitoreo del disco de memoria de Rabbitmq

Explicación detallada de los comandos de la serie NVIDIA-SMI (7) - opciones de modificación del dispositivo (2)

Explicación detallada de los comandos de la serie NVIDIA-SMI (6) - opciones de modificación del dispositivo (1)

Explicación detallada de los comandos de la serie NVIDIA-SMI (9) - opciones de modificación del dispositivo (4)

Explicación detallada de los comandos de la serie NVIDIA-SMI (8) - opciones de modificación del dispositivo (3)

Explicar el proceso necesario del modelo de entrenamiento pytorch

Resuelva el problema de inconsistencia entre la versión nvcc -V de ubuntu cuda y nvidia-smi

Procesamiento de programas multiproceso en Python e interacción simple con el sistema (verifique el uso de la CPU, verifique el uso del disco del sistema, etc.);

Ver el modelo de memoria del servidor y la frecuencia principal

Etiquetado de datos para el entrenamiento del modelo de detección de objetivos de imagen de PaddleDetect: uso de labelme para el etiquetado

escritura del golpe para el seguimiento de uso de la memoria en Linux

El uso de multiproceso de Python, un subproceso llama a otro subproceso, el subproceso guardián, el uso del grupo de subprocesos, el uso de bloqueos multiproceso

03_Entrenamiento del modelo PyTorch [La clase de conjunto de datos lee el conjunto de datos]

[Comprensión profunda de PyTorch] Explicación detallada de la red neuronal y el proceso de entrenamiento del modelo

Winform implementado en el uso de memoria CPU monitoreo (con códigos)

Python: Realice el monitoreo de la entrada del teclado durante la ejecución del programa abriendo un nuevo hilo para monitorear eventos

[Entrenamiento del modelo] Ubuntu compila el entrenamiento de Darknet y YOLO

Explique el uso del área de pila, montón y método en la memoria.

Recomendado

Clasificación

Diario

Más

2024-05-04(17)

2024-05-03(8)

2024-05-02(0)

2024-05-01(4)

2024-04-30(33)

2024-04-29(5)

2024-04-28(9)

2024-04-27(28)

2024-04-26(22)

2024-04-25(34)