Es obvio que hay suficiente almacenamiento pero se informa el error CUDA sin memoria

Encontré este problema al ejecutar yolov5. Es inútil reducir el tamaño del lote = 1 y es inútil ajustar el número de trabajadores a 1. El conjunto de datos se reduce a solo 50 imágenes y no se puede ejecutar, y no es debido. a varias tarjetas El problema del entrenamiento (mi computadora solo tiene una tarjeta gráfica). Se puede ejecutar otra computadora con la misma configuración, y ayer se pudo ejecutar, pero de repente no se puede ejecutar hoy. El error muestra "Intenté asignar 64.00 MiB, pero 2Gib libres, no tengo una imagen aquí y no hay almacenamiento. La implicación es que todavía tengo 2 GB de memoria de video libre, pero se informa un error al cargar 64 MB. La memoria de video libre aquí se refiere al hecho de que se ha eliminado pytorch. La memoria libre de la memoria de video reservada.

Proceso de solución:

Al principio pensé que había un proceso en segundo plano consumiendo memoria, pero tanto el administrador de tareas como nvidia-smi demostraron que no había ningún problema.

Más tarde pensé que era un problema con CUDA o cudnn. Desinstalar y reinstalar CUDA fue inútil. Originalmente se informó como CUDA sin memoria y luego como tubería rota.

Más tarde pensé que era un conflicto entre tensorflow y pytorch. Algunas depuraciones siguen siendo inútiles.

Solución:

Al final descubrí que era un problema ambiental. Debería deberse al conflicto causado por no saber qué módulos se agregaron ayer durante el desarrollo. Tengo la costumbre de hacer una copia de seguridad del entorno. Puse el entorno original. De nuevo en el entorno anaconda y eliminó el entorno problemático, puede ejecutar.

Supongo que te gusta

Origin blog.csdn.net/m0_50317149/article/details/132308495
Recomendado
Clasificación