Recientemente, el documento necesita ejecutar el código de otra persona para probarlo. Los socios del laboratorio pueden ejecutar su tarjeta gráfica 1060, pero siempre la ejecuto en el servidor y tengo problemas. En primer lugar, mi configuración final:
Python3.6.6 + Pytorch1.2.0 + cudatoolkit10.0.130 + cudnn7.6.0 + torchvision0.4.0, esta es la versión que utilicé después del éxito final.
Permítanme hablar sobre algunos problemas encontrados durante el proceso de configuración.
1. RuntimeError: error CuDNN: error CUDNN_STATUS_SUCCESS, hay una publicación que dice que se debe al problema de la versión de Python, por lo que el original python3.6.7 se reemplaza por 3.6.6.
2. Entonces RuntimeError: error CuDNN: error CUDNN_STATUS_SUCCESS
Para este problema, muchas publicaciones dicen que necesita usar cuda10 o superior para la tarjeta gráfica de 2080, así que básicamente bloquee primero la versión de cuda, intente cuda10.1.168 y luego use cuda10.0.130. Comando: conda install cudatoolkit == 10.0 .130
3. Luego instale cudnn, use directamente conda install cudnn para instalar, elegirá el paquete de instalación correspondiente a la versión de cuda.
3. Finalmente instale Pytorch, puede obtener el comando de instalación desde el sitio web oficial https://pytorch.org/get-started/locally/ , recuerde seleccionar la versión 10.0 de cuda. El comando resultante es el siguiente: conda install pytorch torchvision cudatoolkit = 10.0 -c pytorch
4. Luego hubo otro error, [Riéndose y llorando] Tantos errores. . . RuntimeError: CUDA sin memoria. Intentó asignar 352.00 MiB (GPU 0; capacidad total de 7.80 GiB; 6.45
Jaja, este error, no entre en pánico, puede que no sea un problema de su entorno, puede intentar reducir el valor de batch_size, puede establecer un valor más pequeño, como 1, 2, 4, 8, 16. . . Finalmente encuentre un valor que le convenga.
Espero que sea útil para todos, principalmente porque quiero grabarlo. Me temo que lo usaré más tarde.