Docker configura la versión gpu del entorno pytorch - detección de defectos de implementación - Anomalib

1. Docker configura la versión gpu del entorno pyhorch

1. El controlador de la tarjeta gráfica, la versión de cuda y la versión de pytorch cuda se corresponden entre sí.

2. Tira la imagen

  • docker.hubExtraiga la imagen directamente desde: Encuentre la imagen de pytorchpytorch del entorno que necesita

  • Haga clic para copiar el enlace de la versión de desarrollo.

     docker pull pytorch/pytorch:1.9.1-cuda11.1-cudnn8-devel
    

2. Implementar Anomalib

1. Descargar Anomalib

2. Cree el contenedor y ejecútelo.

Necesitamos ejecutar Anomalib en el contenedor de la ventana acoplable, por lo que debemos montar el archivo host en el contenedor.

  • Ruta del host:/home/dell/ljn/anomalib
docker run -it --name="pytorch_docker" \
              --gpus=all \
              --shm-size=64G \	
              -v /home/dell/ljn/anomalib:/workspace/anomalib \
              pytorch/pytorch:1.9.1-cuda11.1-cudnn8-devel /bin/bash

Si ejecuta pytorch en la ventana acoplable sin agregar esta --shm-size=64Glínea se informará un error.

  • ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).
  • Dado que shm (memoria compartida) está limitada de forma predeterminada en la imagen de la ventana acoplable, pytorch usa shm durante el procesamiento de datos. Esto da como resultado que el DataLoader que excede el límite se elimine directamente cuando se ejecutan subprocesos múltiples.
  • --shm-size=64G: Configure aquí 64G, configúrelo de acuerdo con el rendimiento de su propia computadora
  • Después de que el contenedor se esté ejecutando, podrá ver el directorio montado.
jn@ljn-Alienware-13:~/ai_project/anomalib$ ./run_docker.sh 
root@440738bd07a3:/workspace# ls
anomalib
root@440738bd07a3:/workspace# 
  • verificar
ncvv -V 
nvidia-smi

Insertar descripción de la imagen aquí

3. Instale Anomalib

Ingrese la ruta del proyecto

cd anomalib/anomalib-main

Instalar dependencias

pip install update
pip install -e .
pip install wandb

prueba:

  • implementar

    python tools/train.py 
    
  • Error de ejecución:ImportError: libGL.so.1: cannot open shared object file: No such file or directory
    Insertar descripción de la imagen aquí

  • Necesito instalar opencv

    apt-get update
    apt-get install libopencv-dev
    
  • Ejecutar nuevamente:python tools/train.py

  • Informar un errorImportError: cannot import name 'KeypointRCNN_ResNet50_FPN_Weights' from 'torchvision.models.detection' (/opt/conda/lib/python3.7/site-packages/torchvision/models/detection/__init__.py)
    Insertar descripción de la imagen aquí

  • torchvisionLa versión es incompatible o carece de módulos relevantes. Actualice la versión.

    pip install --upgrade torchvision
    
  • Ejecutar nuevamente:python tools/train.py

  • Ejecutándose correctamente: se completa la implementación del proyecto Anomalib.
    Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/ljn1046016768/article/details/133177342
Recomendado
Clasificación