Tabla de contenido
1. Docker configura la versión gpu del entorno pyhorch
1. El controlador de la tarjeta gráfica, la versión de cuda y la versión de pytorch cuda se corresponden entre sí.
- Compruébelo usted mismo: la información de la versión correspondiente de los tres
2. Tira la imagen
-
docker.hub
Extraiga la imagen directamente desde: Encuentre la imagen de pytorchpytorch
del entorno que necesita -
Haga clic para copiar el enlace de la versión de desarrollo.
docker pull pytorch/pytorch:1.9.1-cuda11.1-cudnn8-devel
2. Implementar Anomalib
1. Descargar Anomalib
2. Cree el contenedor y ejecútelo.
Necesitamos ejecutar Anomalib en el contenedor de la ventana acoplable, por lo que debemos montar el archivo host en el contenedor.
- Ruta del host:
/home/dell/ljn/anomalib
docker run -it --name="pytorch_docker" \
--gpus=all \
--shm-size=64G \
-v /home/dell/ljn/anomalib:/workspace/anomalib \
pytorch/pytorch:1.9.1-cuda11.1-cudnn8-devel /bin/bash
Si ejecuta pytorch en la ventana acoplable sin agregar esta --shm-size=64G
línea se informará un error.
ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).
- Dado que shm (memoria compartida) está limitada de forma predeterminada en la imagen de la ventana acoplable, pytorch usa shm durante el procesamiento de datos. Esto da como resultado que el DataLoader que excede el límite se elimine directamente cuando se ejecutan subprocesos múltiples.
--shm-size=64G
: Configure aquí 64G, configúrelo de acuerdo con el rendimiento de su propia computadora- Después de que el contenedor se esté ejecutando, podrá ver el directorio montado.
jn@ljn-Alienware-13:~/ai_project/anomalib$ ./run_docker.sh
root@440738bd07a3:/workspace# ls
anomalib
root@440738bd07a3:/workspace#
- verificar
ncvv -V
nvidia-smi
3. Instale Anomalib
Ingrese la ruta del proyecto
cd anomalib/anomalib-main
Instalar dependencias
pip install update
pip install -e .
pip install wandb
prueba:
-
implementar
python tools/train.py
-
Error de ejecución:
ImportError: libGL.so.1: cannot open shared object file: No such file or directory
-
Necesito instalar opencv
apt-get update apt-get install libopencv-dev
-
Ejecutar nuevamente:
python tools/train.py
-
Informar un error
ImportError: cannot import name 'KeypointRCNN_ResNet50_FPN_Weights' from 'torchvision.models.detection' (/opt/conda/lib/python3.7/site-packages/torchvision/models/detection/__init__.py)
-
torchvision
La versión es incompatible o carece de módulos relevantes. Actualice la versión.pip install --upgrade torchvision
-
Ejecutar nuevamente:
python tools/train.py
-
Ejecutándose correctamente: se completa la implementación del proyecto Anomalib.