Docker configura a versão GPU do ambiente pytorch - detecção de defeitos de implantação - Anomalib

1. Docker configura a versão GPU do ambiente Pyhorch

1. O driver da placa gráfica, a versão cuda e a versão pytorch cuda correspondem entre si.

2. Puxe a imagem

  • docker.hubExtraia a imagem diretamente de: Encontre a imagem pytorchpytorch do ambiente que você precisa

  • Clique para copiar o link da versão de desenvolvimento

     docker pull pytorch/pytorch:1.9.1-cuda11.1-cudnn8-devel
    

2. Implantar Anomalib

1. Baixe o Anomalib

2. Crie o contêiner e execute-o

Precisamos executar o Anomalib no contêiner docker, então precisamos montar o arquivo host no contêiner

  • Caminho do host:/home/dell/ljn/anomalib
docker run -it --name="pytorch_docker" \
              --gpus=all \
              --shm-size=64G \	
              -v /home/dell/ljn/anomalib:/workspace/anomalib \
              pytorch/pytorch:1.9.1-cuda11.1-cudnn8-devel /bin/bash

Se você executar o pytorch no docker sem adicionar esta --shm-size=64Glinha um erro será relatado.

  • ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).
  • Como o shm (memória compartilhada) é limitado por padrão na imagem do docker, o pytorch usa o shm durante o processamento de dados. Isso faz com que o DataLoader exceda o limite e seja eliminado diretamente ao executar vários threads.
  • --shm-size=64G: Defina para 64G aqui, defina de acordo com o desempenho do seu computador
  • Depois que o contêiner estiver em execução, você poderá ver o diretório montado
jn@ljn-Alienware-13:~/ai_project/anomalib$ ./run_docker.sh 
root@440738bd07a3:/workspace# ls
anomalib
root@440738bd07a3:/workspace# 
  • verificar
ncvv -V 
nvidia-smi

Insira a descrição da imagem aqui

3. Instale o Anomalib

Insira o caminho do projeto

cd anomalib/anomalib-main

Instalar dependências

pip install update
pip install -e .
pip install wandb

teste:

  • implemento

    python tools/train.py 
    
  • Erro de execução:ImportError: libGL.so.1: cannot open shared object file: No such file or directory
    Insira a descrição da imagem aqui

  • Precisa instalar o opencv

    apt-get update
    apt-get install libopencv-dev
    
  • Execute novamente:python tools/train.py

  • Informar um erroImportError: cannot import name 'KeypointRCNN_ResNet50_FPN_Weights' from 'torchvision.models.detection' (/opt/conda/lib/python3.7/site-packages/torchvision/models/detection/__init__.py)
    Insira a descrição da imagem aqui

  • torchvisionA versão é incompatível ou não possui módulos relevantes. Atualize a versão.

    pip install --upgrade torchvision
    
  • Execute novamente:python tools/train.py

  • Executando com sucesso: a implantação do projeto Anomalib foi concluída.
    Insira a descrição da imagem aqui

Acho que você gosta

Origin blog.csdn.net/ljn1046016768/article/details/133177342
Recomendado
Clasificación