Configuración del servidor remoto de aprendizaje profundo

Configuración del servidor remoto de aprendizaje profundo

  En las tareas de investigación científica de aprendizaje profundo, la GPU y la memoria de video se utilizan para ejecutar muchos modelos.Si la configuración de las computadoras personales es limitada, generalmente ejecutamos códigos de modelos a gran escala en servidores con mayor potencia de cómputo y mejor rendimiento proporcionado por la unidad. . Por supuesto, antes de usar oficialmente el servidor, debe solicitar una cuenta personal al administrador del servidor y luego configurar el entorno de aprendizaje profundo en su propio directorio de trabajo.

1. Instalar Anaconda en el servidor

  Cuando configuramos el entorno de Python para el aprendizaje profundo, generalmente usamos la herramienta de administración de paquetes Anaconda (que viene con Python y muchos módulos), que se puede descargar desde el sitio web espejo de Tsinghua https://repo.anaconda.com/archive/index. html Instale la versión correspondiente de Anaconda.

[La transferencia de la imagen del enlace externo falló, el sitio de origen puede tener un mecanismo anti-leech, se recomienda guardar la imagen y cargarla directamente (img-hejI7u7g-1645891100958) (C:\Users\17209\AppData\Roaming\Typora\typora -imágenes-de-usuario\imagen-20220226204610495.png)]

Dado que la mayoría de los servidores son sistemas operativos Linux, se elige instalar aquí el Anaconda3-2020.11-Linux-x86_64.sh lanzado en 2020.11 , y luego el paquete de software se envía al directorio personal del servidor a través de una herramienta de transferencia de software ( Se recomienda Xftp5).

Ingrese las instrucciones de instalación bajo el comando de terminal:bash Anaconda3-2020.11-Linux-x86_64.sh

Por supuesto, también puede descargar e instalar directamente a través del comando bash:

  • descargar: wget https://repo.continuum.io/archive/+下载的Anaconda版本;
  • Instalar en pc:bash 下载的Anaconda版本
wget https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh
bash Anaconda3-2020.11-Linux-x86_64.sh

Configure la variable de entorno PATH : ingrese el comando en la terminal vi .bashrcpara configurar el entorno

****

Agregue: al final del archivo export PATH=/home/trainingl/anaconda3/bin:$PATH, tenga en cuenta que aquí /home/trainingl/anaconda3/binestá mi ruta de instalación real.

Pruebe el entorno y verifique la versión : después de instalar Anaconda en el servidor, puede ingresar python en la terminal para verificar la versión actual

2. Configure la fuente espejo de Tsinghua

  Cuando se utiliza el sistema operativo Linux en un entorno de servidor, es inevitable descargar muchos paquetes que no están disponibles localmente. Sin embargo, el servidor fuente de descarga utilizado por Linux está en el extranjero y la velocidad de descarga será mucho más lenta que en China. Los fabricantes de servidores nacionales, como Alibaba Cloud y Tencent Cloud, se utilizan a diario. La fuente del espejo se establece de manera predeterminada en su propia fuente del espejo relacionada, por lo que la velocidad de descarga de la aplicación es muy rápida cuando se usa. Aquí elegí la fuente de espejo Tsinghua para la configuración.

Agregue la gestión de paquetes de imágenes de Tsinghua [ejecución secuencial]:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

Ver fuentes añadidas:conda config --show-sources

3. Crear y gestionar entornos virtuales

En primer lugar, tenemos que averiguar por qué necesitamos crear un entorno virtual. ¿Cuál es el concepto de entorno virtual?

  Desde el contexto de la investigación científica real, podemos enfrentar muchas tareas diferentes, y estas tareas tienen requisitos inconsistentes para el entorno de Python, y algunos paquetes o bibliotecas pueden tener versiones en conflicto. Por ejemplo, PyTorch a veces se usa para tareas de aprendizaje profundo y TensorFlow. se usa a veces, ¡y esperamos que estas dos bibliotecas puedan ejecutarse en dos entornos de Python separados! Por lo tanto, Anaconda ha lanzado una herramienta de administración de paquetes para entornos virtuales. Podemos crear diferentes entornos virtuales en el directorio env a través del comando conda. Estos entornos virtuales pueden instalar paquetes o módulos de Python que son adecuados para diferentes tareas. Estos entornos se pueden cambiar y usado a voluntad, surgirá un conflicto.

1. Ver todos los entornos conda del sistema actual:conda env list

A partir de los resultados, podemos ver que hay dos entornos virtuales, entre los cuales la base es un entorno básico, que es un entorno básico generado automáticamente al instalar Anaconda, y el otro tren llamado es un entorno virtual que creé.

2. Crea un entorno virtual:conda create -n envName python=3.7

Descripción: algunos archivos de biblioteca básicos se instalarán al instalar el entorno virtual.

3. Activar el entorno virtual:source activate envName

4. Salga del entorno virtual:source activate

Nota: No agregue el parámetro de nombre al salir del entorno virtual, directamente source activate.

5. Eliminar el entorno virtual:conda remove -n your_env_name(虚拟环境名称) --all

6. Eliminar paquetes innecesarios en el entorno virtual:conda remove --name your_env_name package_name

7. Ingrese al entorno virtual existente y verifique qué paquetes están instalados:conda list

4. Instale el marco de aprendizaje profundo de PyTorch

  Al instalar el marco de aprendizaje profundo PyTorch, primero debe conocer la versión CUDA del servidor actual. Por supuesto, no se puede encontrar en el entorno de CPU del servidor, por lo que el usuario debe cambiar al entorno de GPU . Generalmente, el servidor de la escuela tendrá varias tarjetas gráficas, pero debe ingresar al entorno de GPU correspondiente de acuerdo con los derechos de uso de la tarjeta gráfica e ingrese el comando para nvcc -Vver la versión actual de CUDA .

Puede ver que la versión actual de CUDA es 9.0. Teniendo en cuenta que PyG se instalará más adelante, aquí instalé PyTorch1.7.1 y CUDA 10.1. Encuentre el comando de instalación correspondiente en el sitio web oficial de PyTorch según la versión :

Nota: Al instalar la versión correspondiente de PyTorch, asegúrese de cambiar al entorno virtual correspondiente. Además, algunos servidores de la escuela solo se pueden conectar a Internet en el entorno de la cpu, mientras que el entorno de la gpu está en un entorno de no red, es decir, solo se usa para la informática, por lo que después nvcc -Vde verificar , cambie al entorno de la CPU a tiempo.

Se necesita mucho tiempo de espera para probar si la instalación es exitosa. Cambie la cpu al entorno gpu e ingrese al entorno gpu debe ingresar al entorno virtual donde está instalada la antorcha para la prueba.

import torch
print(torch.cuda.is_available())

Se puede encontrar que pytorch 1.7 se instaló con éxito y CUDA se puede usar normalmente.

Supongo que te gusta

Origin blog.csdn.net/qq_41775769/article/details/123158609
Recomendado
Clasificación