¿Cómo ejecuta Slurm el código del programa de IA?

Slurm es una herramienta de código abierto para administrar y programar trabajos en clústeres de computación de alto rendimiento. Para ejecutar el código del programa AI en un clúster de Slurm, siga los pasos a continuación para configurar y enviar un trabajo:

1. Preparación del entorno

En el clúster de Slurm, asegúrese de que las bibliotecas y los marcos de trabajo de IA necesarios (como TensorFlow, PyTorch, etc.) estén incluidos en la configuración de su entorno. Puede usar herramientas como conda y virtualenv para crear un entorno de Python independiente o cargar directamente módulos preinstalados.

2. Escribir guiones de IA

Cree un script de entrenamiento/inferencia de IA (por ejemplo, train.py o inference.py), asegurándose de configurar la carga de datos, la definición del modelo, la función de pérdida, el optimizador (entrenamiento) o la lógica de inferencia correctamente en el script.

3. Escribir el guión de Slurm

En el directorio del proyecto, cree un script de Slurm (por ejemplo, run_job.sh) que se usará para enviar el trabajo. El script de Slurm contendrá las solicitudes de recursos y los comandos necesarios para ejecutar el trabajo.

#!/bin/bash
#SBATCH --job-name=my_ai_job
#SBATCH --partition=gpu # Usar cola de GPU
#SBATCH --nodes=1 # Usar un nodo
#SBATCH --gres=gpu:1 # Usar una GPU
#SBATCH --cpus-per-task=4 # Usar 4 núcleos de CPU
#SBATCH --mem=8G # Solicitar 8 GB de memoria
#SBATCH --time=24:00:00 # Tiempo de ejecución del trabajo

# Active su entorno virtual (si lo hay)
source active your_virtual_environment

# Ejecute su script de IA
python train.py

Ajuste las solicitudes de recursos (como la cantidad de nodos, la cantidad de GPU, la cantidad de núcleos, etc.) y las restricciones de tiempo de acuerdo con las necesidades reales del proyecto.

4. Envíe la tarea

sbatchEnvíe su script de Slurm con el comando:

sbatch run_job.sh

Slurm asignará recursos para su trabajo y lo ejecutará en una cola.

5. Supervisar trabajos

Puede usar el comando squeue para ver los trabajos que se están ejecutando actualmente en la cola, junto con su estado y uso de recursos. Una vez que se complete su trabajo, Slurm le proporcionará los archivos de registro de errores y de salida del trabajo.

6. Precauciones

Asegúrese de que el marco de IA (como TensorFlow o PyTorch) y el dispositivo (como GPU) estén especificados correctamente en su código.
Si su secuencia de comandos AI requiere archivos de datos adicionales, asegúrese de que estén accesibles en tiempo de ejecución. Lo mejor es colocar los datos en un sistema de archivos compartido.
Siempre siga las reglas del administrador del clúster y las políticas de uso de recursos cuando ejecute trabajos en un clúster de Slurm.

Los pasos anteriores lo ayudarán a ejecutar con éxito el código del programa AI en el clúster de Slurm.