slurm_node.conf del archivo de configuración del clúster en Slurm

1. Introducción a slurm_node.conf

        slurm_node.conf es el archivo de configuración de nodos para el clúster Slurm y contiene información y configuraciones sobre los nodos del clúster. Cada nodo debe tener un archivo slurm_node.conf para configurar la información específica del nodo. Este archivo generalmente se encuentra en el directorio /etc del nodo, pero la ubicación del archivo de configuración del nodo se puede especificar configurando la propiedad NodeName en el archivo slurm.conf. 

        El archivo slurm_node.conf contiene mucha información de configuración del nodo, como el nombre del nodo, la dirección IP, el tipo de arquitectura, la cantidad de núcleos de CPU, la capacidad de memoria, el tipo y la cantidad de GPU, etc. El administrador de Slurm (slurmctld) utiliza esta información para asignar trabajos y recursos, y para ejecutar tareas en los nodos. Por lo tanto, es muy importante configurar correctamente la información del nodo en el archivo slurm_node.conf para garantizar el funcionamiento normal del clúster Slurm.

        Además, el archivo slurm_node.conf puede contener otras propiedades personalizadas para especificar otras configuraciones específicas al ejecutar trabajos en los nodos. Por ejemplo, puede especificar la partición a la que pertenece el nodo configurando la propiedad PartitionName en el archivo slurm_node.conf y establecer propiedades como el umbral inactivo del nodo (IdleProcs) y la cantidad máxima de trabajos (MaxJobs). Estas propiedades generalmente se configuran para optimizar aún más la utilización de recursos del clúster de Slurm.

2. Elementos de configuración de Slurm_node.conf

El archivo de configuración del nodo slurm slurm_node.conf contiene la información de configuración de cada nodo. Los siguientes son algunos elementos de configuración comunes:

NodeName : El nombre del nodo, que debe ser único y el mismo que el nombre del nodo en el archivo slurm.conf.

Sockets : el número de sockets de CPU en el nodo.

CoresPerSocket : la cantidad de núcleos en cada zócalo de CPU.

ThreadsPerCore : número de subprocesos en cada núcleo.

RealMemory : la cantidad real de memoria en el nodo, en MB.

Estado : estado del nodo, normalmente DESCONOCIDO, INACTIVO, MIXTO o ASIGNADO.

Peso : el peso del nodo, que se utiliza para las decisiones de programación.

PartitionName : el nombre de la partición a la que pertenece el nodo.

Característica : una característica o etiqueta en el nodo, como el modelo de CPU, el tipo de GPU, la velocidad de la red, etc.

IdleProcs : número de procesos inactivos en el nodo.

MaxTasksPerNode : la cantidad máxima de tareas que se pueden ejecutar simultáneamente en un nodo.

Gres : recursos generales en el nodo, como GPU, FPGA, etc.

Los anteriores son algunos elementos de configuración comunes de slurm_node.conf, las diferentes configuraciones de clúster y nodo pueden ser diferentes. Cabe señalar que después de modificar el archivo slurm_node.conf, el proceso del demonio slurmd debe reiniciarse para que surta efecto.

Como se muestra en la figura a continuación, configure la información para el slurm_node.conf configurado

Supongo que te gusta

Origin blog.csdn.net/lovebaby1689/article/details/129882234
Recomendado
Clasificación