Otro error similar
instancia de cola "" caído porque no está disponible temporalmente
instancia de cola "" cayó porque está deshabilitado
Pantalla de error :
$qstat -j
queue instance "peteris.q@sge00" dropped because it is full
Explicar: SGE debido a una sobrecarga o descartar toda la cola está llena
Resolver la respuesta:
Parece que ha llegado a una cola de trabajos activos límite práctico en un momento dado puede manejar el número. No estoy seguro de dónde máxima SGE-definida, pero parece probable:
max_jobs
Sun Grid Engine permitiendo al mismo tiempo activa (no completado) por el control de los parámetros del número de puestos de trabajo. Definido valor límite mayor que 0. El valor predeterminado de 0 significa "ilimitado". Si el trabajo se envía más allá del límite max_jobs, el commit comando se sale con un estado de salida 25, y muestra el mensaje de error correspondiente. Max_jobs cambios entrarán en vigor inmediatamente. Este valor es solamente los parámetros de configuración globales. configuración local host de ejecución no puede cubrirlo.
De: HTTP : //gridscheduler.sourceforge.net/htmlman/htmlman5/sge_conf.html?pathrev=V62u5_TAG
Si esto es correcto, entonces el valor es infinito. Sin embargo, SGE puede ser incapaz de gestionar adecuadamente aproximadamente un millón de trabajo activo, por lo que puede encontrar este problema. Le recomiendo que utilice una matriz de trabajo , ya que este es el propósito de este tipo de operaciones, a saber, la gestión y el funcionamiento de muchas tareas casi idénticos .
SGE Hay muchos recursos en línea disponibles para el funcionamiento conjunto, por ejemplo:
http://wiki.gridengine.info/wiki/index.php/Simple-Job-Array-Howto
http://talby.rcs.manchester.ac.uk/~ri/_linux_and_hpc_lib/sge_array.html
https://wiki.duke.edu/display/SCSC/SGE+Array+Jobs
Si edita una pregunta en función de los requerimientos específicos de cada tarea, estaremos encantados de proporcionar más ayuda. Por ejemplo, aproximadamente un millón de tareas si cada uno requiere uno o más parámetros como entrada?
maxjobs
para0
resolver este problema? O bien, usted ha establecidomaxjobs
para las0
persiste problema? - Vince 18 años a las 12:53 el 4 de juniotrabajo conjunto de Sun Grid Engine
1.
¿Por qué?
Supongamos que se desea ejecutar un gran número de puestos de trabajo es básicamente el mismo: Es posible que desee utilizar un parámetro o parámetros de varias ejecuciones de un mismo programa diferente; o el procesamiento de un millar de archivos de entrada diferentes. Puede escribir un script en Perl para generar todo lo necesario qsub archivo y escribir un script bash para presentar todos estos documentos. Sin embargo, este no es tu tiempo fácil de usar, Presentar que tendría en el cluster (login) impacto nodo grave.
Uso SGE trabajo conjunto será mejor!
2.
¿Qué?
SGE trabajo array puede ser descrito como una operación integrada para-loop. Este es un ejemplo simple:
Por cálculo, esto es equivalente a 1000 presentado cola separada, en el que SGE_TASK_ID valora 1,2,3. . 1000, donde los archivos de entrada y de salida indexados por ID. Sin embargo:Un ligero cambio - en un directorio separado (carpeta) para ejecutar cada trabajo:
3.
más
Para obtener más información sobre matrices de trabajo SGE, por favor visite:
4.
Para lograr una circulación más general
SGE_TASK_ID no tiene que comenzar en 1; no Incremento uno. Por ejemplo:
# $ -T 100 a 995: 5
Así SGE_TASK_ID el valor de 100 105 110 115 ... 995.
Dicho sea de paso, por ejemplo, el límite superior no es igual a un múltiplo entero de la caja más el incremento,
# $ -T 1-42: 6
SGE cambia automáticamente el límite superior, es decir,
5,
variables ambientales relacionados
Puede utilizar las otras tres variables de entorno se crean automáticamente, tales como los siguientes sencilla qsub guión se muestra:
6.
Entrar en la lista de archivos
Puede ser astuto - Supongamos que tenemos una lista de archivos de entrada en lugar del archivo de entrada indexados de forma explícita por el sufijo:
Fuente:
http://talby.rcs.manchester.ac.uk/~ri/_linux_and_hpc_lib/sge_array.html