s.l.u.r.m

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
s.l.u.r.m [2024/03/06 10:47]
admin [2.1. Envío de Trabajo (srun y sbatch)]
s.l.u.r.m [2024/03/07 21:18] (current)
admin [2. Parámetros básicos de comandos]
Line 25: Line 25:
  
 ===== 1. Comandos básicos de Slurm ===== ===== 1. Comandos básicos de Slurm =====
 +
 +A continuación se muestran los comandos básicos utilizados para realizar la mayoría de las operaciones básicas con SLURM:
  
 ^Comando^Descripción| ^Comando^Descripción|
Line 32: Line 34:
 |srun|Ejecutar un trabajo interactivo| |srun|Ejecutar un trabajo interactivo|
 |scancel|Eliminar un trabajo| |scancel|Eliminar un trabajo|
-|scontrol|Ver información más detallada de trabajos, colas y particiones.| 
-|sacct|Ver a nivel de sistema la utilización de recursos de trabajos completados.| 
  
  
 ===== 2. Parámetros básicos de comandos ===== ===== 2. Parámetros básicos de comandos =====
 +
 +Existen [[https://​slurm.schedmd.com/​man_index.html|páginas de manual]] para todos los comandos de Slurm, las cuales contienen información más detallada. El parámetro ''​--help''​ además proporciona un breve resumen de las opciones de cada comando. A continuación se muestra el resumen de los parámetros que más se suelen utilizar en SLURM por cada comando básico:
 +
  
 ==== 2.1. Envío de Trabajo (srun y sbatch) ==== ==== 2.1. Envío de Trabajo (srun y sbatch) ====
Line 45: Line 48:
 |-c, –cpus-per-task=<​cpus>​|Número de CPUs (hilos) requeridas por tarea. El valor especificado aquí es el número "​mínimo"​ de CPU que se asignará a su trabajo. Si hay CPU adicionales disponibles en un nodo más allá de lo solicitado, su trabajo recibirá esas CPU hasta que otros trabajos las necesiten. El valor predeterminado es 1 CPU. Intentar usar más CPU de las que se le asignaron dará como resultado que sus procesos adicionales se turnen en la misma CPU (ralentizando su trabajo).| |-c, –cpus-per-task=<​cpus>​|Número de CPUs (hilos) requeridas por tarea. El valor especificado aquí es el número "​mínimo"​ de CPU que se asignará a su trabajo. Si hay CPU adicionales disponibles en un nodo más allá de lo solicitado, su trabajo recibirá esas CPU hasta que otros trabajos las necesiten. El valor predeterminado es 1 CPU. Intentar usar más CPU de las que se le asignaron dará como resultado que sus procesos adicionales se turnen en la misma CPU (ralentizando su trabajo).|
 |-J <​name>,​ –jobname=<​name>​|Especificar un nombre a tu trabajo| |-J <​name>,​ –jobname=<​name>​|Especificar un nombre a tu trabajo|
-|–error\\ -e|Archivo en el que se desea almacenar ​mensajes ​de error de trabajo| +|-o <​STDOUT_log>, ​output=<​STDOUT_log>​|Archivo en el que se desea almacenar ​la salida del trabajo. Usted puede especificar %j como parte del nombre ​de archivo ​de registro para indicar la ID del trabajo ​(como ejemplo, "#​SBATCH -o ouptut_%j.o"​ redirigiría la salida a "​output_123456.o"​).
-|–export=<name[=value]>|Exportar variables ​de entorno identificadas+|-e <​STDERR_log>, ​error=<STDERR_log>|Archivo en el que se desea almacenar mensajes ​de error de trabajo. Funciona exactamente igual que "​-o"​.
-|–input=<name>|Archivo desde el cual leer los datos de entrada ​del trabajo| +|-t, time=<days-hours:​minutes:​seconds\\ (ej. –time=08:​00:​00)|Permite ajustar ​el límite ​de tiempo ​del trabajo| 
-|–output=<name> \\ -<​name>​|Archivo en el que se desea almacenar la salida del trabajo+|–array=<índices> \\  \\ (ej. –array=1-80)|Envía una lista (arreglo) de trabajos idénticos. Solo aplica para sbatch.| 
-|–time=<time> \\ (ej. "time=08:​00:​00"​)|Permite ajustar ​el límite ​de tiempo del trabajo|+|–export=<name[=value]\\ (ej. –export=ALL)|Exportar variables de entorno identificadas
 +|–nodes=<nodos>​|Cantidad de nodos de cómputo a utilizar| 
 +|–account=<​cuenta> \\ (ej. –account=dsmith)|Asignar ​el nombre ​de cuenta para monitorear el trabajo|
  
  
 ==== 2.2. Gestión de Trabajo ==== ==== 2.2. Gestión de Trabajo ====
  
-**scancel** ​- Manda una señal a trabajos, conjuntos de trabajos y/o pasos de trabajo.+**scancel**
  
-|–account=<​name>​|Opera solamente en trabajos que carguen en la cuenta especificada| +|–name=<​name>​|Cancela ​trabajos con nombre especificado| 
-|–name=<​name>​|Opera solamente en trabajos con nombre ​especificado| +|–user=<​name>​|Cancela ​trabajos del usuario especificado|
-|–partition=<​names>​|Opera solamente en trabajos con partición/​cola especificada| +
-|–qos=<​name>​|Opera solamente en trabajos que utilicen la calidad de servicio especificada| +
-|–reservation=<​name>​|Opera solamente en trabajos que utilicen la reservación especificada| +
-|–state=<​names>​|Opera solamente en trabajos en el estado ​especificado| +
-|–user=<​name>​|Opera solamente en trabajos del usuario especificado+
-|–nodelist=<​names>​|Opera solamente en trabajos que utilicen los nodos informáticos especificados|+
  
-**squeue **- Entrega información sobre trabajos+**squeue**
  
-|–account=<​name>​|Permite ver sólo trabajos con cuentas especificadas| 
-|–clusters=<​name>​|Permite ver sólo trabajos con clusters especificados| 
-|–format=<​spec>​ \\ (ej. "​–format=%i%j"​)|Formato de salida para mostrar. Especifica campos, tamaño, orden, etc.| 
 |–jobs=<​job_id_list>​|Lista separada por comas de IDs de trabajo para mostrar| |–jobs=<​job_id_list>​|Lista separada por comas de IDs de trabajo para mostrar|
 |–name=<​name>​|Permite ver sólo trabajos con nombres especificados| |–name=<​name>​|Permite ver sólo trabajos con nombres especificados|
-|–partition=<​names>​|Permite ver sólo trabajos con particiones especificadas| 
-|–priority|Ordena trabajos por prioridad| 
-|–qos=<​name>​|Permite ver sólo trabajos con Calidad de Servicio especificada| 
-|–start|Informa la hora de inicio prevista y los recursos que se asignarán para los trabajos pendientes en orden de tiempo de inicio creciente| 
-|–state=<​names>​|Permite ver sólo trabajos con estados especificados| 
 |–users=<​names>​|Permite ver sólo trabajos para usuarios especificados| |–users=<​names>​|Permite ver sólo trabajos para usuarios especificados|
- 
-**sinfo **- Entrega información sobre nodos y particiones 
- 
-|–all|Muestra información sobre todas las particiones| 
-|–dead|Si está configurado,​ sólo reporta información de estado para los nodos que no responden (muertos)| 
-|–format=<​spec>​|Formato de salida para mostrar| 
-|–iterate=<​seconds>​|Imprime el estado en el intervalo especificado| 
-|–long|Imprime información más detallada.| 
-|–Node|Imprime información en un formato orientado a nodos| 
-|–partition=<​names>​|Permite ver sólo las particiones especificadas| 
-|–reservation|Muestra información sobre reservas avanzadas| 
-|-R|Muestra los motivos por los que los nodos están inactivos, agotados, fallidos o en estado fallido.| 
-|–state=<​names>​|Permite ver sólo los estados especificados de los nodos| 
  
  
  • s.l.u.r.m.1709736453.txt.bz2
  • Last modified: 2024/03/06 10:47
  • by admin