Slurm

Commandes de gestion de vos « jobs » : Mémo

Rapport d’informations du job actif ou terminé :

sacct -j job-id

Soumettre un job

Le script contiendra généralement une ou plusieurs commandes srun pour lancer des tâches parallèles.

sbatch script.slurm
sbatch -x node037 my_script.sh -> soumet en excluant un noeud de calcul

Annuler un job

scancel job-id

Information sur les partitions, les noeuds

sinfo

Liste les nœuds libres

Mentionne aussi les partitions qui les intègre.

sinfo --states=idle

États possibles d’un nœud

  • mix : ressources disposant des quelques cœurs et de mémoire
  • idle : disponible pour demander des ressources consommables
  • drain : indisponible
  • drng : exécute actuellement un travail pour un dernier job. Refuse tout nouveau job
  • alloc : ressources entièrement allouées
  • down : indisponible

États de vos jobs

squeue --me

Les états possibles

  • BF BOOT_FAIL Job terminé en raison d’un échec de lancement.
  • CA CANCELLED Le job a été explicitement annulé.
  • CD COMPLETED Le job a terminé.
  • CF CONFIGURING Le job s’est vu allouer des ressources, mais il attend qu’elles soient prêtes.
  • CG COMPLETING Le job est en cours d’achèvement.
  • DL DEADLINE Job terminé à la date limite.
  • F FAILED Le job s’est terminé avec un code erreur.
  • NF NODE_FAIL Job terminé en raison de la défaillance d’un ou plusieurs nœuds.
  • OOM OUT_OF_MEMORY Job arrêté, dépassement mémoire.
  • PD PENDING Le job est en attente d’allocation de ressources.
  • PR PREEMPTED Le job s’est terminé pour cause de préemption..
  • R RUNNING Le job est en exécution.
  • RD RESV_DEL_HOLD Le job est en attente après que la réservation demandée ait été supprimée.
  • RF REQUEUE_FED Job en cours de requête par une fédération.
  • RH REQUEUE_HOLD Job retenu en train d’être remis en file d’attente.
  • RQ REQUEUED Job en cours d’achèvement remis en file d’attente.
  • RS RESIZING Le job est sur le point de changer de taille..
  • SI SIGNALING Le job est en cours de signalisation.
  • SE SPECIAL_EXIT Le travail a été remis en file d’attente dans un état spécial.
  • SO STAGE_OUT Le job est en train de mettre à disposition des fichiers.
  • ST STOPPED Job stoppé, les ressources allouées sont encore disponibles.
  • S SUSPENDED Job suspendu, ressources réallouées.
  • TO TIMEOUT Job terminé, il a atteint sa limite de temps.

Job en temps réel

Soumet un job en temps réel. Beaucoup d’options existent.

srun commande et paramètres