Commandes de gestion de vos « jobs » : Mémo
Contenus
afficher
Rapport d’informations du job actif ou terminé :
sacct -j job-id
Soumettre un job
Le script contiendra généralement une ou plusieurs commandes srun pour lancer des tâches parallèles.
sbatch script.slurm sbatch -x node037 my_script.sh -> soumet en excluant un noeud de calcul
Annuler un job
scancel job-id
Information sur les partitions, les noeuds
sinfo
Liste les nœuds libres
Mentionne aussi les partitions qui les intègre.
sinfo --states=idle
États possibles d’un nœud
- mix : ressources disposant des quelques cœurs et de mémoire
- idle : disponible pour demander des ressources consommables
- drain : indisponible
- drng : exécute actuellement un travail pour un dernier job. Refuse tout nouveau job
- alloc : ressources entièrement allouées
- down : indisponible
États de vos jobs
squeue --me
Les états possibles
- BF BOOT_FAIL Job terminé en raison d’un échec de lancement.
- CA CANCELLED Le job a été explicitement annulé.
- CD COMPLETED Le job a terminé.
- CF CONFIGURING Le job s’est vu allouer des ressources, mais il attend qu’elles soient prêtes.
- CG COMPLETING Le job est en cours d’achèvement.
- DL DEADLINE Job terminé à la date limite.
- F FAILED Le job s’est terminé avec un code erreur.
- NF NODE_FAIL Job terminé en raison de la défaillance d’un ou plusieurs nœuds.
- OOM OUT_OF_MEMORY Job arrêté, dépassement mémoire.
- PD PENDING Le job est en attente d’allocation de ressources.
- PR PREEMPTED Le job s’est terminé pour cause de préemption..
- R RUNNING Le job est en exécution.
- RD RESV_DEL_HOLD Le job est en attente après que la réservation demandée ait été supprimée.
- RF REQUEUE_FED Job en cours de requête par une fédération.
- RH REQUEUE_HOLD Job retenu en train d’être remis en file d’attente.
- RQ REQUEUED Job en cours d’achèvement remis en file d’attente.
- RS RESIZING Le job est sur le point de changer de taille..
- SI SIGNALING Le job est en cours de signalisation.
- SE SPECIAL_EXIT Le travail a été remis en file d’attente dans un état spécial.
- SO STAGE_OUT Le job est en train de mettre à disposition des fichiers.
- ST STOPPED Job stoppé, les ressources allouées sont encore disponibles.
- S SUSPENDED Job suspendu, ressources réallouées.
- TO TIMEOUT Job terminé, il a atteint sa limite de temps.
Job en temps réel
Soumet un job en temps réel. Beaucoup d’options existent.
srun commande et paramètres