đź§ Scheduler
SLURM — Diagnostic & exploitation
Commandes utiles, symptômes courants, parcours de diag, actions “safe”.
Diag rapide
# Santé contrôleur
$ systemctl status slurmctld --no-pager
$ journalctl -u slurmctld -n 200 --no-pager
# Vue cluster
$ sinfo -o "%P %a %D %t %N"
$ squeue -o "%.18i %.9P %.8j %.8u %.2t %.10M %.6D %R" | head -n 30
# Nodes
$ scontrol show nodes | less
$ scontrol ping
SymptĂ´mes courants
| Symptôme | Hypothèses | Pistes |
|---|---|---|
| Commandes SLURM figées | slurmctld bloqué / DB / DNS / stockage / saturation | logs slurmctld, latence FS, résolution DNS, charge CPU/RAM |
| Nœuds DRAIN/DOWN | slurmd KO / erreurs hw / cgroup / prolog/epilog | journalctl -u slurmd, scontrol show node, healthchecks |
| Backlog énorme (squeue) | policies / limits / partitions / fairness | QOS, limits, priorité, preemption, partitions |
Actions “safe” (à privilégier)
# Récupérer le job state + raison $ scontrol show job# Purger bruit (ex: jobs finis) côté affichage $ squeue -t R,PD # Redémarrage slurmd côté node (si besoin) $ sudo systemctl restart slurmd $ sudo journalctl -u slurmd -n 200 --no-pager
Garde-fou : avant toute action disruptive sur slurmctld, ouvrir une session “observateur” et capturer : logs + sinfo + squeue + charge + I/O.
Bonnes pratiques
Hygiène queue
Limites, QOS, partitions cohérentes, prévention des tempêtes de jobs.
QOSLimitsObservabilité
Logs centralisés, métriques, alerting : latence DB/FS, saturation, erreurs slurmd.
KPIsAlertingRunbooks
Procédures de drain/resume, restart contrôlé, checklists post-incident.
SOPRCA