🧠 Scheduler

SLURM — Diagnostic & exploitation

Commandes utiles, symptômes courants, parcours de diag, actions “safe”.

Diag rapide

# Santé contrôleur
$ systemctl status slurmctld --no-pager
$ journalctl -u slurmctld -n 200 --no-pager

# Vue cluster
$ sinfo -o "%P %a %D %t %N"
$ squeue -o "%.18i %.9P %.8j %.8u %.2t %.10M %.6D %R" | head -n 30

# Nodes
$ scontrol show nodes | less
$ scontrol ping

Symptômes courants

Symptôme	Hypothèses	Pistes
Commandes SLURM figées	slurmctld bloqué / DB / DNS / stockage / saturation	logs slurmctld, latence FS, résolution DNS, charge CPU/RAM
Nœuds DRAIN/DOWN	slurmd KO / erreurs hw / cgroup / prolog/epilog	journalctl -u slurmd, scontrol show node, healthchecks
Backlog énorme (squeue)	policies / limits / partitions / fairness	QOS, limits, priorité, preemption, partitions

Actions “safe” (à privilégier)

# Récupérer le job state + raison
$ scontrol show job 

# Purger bruit (ex: jobs finis) côté affichage
$ squeue -t R,PD

# Redémarrage slurmd côté node (si besoin)
$ sudo systemctl restart slurmd
$ sudo journalctl -u slurmd -n 200 --no-pager

Garde-fou : avant toute action disruptive sur slurmctld, ouvrir une session “observateur” et capturer : logs + sinfo + squeue + charge + I/O.

Bonnes pratiques

Hygiène queue

Limites, QOS, partitions cohérentes, prévention des tempêtes de jobs.

QOSLimits

Observabilité

Logs centralisés, métriques, alerting : latence DB/FS, saturation, erreurs slurmd.

KPIsAlerting

Runbooks

Procédures de drain/resume, restart contrôlé, checklists post-incident.

SOPRCA