đź§ľ Runbooks (terrain)

Procédures d’exploitation & checklists

Des blocs prêts à copier/coller : incident, validation, sécurité, hygiène, post-mortem.


Runbook incident (N2)

But : confirmer l’impact, isoler le périmètre, restaurer le service, puis documenter.
# 0) Contexte
$ date; hostname; whoami
$ last -n 5

# 1) Santé système
$ uptime; top -b -n1 | head -n 25
$ free -h; vmstat 1 5
$ df -h; df -i

# 2) Erreurs récentes
$ journalctl -p err..alert -n 200 --no-pager
$ dmesg -T | tail -n 120

# 3) Services KO
$ systemctl --failed
$ systemctl status httpd --no-pager
      

Template post-mortem (RCA)

RubriqueContenu attendu
RésuméQuoi / quand / impact / durée / services touchés
TimelineÉvénements clés (horodatés) + décisions
Cause racineTechnique + organisationnel (si pertinent)
Actions immédiatesWorkaround / restauration
Actions durablesCorrectifs, automatisation, alerting, doc

Hardening SSH (résumé)

# /etc/ssh/sshd_config (extraits)
PermitRootLogin no
PasswordAuthentication no
PubkeyAuthentication yes

# Puis:
$ sudo systemctl restart sshd
      

Portfolio technique (cas documentés)

Standard “ops”

Mise en place runbook + checklists + logs/alertes → baisse des incidents récurrents.

RunbookSOP

Durcissement accès

SSH clé-only, sudo propre, firewall, fail2ban, TLS → surface d’attaque réduite.

SSHTLS

Industrialisation

Déploiement reproductible, contrôle config, rollback → changements maîtrisés.

AnsibleGit
Note : On peut transformer ces pages en vraie “base de connaissances” (releases, changelog, versions, diagrammes).