đź§ľ Runbooks (terrain)
Procédures d’exploitation & checklists
Des blocs prêts à copier/coller : incident, validation, sécurité, hygiène, post-mortem.
Runbook incident (N2)
But : confirmer l’impact, isoler le périmètre, restaurer le service, puis documenter.
# 0) Contexte
$ date; hostname; whoami
$ last -n 5
# 1) Santé système
$ uptime; top -b -n1 | head -n 25
$ free -h; vmstat 1 5
$ df -h; df -i
# 2) Erreurs récentes
$ journalctl -p err..alert -n 200 --no-pager
$ dmesg -T | tail -n 120
# 3) Services KO
$ systemctl --failed
$ systemctl status httpd --no-pager
Template post-mortem (RCA)
| Rubrique | Contenu attendu |
|---|---|
| Résumé | Quoi / quand / impact / durée / services touchés |
| Timeline | Événements clés (horodatés) + décisions |
| Cause racine | Technique + organisationnel (si pertinent) |
| Actions immédiates | Workaround / restauration |
| Actions durables | Correctifs, automatisation, alerting, doc |
Hardening SSH (résumé)
# /etc/ssh/sshd_config (extraits)
PermitRootLogin no
PasswordAuthentication no
PubkeyAuthentication yes
# Puis:
$ sudo systemctl restart sshd
Portfolio technique (cas documentés)
Standard “ops”
Mise en place runbook + checklists + logs/alertes → baisse des incidents récurrents.
RunbookSOPDurcissement accès
SSH clé-only, sudo propre, firewall, fail2ban, TLS → surface d’attaque réduite.
SSHTLSIndustrialisation
Déploiement reproductible, contrôle config, rollback → changements maîtrisés.
AnsibleGit
Note : On peut transformer ces pages en vraie “base de connaissances” (releases, changelog, versions, diagrammes).