đź’ľ I/O
Stockage — diagnostic & bonnes pratiques
Objectif : repérer rapidement la latence, la contention, et les patterns d’I/O “toxiques”.
Diag I/O (général)
# Vue disque / FS
$ df -hT
$ mount | column -t | head -n 40
# Latence / charge IO
$ iostat -xz 1 10
$ vmstat 1 10
# Qui tape le disque ?
$ sudo lsof +D /path 2>/dev/null | head
Lustre (si présent)
# Infos FS Lustre
$ lfs df -h
$ lfs osts
$ lctl get_param -n llite.*.stats | head
# Exemple : vérifier stripe
$ lfs getstripe -v /path/to/data
NFS (si présent)
# Stats NFS client $ nfsstat -c $ cat /proc/mounts | grep nfs # Latence réseau (si suspicion) $ ping -c 5$ ip -s link
Pattern classique : “petits fichiers + metadata” = contention et latence. Solution : regrouper (tar/zip), scratch local, ou optimiser le workflow.
Bonnes pratiques côté jobs
| Situation | À éviter | Alternative |
|---|---|---|
| Millions de petits fichiers | création/scan massifs sur FS partagé | batching, archives, scratch, formats conteneurs |
| I/O aléatoire intense | accès concurrents non maîtrisés | staging, throttling, quotas, séparation datasets |
| Logs verbeux | écriture continue sur FS partagé | buffering, log rotation, local + sync |
Livrables (portfolio) : diag I/O, recommandations (workflow), tuning, et procédures “I/O incident”.