đź’ľ I/O

Stockage — diagnostic & bonnes pratiques

Objectif : repérer rapidement la latence, la contention, et les patterns d’I/O “toxiques”.


Diag I/O (général)

# Vue disque / FS
$ df -hT
$ mount | column -t | head -n 40

# Latence / charge IO
$ iostat -xz 1 10
$ vmstat 1 10

# Qui tape le disque ?
$ sudo lsof +D /path 2>/dev/null | head
      

Lustre (si présent)

# Infos FS Lustre
$ lfs df -h
$ lfs osts
$ lctl get_param -n llite.*.stats | head

# Exemple : vérifier stripe
$ lfs getstripe -v /path/to/data
      

NFS (si présent)

# Stats NFS client
$ nfsstat -c
$ cat /proc/mounts | grep nfs

# Latence réseau (si suspicion)
$ ping -c 5 
$ ip -s link
      
Pattern classique : “petits fichiers + metadata” = contention et latence. Solution : regrouper (tar/zip), scratch local, ou optimiser le workflow.

Bonnes pratiques côté jobs

SituationÀ éviterAlternative
Millions de petits fichierscréation/scan massifs sur FS partagébatching, archives, scratch, formats conteneurs
I/O aléatoire intenseaccès concurrents non maîtrisésstaging, throttling, quotas, séparation datasets
Logs verbeuxécriture continue sur FS partagébuffering, log rotation, local + sync

Livrables (portfolio) : diag I/O, recommandations (workflow), tuning, et procédures “I/O incident”.