💾 I/O

Stockage — diagnostic & bonnes pratiques

Objectif : repérer rapidement la latence, la contention, et les patterns d’I/O “toxiques”.

Diag I/O (général)

# Vue disque / FS
$ df -hT
$ mount | column -t | head -n 40

# Latence / charge IO
$ iostat -xz 1 10
$ vmstat 1 10

# Qui tape le disque ?
$ sudo lsof +D /path 2>/dev/null | head

Lustre (si présent)

# Infos FS Lustre
$ lfs df -h
$ lfs osts
$ lctl get_param -n llite.*.stats | head

# Exemple : vérifier stripe
$ lfs getstripe -v /path/to/data

NFS (si présent)

# Stats NFS client
$ nfsstat -c
$ cat /proc/mounts | grep nfs

# Latence réseau (si suspicion)
$ ping -c 5 
$ ip -s link

Pattern classique : “petits fichiers + metadata” = contention et latence. Solution : regrouper (tar/zip), scratch local, ou optimiser le workflow.

Bonnes pratiques côté jobs

Situation	À éviter	Alternative
Millions de petits fichiers	création/scan massifs sur FS partagé	batching, archives, scratch, formats conteneurs
I/O aléatoire intense	accès concurrents non maîtrisés	staging, throttling, quotas, séparation datasets
Logs verbeux	écriture continue sur FS partagé	buffering, log rotation, local + sync

Livrables (portfolio) : diag I/O, recommandations (workflow), tuning, et procédures “I/O incident”.