Cette page est destinée à aider l'administrateur système dans son travail. On y liste ce qu'il faut faire régulièrement afin de limiter le nombre d'urgence à traiter.
Connaître son système
Documentation
- Matériel
- Les composants internes des serveurs (HD, Proc, type ram)
- Réseaux (informatique et électrique)
- Interconnexion entre ces éléments
- Plan logique
- Adressage IP
- Répartition des services
- Interconnexions et dépendances entre ces services
Résultats attendus :
- Plans à jour en permanence
- Matos etiquetté soigneusement
Suivi
Vous devez connaître le comportement habituel de votre matériel :
- Bruits habituels
- Niveau des onduleurs
- Délai de démarrage des serveurs
- Température habituelle de la clim, des disques
- et tous ces autres petits détails spécifiques à votre installation.
En conclusion, visitez régulièrement votre local technique, et pas seulement durant les pannes.
De même pour les logiciels :
- Charge habituelle des machines
- Taux d'occupation de la mémoire, swap éventuel
- Taux d'occupation des disques et évolution dans le temps
- Les alertes qui n'en sont pas vraiment dans les logs
- etc.
- anticiper les pannes - pas paniquer en cas de fausse alerte. - gerer les urgences, plantage, avec des infos
Une bonne connaissance des ces informations vous permet
> renvoyez vers une page d'outils qui peuvent aider (arpwatch,logcheck, logwatch, aide)