Cette page est destinée à aider l'administrateur système dans son travail. On y liste ce qu'il faut faire régulièrement afin de limiter le nombre d'urgence à traiter.

Connaître son système

Documentation

Matériel
1. Les composants internes des serveurs (HD, Proc, type ram)
2. Réseaux (informatique et électrique)
3. Interconnexion entre ces éléments
Plan logique
1. Adressage IP
2. Répartition des services
3. Interconnexions et dépendances entre ces services

Résultats attendus :

Plans à jour en permanence
Matos etiquetté soigneusement

Suivi

Vous devez connaître le comportement habituel de votre matériel :

Bruits habituels
Niveau des onduleurs
Délai de démarrage des serveurs
Température habituelle de la clim, des disques
et tous ces autres petits détails spécifiques à votre installation.

En conclusion, visitez régulièrement votre local technique, et pas seulement durant les pannes.

De même pour les logiciels :

Charge habituelle des machines
Taux d'occupation de la mémoire, swap éventuel
Taux d'occupation des disques et évolution dans le temps
Les alertes qui n'en sont pas vraiment dans les logs
Les ordres de grandeurs concernant l'utilisation des services (nombre de mails, requetes web,etc)
Rajoutez ici vos idées

Grâce à ces informations, vous êtes capables d'anticiper, en agissant avant qu'un problème ne se transforme en urgence. Inversement, cela vous évite de paniquer inutilement face à de fausses alertes. Enfin, comme, malgré tout, les urgences se produisent quand même, cela vous donne des éléments pour agir de manière plus efficace.

Des outils existent pour vous aider à collecter et analyser ces informations. Voir ../OutilsDeSuivi. Attention, ces outils ne sont pas magiques : les installer n'est pas une fin en soi, il faut les consulter et les compléter.

WikiTeki / TravailDeFond

Connaître son système

Documentation

Suivi

Tâches régulières