Cette page est destinée à aider l'administrateur système dans son travail. On y liste ce qu'il faut faire régulièrement afin de limiter le nombre d'urgence à traiter.

Connaître son système

Documentation

  1. Matériel
    1. Les composants internes des serveurs (HD, Proc, type ram)
    2. Réseaux (informatique et électrique)
    3. Interconnexion entre ces éléments
  2. Plan logique
    1. Adressage IP
    2. Répartition des services
    3. Interconnexions et dépendances entre ces services

Résultats attendus :

  1. Plans à jour en permanence
  2. Matos etiquetté soigneusement

Suivi

Vous devez connaître le comportement habituel de votre matériel :

  1. Bruits habituels
  2. Niveau des onduleurs
  3. Délai de démarrage des serveurs
  4. Température habituelle de la clim, des disques
  5. et tous ces autres petits détails spécifiques à votre installation.

En conclusion, visitez régulièrement votre local technique, et pas seulement durant les pannes.

De même pour les logiciels :

  1. Charge habituelle des machines
  2. Taux d'occupation de la mémoire, swap éventuel
  3. Taux d'occupation des disques et évolution dans le temps
  4. Les alertes qui n'en sont pas vraiment dans les logs
  5. Les ordres de grandeurs concernant l'utilisation des services (nombre de mails, requetes web,etc)
  6. Rajoutez ici vos idées

Grâce à ces informations, vous êtes capables d'anticiper, en agissant avant qu'un problème ne se transforme en urgence. Inversement, cela vous évite de paniquer inutilement face à de fausses alertes. Enfin, comme, malgré tout, les urgences se produisent quand même, cela vous donne des éléments pour agir de manière plus efficace.

Des outils existent pour vous aider à collecter et analyser ces informations. Voir ../OutilsDeSuivi. Attention, ces outils ne sont pas magiques : les installer n'est pas une fin en soi, il faut les consulter et les compléter.

Tâches régulières