Cette page est destinée à aider l'administrateur système dans son travail. On y liste ce qu'il faut faire régulièrement afin de limiter le nombre d'urgence à traiter.

Connaître son système

Documentation

  1. Matériel
    1. Les composants internes des serveurs (HD, Proc, type ram)
    2. Réseaux (informatique et électrique)
    3. Interconnexion entre ces éléments
  2. Plan logique
    1. Adressage IP
    2. Répartition des services
    3. Interconnexions et dépendances entre ces services

Résultats attendus :

  1. Plans à jour en permanence
  2. Matos etiquetté soigneusement

Suivi

Vous devez connaître le comportement habituel de votre matériel :

  1. Bruits habituels
  2. Niveau des onduleurs
  3. Délai de démarrage des serveurs
  4. Température habituelle de la clim, des disques
  5. et tous ces autres petits détails spécifiques à votre installation.

En conclusion, visitez régulièrement votre local technique, et pas seulement durant les pannes.

De même pour les logiciels :

  1. Charge habituelle des machines
  2. Taux d'occupation de la mémoire, swap éventuel
  3. Taux d'occupation des disques et évolution dans le temps
  4. Les alertes qui n'en sont pas vraiment dans les logs
  5. etc.

- anticiper les pannes - pas paniquer en cas de fausse alerte. - gerer les urgences, plantage, avec des infos

Une bonne connaissance des ces informations vous permet


> renvoyez vers une page d'outils qui peuvent aider (arpwatch,logcheck, logwatch, aide)

Tâches régulières