Cette page est destinée à aider l'administrateur système dans son travail. On y liste ce qu'il faut faire régulièrement afin de limiter le nombre d'urgence à traiter.

Vous devez connaître votre système dans ses moindres détails. Ainsi, vous êtes capable d'anticiper, en agissant avant qu'un problème ne se transforme en urgence. Inversement, vous évitez de paniquer inutilement face à de fausses alertes. Enfin, comme des urgences se produisent malgrè tout, vous aurez des éléments pour agir de manière plus efficace.

Connaître son système c'est en faire l'inventaire mais aussi savoir comme il fonctionne habituellement.

Maintenir sa documentation

Il est nécessaire de disposer de plans à jour en permanence.

Au niveau des matériels, vous devez connaître :

  1. les réseaux informatiques, électriques et télécom
  2. le détail des composants internes des serveurs (disques, processeur, mémoire vive, etc.)
  3. les systèmes de protection électriques (puissance, autonomie, etc.)
  4. les interconnexions et les dépendances entre ces éléments

L'étiquettage soigneux et exhaustif du matériel fait partie de la documentation.

Vous devez aussi disposer des plans logiques concernant :

  1. l'adressage IP
  2. la répartition des services par serveur (DNS, messagerie, pare-feu, etc.)
  3. les interconnexions et les dépendances entre ces services

Suivre l'activité de ses systèmes

Vous devez connaître le comportement habituel de votre matériel :

  1. les bruits habituels des disques, des ventilateurs, des climatiseurs
  2. l'autonomie des onduleurs
  3. les délais de démarrage des serveurs
  4. la température habituelle de la clim, des disques, des processeurs
  5. ... et tous les autres petits détails spécifiques à votre installation.

En conclusion, visitez régulièrement votre local technique, et pas seulement durant les pannes.

De même pour les logiciels, vous devez connaître :

  1. la charge habituelle des serveurs
  2. le taux d'occupation de la mémoire, le swap éventuel
  3. les taux d'occupation des disques et leur évolution dans le temps
  4. les alertes qui n'en sont pas vraiment dans les logs, c'est-à-dire dont vous avez constaté par expérience qu'elles ne prêtent pas à conséquence
  5. les ordres de grandeurs concernant l'utilisation des services (nombre de mails, requêtes web, etc.)
  6. sans sombrer dans la paranoïa, être attentif aux comportements inhabituels de ses systèmes (sont-ils la cause d'une attaque ou d'une tentative de piratage ?)
  7. avoir une vue d'ensemble sur la fréquence de certains évenements (par exemple une adresse IP qui revient plus souvent que les autres)
  8. rajoutez ici vos idées

Des outils existent pour vous aider à collecter et analyser ces informations : OutilsDeSuivi. Attention, ces outils ne sont pas magiques : les installer n'est pas une fin en soi, il faut les consulter et les compléter.

Planifier et prévenir

Effectuées régulièrement, quelques bonnes habitudes vous évitent de travailler toujours dans l'urgence. En voici quelques unes, la liste n'étant exhaustive :

A date fixe
  1. mettre à jour ses systèmes : chaque matin, vérifiez si de nouvelles mises à jour sont nécessaires. Considérer les implications avant d'agir (apt-listchanges est votre ami).

  2. consulter chaque jour les listes d'annonces de tous les outils utilisés
  3. tester la restauration de données depuis les sauvegardes
Régulièrement
  1. étudier les points faibles, détecter les sources de pannes potentielles, monter des scenarios catastrophes. Mettre en place des mécanismes de prévention afin d'éviter ces pannes : quotas contre les saturations, filtrage contre les utilisations excessives
  2. vérifier ses niveaux de stocks en pièces de rechange en fonction des risques identifiés
  3. vérifier le bon dimensionnement des systèmes en fonction de leur utilisation croissante et mettre à jour le matériel si besoin
Se remettre en question
  1. ré-évaluer régulièrement la configuration de ses services : les nouvelles menaces impliquent la mise en place de nouvelles protections. Par ailleurs, on configure rarement bien un logiciel dès la première fois, pas toujours mieux la seconde, et on apprend d'autres choses entre temps
  2. ré-évaluer les besoins des utilisateurs pour s'assurer de la pertinence des outils installés et pour vérifier qu'aucun service ne manque

TravailDeFond (dernière édition le 2008-02-21 22:09:18 par localhost)