Cette page est destinée à aider l'administrateur système dans son travail. On y liste ce qu'il faut faire régulièrement afin de limiter le nombre d'urgence à traiter.

Connaître son système

Vous devez connaître votre système dans ses moindres détails. Ainsi, vous êtes capable d'anticiper, en agissant avant qu'un problème ne se transforme en urgence. Inversement, vous évitez de paniquer inutilement face à de fausses alertes. Enfin, comme des urgences se produisent malgrè tout, vous aurez des éléments pour agir de manière plus efficace.

Connaître son système c'est en faire l'inventaire mais aussi savoir comme il fonctionne habituellement.

Documentation

Il est nécessaire de disposer de plans à jour en permanence.

Au niveau des matériels, vous devez connaître :

  1. les réseaux informatiques, électriques et télécom
  2. le détail des composants internes des serveurs (disques, processeur, mémoire vive, etc.)
  3. les systèmes de protection électriques (puissance, autonomie, etc.)
  4. les interconnexions et les dépendances entre ces éléments

L'étiquettage soigneux et exhaustif du matériel fait partie de la documentation.

Vous devez aussi disposer des plans logiques concernant :

  1. l'adressage IP
  2. la répartition des services par serveur (DNS, messagerie, pare-feu, etc.)
  3. les interconnexions et les dépendances entre ces services

Suivi

Vous devez connaître le comportement habituel de votre matériel :

  1. les bruits habituels des disques, des ventilateurs, des climatiseurs
  2. l'autonomie des onduleurs
  3. les délais de démarrage des serveurs
  4. la température habituelle de la clim, des disques, des processeurs
  5. ... et tous les autres petits détails spécifiques à votre installation.

En conclusion, visitez régulièrement votre local technique, et pas seulement durant les pannes.

De même pour les logiciels, vous devez connaître :

  1. la charge habituelle des serveurs
  2. le taux d'occupation de la mémoire, le swap éventuel
  3. les taux d'occupation des disques et leur évolution dans le temps
  4. les alertes qui n'en sont pas vraiment dans les logs, c'est-à-dire dont vous avez constaté par expérience qu'elles ne prêtent pas à conséquence
  5. les ordres de grandeurs concernant l'utilisation des services (nombre de mails, requêtes web, etc.)
  6. rajoutez ici vos idées

Des outils existent pour vous aider à collecter et analyser ces informations : OutilsDeSuivi. Attention, ces outils ne sont pas magiques : les installer n'est pas une fin en soi, il faut les consulter et les compléter.

Tâches régulières

Effectuées régulièrement, quelques bonnes habitudes vous évitent de travailler toujours dans l'urgence.

En prévention
  1. mettre à jour ses systèmes : chaque matin, vérifiez si de nouvelles mises à jour sont nécessaires. Considérer les implications avant d'agir (apt-listchanges est votre ami).

  2. être abonné à toutes les listes d'annonces de tous les outils utilisés
  3. ré-évaluer régulièrement la configuration de ses services : les nouvelles menaces impliquent la mise en place de nouvelles protections. Se remettre en question en permanence : on configure rarement bien un logiciel la première fois, pas toujours mieux la seconde, et on apprend d'autres choses entre temps
  4. étudier les points faibles, détecter les sources de pannes potentielles, monter des scenarios catastrophes. Mettre en place des mécanismes de prévention afin d'éviter ces pannes : quotas contre les saturations, filtrage contre les utilisations excessives
En réaction
  1. sans sombrer dans la paranoïa, être attentif aux comportements inhabituels de ses systèmes (sont-ils la cause d'une attaque ou d'une tentative de piratage ?)
  2. avoir une vue d'ensemble sur la fréquence de certains évenements (par exemple une adresse IP qui revient plus souvent que les autres)
  3. savoir détecter rapidement une anomalie et évaluer sa gravité

- où sont les logs ?

- aspect quantité - aspect gestion de l'inattendu

planification

vérification des backups

Demande de l'aide

- donner le contexte des logs et des pannes