## page was renamed from Projet/SemaineTech2011/Ateliers/PerformancesDeSonServeur/Conversation ## page was renamed from Projet/SemaineTech/Ateliers/PerformancesDeSonServeur/Conversation {{{#!highlight irc (15:04:59) willy: ------------------- DEBUT ATELIER PERFOMANCES DE SON SERVEUR ------------------- (15:05:14) willy: nous démarrons avec quelques minutes de retard l'atelier suivant (15:05:27) willy: moussa Nombré au micro (heu) clavier :) (15:05:33) willy: . (15:05:37) moussa.nombre: ;-) (15:05:39) moussa.nombre: re-salut à tous (15:05:57) moussa.nombre: Nous allons maintenant parler de supervision de serveur et amélioration de performances (15:06:18) moussa.nombre: Voici le cheminement que nous allons suivre : (15:06:24) moussa.nombre: 1. Énumération de quelques outils 2. Quelques exemples d'utilisation à Montréal (nagios, munin, logcheck) et à Dakar (mon) 3. Recommandations en matière de supervision 4. Comment améliorer les performances de son serveur ? 5. Échanges sur les expériences des participants (15:06:56) moussa.nombre: Le point 5 sera traité au fil du temps par les réactions des uns et des autres. (15:07:30) moussa.nombre: NB : cette séance se veut aussi une séance d'échanges, (15:07:37) moussa.nombre: donc, encore une fois, je vous demande de ne pas vous retenir (15:07:44) moussa.nombre: et de nous faire profiter de vos expériences. Merci d'avance (15:08:21) moussa.nombre: http://wiki.auf.org/wikiteki/Projet/SemaineTech/Ateliers/PerformancesDeSonServeur/SupportDePrésentation Ouvrez cette page et gardez la au chaud car nous allons nous y référer tout au long de l'atelier (15:08:35) moussa.nombre: Avant de se lancer, j'ai une question ouverte pour vous : (15:08:45) moussa.nombre: Pourquoi superviser son serveur ? (15:09:04) moussa.nombre: des avis ? (15:09:39) moussa.nombre: un volontaire ? (15:09:54) willy: alexandre.domont: pour dormir tranquille (15:10:10) moussa.nombre: Alex: qu'entends-tu par dormir tranquille ? (15:11:15) alexandre.domont: permettre d'anticiper les pannes et ne pas etre dérangé (15:12:27) moussa.nombre: alexandre.domont: ... "ne pas etre dérangé " ça me tique un peu. je suis bien d'accord sur l'anticipation et vous, les autres ? (15:13:33) willy: rumence.boroto: MOI: c'est aussi une façon de suivre la vie et la santé de son serveur (15:14:13) moussa.nombre: anticiper les pannes suivre la vie et la santé de son serveur (15:14:31) moussa.nombre: pas mal (15:14:36) moussa.nombre: d'autres ? (15:14:45) willy: ismaila-abdoulaye.ndiaye: anticiper sur les problemes qui peuvent survenir.... prevoir s'il ya des updates a faire ..... (15:15:10) moussa.nombre: okay (15:15:26) moussa.nombre: j'ajoute à ma liste ... (15:15:34) moussa.nombre: prevoir s'il ya des updates a faire (15:16:17) willy: patrick.mwamba: ça permet de voir par où commencer pour depanner (15:16:44) willy: khuon.tiv: MOI: pour éviter la pertubation de services (panne de mail, proxy,...) (15:17:02) moussa.nombre: ... pistes de dépannage (15:17:35) moussa.nombre: ... assurer le bon fonctionnement continue des services (15:18:15) willy: olivier.larcheveque: la supervision c'est quand on est chef d'orchestre, l'information est remontée de toute part pour que tu puisse la traiter, ce n'est pas à toi d'aller la chercher, tu as une photographie de pleins d'indicateurs qui d'aide à diagnostiquer un problème ou une situation (15:18:42) moussa.nombre: belle image, Olivier (15:18:48) moussa.nombre: merci à tous (15:18:53) moussa.nombre: pour résumer : (15:19:29) moussa.nombre: Pourquoi superviser son serveur ? anticiper les pannes suivre la vie et la santé de son serveur prevoir s'il ya des updates a faire (15:19:54) moussa.nombre: pistes de dépannage assurer le bon fonctionnement continue des services (15:21:10) moussa.nombre: nous allons continuer dans l'exposé (15:21:23) moussa.nombre: le point 1 : Énumération de quelques outils de surveillance (15:21:37) moussa.nombre: vous trouverez un listing ici http://wiki.auf.org/wikiteki/Projet/SemaineTech/Ateliers/PerformancesDeSonServeur/SupportDePrésentation#Énumération_de_quelques_outils (15:22:31) moussa.nombre: j'y ai ramassé les principaux outils qui peuvent aider à la supervision d'un serveur, disons d'un système (15:22:40) moussa.nombre: J'ai essayé de les classer en actifs ou passif, pour bien marquer leur portée : (15:23:06) moussa.nombre: (je vous laisse lire le paragraphe, en parallèle) (15:23:27) moussa.nombre: je disais les avoir classé en actifs ou passif, pour bien marquer leur portée : (15:23:39) moussa.nombre: les premiers font leurs vérifications et vous alertent ... (15:23:50) moussa.nombre: (par courriel, tchat, sms, téléphone, bip sonore, etc) (15:23:55) moussa.nombre: en cas de problèmes. (15:24:15) moussa.nombre: Quand aux seconds, ils surveillent vos ressources et font des "reporting" (graphes, logs) et (15:24:40) moussa.nombre: à vous d'aller les consulter et en tirer les informations pertinentes (15:25:03) moussa.nombre: Il y a une autre catégorie, que je n'ai pas listé sur cette page wiki : (15:25:27) moussa.nombre: ce que je vais qualifier d'outils "pro-re-actifs" ; (15:25:43) moussa.nombre: ce sont des outils qui lorsqu'ils détectent un soucis d'un certain niveau critique (interruption de service par exemple), (15:25:58) moussa.nombre: sont programmés pour non seulement alerter l'admin sys, mais aussi, (15:26:08) moussa.nombre: et surtout pour entreprendre des actions correctives permettant de rétablir la situation. (15:26:38) moussa.nombre: Je n'ai personnellement jamais travaillé avec ce genre d'outil. (15:26:42) moussa.nombre: Mais je peux vous rapporter l'exemple de l'utilisation de "mon" à Dakar pour (15:26:54) moussa.nombre: surveiller les connexions Internet et (15:27:10) moussa.nombre: basculer de l'une à l'autre en cas de coupure (15:27:28) moussa.nombre: (Jérôme Santini, en son temps, nous avais présenté comment il avait fait ça). (15:27:50) moussa.nombre: des questions / remarques ? (15:28:28) willy: alexandre.domont: QUESTION: Parmi tous ces outils, lesquels recommandes-tu et pour quels usages (on ne peut pas tout superviser) ? (15:29:10) moussa.nombre: alexandre.domont: tout dépendra de l'objectif recherché (15:29:33) moussa.nombre: par exemple, je veux suivre les espaces disque de mon serveur (15:30:41) moussa.nombre: je peux utiliser "mon", qui va m'alerter quand j'aurai atteint un certain seuil tolérable (warning), et "crier" quand cela devient critique (15:30:42) willy: ismaila-abdoulaye.ndiaye: Moi: je pense que l'utlisation d'outils "pro-re-actifs" ne doivent pas etre a appliquer a tous les services. Car il est tres difficile d'anticiper un probleme si l'on sait que les solutions ne doivent pas etre "generiques" tout le temps. Des solutions qui envoient des alertes et nous permettent de diagnostiquer et de donner la solution la plus adequat me semble la meillleur... disons les outils "Actifs". (15:31:39) moussa.nombre: parallèlement, je mettrai aussi des graphes pour voir l'évolution, ce qui me permettra de ne pas attendre d'être dans des problèmes pour agir (15:33:27) moussa.nombre: le choix de l'outils peut aller d'outils simples "mon" et souvent limités, aux usines à gaz (nagios et compagnie) (15:33:41) moussa.nombre: nous reviendrons sur le cas de Montréal (15:34:06) moussa.nombre: willy : dans les recommandation, nous traiterons de ta question (15:34:39) willy: ismaila-abdoulaye.ndiaye: parmi les commandes je propose aussi mtr - a network diagnostic tool (15:35:00) moussa.nombre: ismaila-abdoulaye.ndiaye: oui, détecter un problème, est une chose réagir à cet problème en est une autre (15:35:26) moussa.nombre: il faut de l'expertise pour savoir quelle solution appliquer (quand on a des solutions) (15:35:48) moussa.nombre: ceci étant, il y a des cas classiques : j'ai 2 liaisons internet (15:36:05) moussa.nombre: une tombe en panne, je bascule sur l'autre (15:36:36) moussa.nombre: Question pour vous Que pensez-vous de tous ces outils ? quelles sont vos expériences en la matière ? (15:37:14) willy: khuon.tiv: : On n´utilise pas tshak et wireshark, qq1 l´utilise ou pas ? (15:37:17) moussa.nombre: willy, on prend des avis (15:38:25) willy: MOI : j'emploie assez régulièrement munin, iptraf, logcheck , tshark, mrtg , tcpdump,.. (15:38:34) moussa.nombre: parfait (15:39:12) moussa.nombre: comme, je l'ai dis plus haut, généralement, on aura sous la main plusieurs outils, qu'on utilisera, en fonction des cas qui se présente (15:39:35) moussa.nombre: qui utilise des outils actifs ? lesquels ? (15:40:20) willy: ismaila-abdoulaye.ndiaye: MOI: mrtg...., mtr: qui nous permet s'il ya des problemes de connections (reseau --> internet....) de savoir a quel niveau du reseau cela se situe, oubien si c'est hors du reseau d'appeler directement le pretestaire..... (15:41:42) moussa.nombre: MRTG, MUNIN, CACTI : des outils pour avoir, entre autres, des graphes sur l'utilisation de votre débit Internet (15:42:31) moussa.nombre: question ? (15:42:40) willy: ismaila-abdoulaye.ndiaye: QUESTION: aurais besoin d'une bonne documentation autour de Logcheck / logwatch? (15:42:57) moussa.nombre: tu peux déjà voir ici http://wiki.auf.org/wikiteki/LogcheckLogwatch (https://wiki.auf.org/wikiteki/LogcheckLogwatch) (15:43:16) moussa.nombre: Passons au 2- Quelques exemples d'utilisation à Montréal (http://wiki.auf.org/wikiteki/ZA/Montréal/Supervision) (15:43:39) moussa.nombre: Avec la cinquantaine de serveurs, tous confondus, à Montréal, (15:43:46) moussa.nombre: on n'a pas eu le choix que d'installer des outils de supervision pour (15:44:06) moussa.nombre: surveiller de façon passive et active toutes ces ressources et éviter d'être pris au dépourvu (15:44:38) moussa.nombre: le principal outil ici est NAGIOS (http://wiki.auf.org/wikiteki/ZA/Montréal/Supervision/AutomatisationdeNagios) (15:45:33) willy: /me a d'autres questions (15:46:21) moussa.nombre: Ainsi, à chaque partition qui se rempli, chaque serveur virtuel qui atteint sa limite de ressource, chaque "out of memory", un service http, dns, smtp,etc. qui tombe, un serveur injoignable, etc., (15:46:35) moussa.nombre: dépendamment de la criticité (warning/critical) et du serveur concerné, Nagios envoie des alertes à un groupe prédéfinit de personnes (par courriel et par jabber) (15:46:46) moussa.nombre: willy : je termine d'abord (15:47:13) moussa.nombre: ... Et à nous de prendre les mesures qui s'imposent. (15:47:37) moussa.nombre: Je vous ai mis dans le support quelques captures d'écrans et exemples d'alertes (15:48:26) moussa.nombre: exemple rapide, qui vient de tomber il y a quelques instants (10:18:51) NM: Service: Charge CPU Host: netopia83 Address: 10.36.0.83 State: CRITICAL Info: CHARGE CPU CRITICAL - *100* % Date: Wed Aug 31 10:23:07 EDT 2011 (15:48:55) moussa.nombre: un netopia (pour l'accès au rpv) qui est chargé à fond (15:49:14) moussa.nombre: et par la suite (10:33:51) NM: Service: Charge CPU Host: netopia83 Address: 10.36.0.83 State: OK Info: CHARGE CPU OK - 7 % Date: Wed Aug 31 10:38:07 EDT 2011 (15:49:30) moussa.nombre: situation rétablie (15:49:39) moussa.nombre: des questions (15:49:46) willy: louis-beethoven.montrose: QUESTION: Munin est très intéressant, il te donne ttes les infos concernant la connexion internet, le processeur, le disque dur, etc... Cependant, il pose des fois des problèmes de mise-à-jour (15:49:59) willy: avez-vous eu ce problème de mise-a-jour avec Munin? (15:50:31) moussa.nombre: c'est plutôt rare comme situation (15:51:24) willy: une autre ... (15:51:59) moussa.nombre: j'ai moi même vécu ce type de soucis, mais parce que j'avais beaucoup de ressources à suivre et les 5 minutes d'intervalle pour les check, n'était plus suffisant, quadn un des services prenant un peu trop de temps (15:52:21) moussa.nombre: oui, willy ? (15:52:26) willy: chanesakhone.chitsaya: MOI: QUESTION: Est-ce qu'il y a des outils qui permet d'analyser le réseau local par quelle IP entrain de télécharger, combien la taille de téléchargement ? (15:52:47) moussa.nombre: tu as iptraf (15:52:59) moussa.nombre: par exemple (15:53:14) moussa.nombre: Point suivant 3. Recommandations en matière de supervision (15:53:21) moussa.nombre: - réviser les seuils d'alerte en fonction des activités des serveurs : pour mieux affiner et réduire le "bruit" (alertes inutiles/inopportunes) (15:53:50) moussa.nombre: qd on met des outils de surveillance, on met des seuils, et il faut les adapter au fil du temps (15:54:10) moussa.nombre: - la rigueur dans le suivi des alertes, prendre soin de lire attentivement TOUS les messages. Cela peut s'avérer pénible, mais c'est moins pénible que de devoir soi-même faire toutes les vérifications et trouver les soucis (15:54:47) moussa.nombre: se dire qu'on est chanceux de "n'avoir que" des mails à lire (15:54:58) moussa.nombre: - ne pas remettre à plus tard le traitement des alertes critiques ; quand c'est critique, c'est critique : à traiter immédiatement. Normalement, pour certaines ressources (mémoire, disque dur) on ne doit pas arriver à cette situation, acr on a reçu des WARNING qu'on aurait dû traiter (15:55:38) moussa.nombre: - suivre régulièrement les graphes : cela permet de déceler les soucis à venir (saturation espace disque ou mémoire, etc.) et d'anticiper (15:56:03) moussa.nombre: Point 4. Comment améliorer les performances de son serveur ? (15:56:24) moussa.nombre: - un serveur == rôle précis ==> applications précises ==> ne pas y installer n'importe quoi (15:56:45) moussa.nombre: - savoir détecter les signes d’essoufflement (charge constamment élevée, saturation espace disque ou mémoire, processeur, trafic réseau, etc.) et prendre les mesures qui s'imposent (augmentation RAM, carte réseau gigabits, ajout de processeur si possible, etc.) (15:56:54) moussa.nombre: - garder son serveur à jour (15:57:20) moussa.nombre: - on peut aussi changer périodiquement les disques durs (cela minimise les pannes de disques HS) (15:57:33) moussa.nombre: des questions / remarques ? (15:57:37) moussa.nombre: des compléments ? (15:57:46) willy: khuon.tiv: MOI : On parle de la supervision, mais prquoi ne pas parler de la Prévention de pénétration en interne ou de l´externe ? Comment savez-vous si vos serveurs sont sous l´attaque ? (15:58:26) moussa.nombre: effectivement cela fait aussi parti de la surveillance (15:59:33) moussa.nombre: et ça commence par un serveur bien installé, avec juste ce qu'il faut, des application de "confiance", une mise à jour régulière (16:00:02) moussa.nombre: et bien sûr, on peut utiliser des outils de détection d'intrusion (16:00:34) ***willy signale que nous avons dépassé l'heure réglementaire (16:00:40) moussa.nombre: à postériori, on a aussi les logs (16:00:59) moussa.nombre: willy, on a commencé avec 5 minutes de retard ;-) (16:01:02) moussa.nombre: :P (16:01:06) willy: :) (16:01:34) moussa.nombre: ne pas oublier aussi un bon blindage de son parefeu (16:01:56) moussa.nombre: je termine là ce que j'avais à vous présenter (16:02:20) moussa.nombre: c'est la période de libres échanges (16:02:29) moussa.nombre: * existent-ils des scripts/outils perso ? (16:02:56) moussa.nombre: * comment font les autres (qui n'utilisent pas d'outils) ?) (16:03:04) moussa.nombre: (très très mauvais) (16:03:14) moussa.nombre: * avez-vous des points qui n'ont pas été abordés et dont vous souhaiteriez parler ? (16:03:49) moussa.nombre: willy : explique un peu STP (16:04:00) moussa.nombre: willy.manga: MOI: juste un pour le parefeu au démarrage et un autre pour des routes statiques avec l'université (16:04:29) willy: j'ai un script qui définit les règles de mon parefeu au démarrage du serveur (16:04:52) willy: un ensemble de 'iptables ... ACCEPT | DROP ' (16:04:56) moussa.nombre: ok (16:05:19) ***willy a une remarque en attente (16:05:23) moussa.nombre: vas-y (16:05:30) willy: MARQUE: en prenant l'habitude de lire ses logs, on apprend à reconnaitre les niveaux de "sévérités" et ça permet par exemple de mieux trier son courriel et de reconnaitre ce qui est plus prioritaire (16:05:51) moussa.nombre: oui, tout à fait (16:06:06) moussa.nombre: et ça fait parti de "connaître son système" (16:06:21) moussa.nombre: et est bien implémenté pat logcheck (16:06:29) moussa.nombre: (par) (16:07:08) moussa.nombre: willy, il y a des questions en attente (16:07:11) willy: frumence.boroto: QUESTION: vous avez avez parler du blindage de son parefeu, ça se fait comment, je crois que je n'ai pas bien saisi ? (16:08:14) moussa.nombre: frumence.boroto: il s'agit de définir les bonnes règles et ne laisser passer que ce qui doit l'être depuis ou vers des lieux "sûr" (16:08:47) moussa.nombre: notamment partir du principe de "tout ce qui n'est pas autorisé est interdit" (16:09:06) moussa.nombre: bon, je pense qu'on a épuisé notre créneau horaire (16:09:25) moussa.nombre: willi : est-ce qu'on continue les discussions dans @tech ? (16:09:38) willy: on peut encore prendre quelques questions ici (16:09:45) moussa.nombre: ok (16:09:50) moussa.nombre: on y va alors (16:09:51) willy: d'autant plus que c'est le dernier atelier; ça pourra figurer dans le log final (16:09:52) willy: claudine.mosozi: QUESTION : souvent on remarque que des users surcharge le réseau par des téléchargement volumuneux que pensez-vous de l'outils italc pour surveiller les salles public (16:10:08) willy: claudine.mosozi: MOI : je suis peut-être en déhors des outils utilisés sur les serveurs, mais ça peut aider si on l'installait sur son poste de RTL (16:10:31) moussa.nombre: ITALC, personnellement je ne le connait pas (16:10:51) moussa.nombre: quelqu'un d'autre l'utilise-t-il ? ou l'a-t-il testé ? (16:11:42) willy: ismaila-abdoulaye.ndiaye: l'a utilisé (apparemment) (16:12:02) moussa.nombre: pour info : http://italc.sourceforge.net/ (16:12:04) moussa.nombre: okay (16:12:33) willy: une dernière ou on arrête ici ? (16:12:52) moussa.nombre: oui, la question de brice.ondjibou (16:13:06) willy: brice.ondjibou: moi: si votre FAI dit vous donner 2M/bits, comment mesurer qu'effectivement on a 2M depuis parfeu ou routeur? (16:14:03) willy: désolé. remarque de brice.ondjibou au sujet de italc (16:14:04) willy: brice.ondjibou: moi: Italc, je pense est approprier dans le cadre des enseignements. pertinent pour une formation, mais dans cadre navigation libre, c'est un peu gênant de surveiller ce que fait quelqu'un sur sa machine: je pense (16:14:32) moussa.nombre: installer un outil de surveillance : mrtg, cacti, munin et suivre régulièrement les graphes pour voir les pics (16:14:46) moussa.nombre: pic == limite imposée par le FAI (16:15:10) moussa.nombre: ou bien, sur les sites Internet qu'on trouve, mesurer sa bande passante (16:15:21) moussa.nombre: bien (16:15:38) moussa.nombre: je vous remercie tous pour votre attention (16:16:11) moussa.nombre: j'ai beaucoup apprécié vos interventions et votre interêt (16:16:41) moussa.nombre: votre participation a été très bonne (16:17:07) moussa.nombre: nous pouvons continuer dans le salon tech, j'y suis connecté en permanence (16:17:09) moussa.nombre: MERCI (16:17:52) willy: merci moussa :) (16:17:56) moussa.nombre: ;-) (16:18:07) willy: ----------------------------- FIN ATELIER PERFORMANCE SERVEUR ----------------------- }}}