1 (15:04:59) willy: ------------------- DEBUT ATELIER PERFOMANCES DE SON SERVEUR -------------------
2 (15:05:14) willy: nous démarrons avec quelques minutes de retard l'atelier suivant
3 (15:05:27) willy: moussa Nombré au micro (heu) clavier :)
4 (15:05:33) willy: .
5 (15:05:37) moussa.nombre: ;-)
6 (15:05:39) moussa.nombre: re-salut à tous
7 (15:05:57) moussa.nombre: Nous allons maintenant parler de supervision de serveur et amélioration de performances
8 (15:06:18) moussa.nombre: Voici le cheminement que nous allons suivre :
9 (15:06:24) moussa.nombre: 1. Énumération de quelques outils
10 2. Quelques exemples d'utilisation à Montréal (nagios, munin, logcheck) et à Dakar (mon)
11 3. Recommandations en matière de supervision
12 4. Comment améliorer les performances de son serveur ?
13 5. Échanges sur les expériences des participants
14
15 (15:06:56) moussa.nombre:
16 Le point 5 sera traité au fil du temps par les réactions des uns et des autres.
17 (15:07:30) moussa.nombre: NB : cette séance se veut aussi une séance d'échanges,
18
19 (15:07:37) moussa.nombre: donc, encore une fois, je vous demande de ne pas vous retenir
20 (15:07:44) moussa.nombre: et de nous faire profiter de vos expériences.
21
22 Merci d'avance
23 (15:08:21) moussa.nombre:
24 http://wiki.auf.org/wikiteki/Projet/SemaineTech/Ateliers/PerformancesDeSonServeur/SupportDePrésentation
25 Ouvrez cette page et gardez la au chaud car nous allons nous y référer tout au long de l'atelier
26 (15:08:35) moussa.nombre: Avant de se lancer, j'ai une question ouverte pour vous :
27 (15:08:45) moussa.nombre:
28 Pourquoi superviser son serveur ?
29 (15:09:04) moussa.nombre: des avis ?
30 (15:09:39) moussa.nombre: un volontaire ?
31 (15:09:54) willy:
32 alexandre.domont: pour dormir tranquille
33 (15:10:10) moussa.nombre: Alex: qu'entends-tu par dormir tranquille ?
34 (15:11:15) alexandre.domont: permettre d'anticiper les pannes et ne pas etre dérangé
35 (15:12:27) moussa.nombre:
36 alexandre.domont: ... "ne pas etre dérangé "
37 ça me tique un peu.
38 je suis bien d'accord sur l'anticipation
39
40 et vous, les autres ?
41 (15:13:33) willy:
42 rumence.boroto: MOI: c'est aussi une façon de suivre la vie et la santé de son serveur
43 (15:14:13) moussa.nombre:
44 anticiper les pannes
45 suivre la vie et la santé de son serveur
46 (15:14:31) moussa.nombre: pas mal
47 (15:14:36) moussa.nombre: d'autres ?
48 (15:14:45) willy:
49 ismaila-abdoulaye.ndiaye: anticiper sur les problemes qui peuvent survenir.... prevoir s'il ya des updates a faire .....
50 (15:15:10) moussa.nombre: okay
51 (15:15:26) moussa.nombre: j'ajoute à ma liste ...
52 (15:15:34) moussa.nombre:
53 prevoir s'il ya des updates a faire
54 (15:16:17) willy:
55 patrick.mwamba: ça permet de voir par où commencer pour depanner
56 (15:16:44) willy:
57 khuon.tiv: MOI: pour éviter la pertubation de services (panne de mail, proxy,...)
58 (15:17:02) moussa.nombre:
59 ... pistes de dépannage
60 (15:17:35) moussa.nombre:
61 ... assurer le bon fonctionnement continue des services
62 (15:18:15) willy:
63 olivier.larcheveque: la supervision c'est quand on est chef d'orchestre, l'information est remontée de toute part pour que tu puisse la traiter, ce n'est pas à toi d'aller la chercher, tu as une photographie de pleins d'indicateurs qui d'aide à diagnostiquer un problème ou une situation
64 (15:18:42) moussa.nombre: belle image, Olivier
65 (15:18:48) moussa.nombre: merci à tous
66 (15:18:53) moussa.nombre: pour résumer :
67 (15:19:29) moussa.nombre:
68 Pourquoi superviser son serveur ?
69
70 anticiper les pannes
71 suivre la vie et la santé de son serveur
72 prevoir s'il ya des updates a faire
73 (15:19:54) moussa.nombre:
74 pistes de dépannage
75 assurer le bon fonctionnement continue des services
76 (15:21:10) moussa.nombre: nous allons continuer dans l'exposé
77 (15:21:23) moussa.nombre: le point 1 :
78
79 Énumération de quelques outils de surveillance
80 (15:21:37) moussa.nombre:
81 vous trouverez un listing ici
82 http://wiki.auf.org/wikiteki/Projet/SemaineTech/Ateliers/PerformancesDeSonServeur/SupportDePrésentation#Énumération_de_quelques_outils
83 (15:22:31) moussa.nombre: j'y ai ramassé les principaux outils qui peuvent aider à la supervision d'un serveur, disons d'un système
84 (15:22:40) moussa.nombre: J'ai essayé de les classer en actifs ou passif, pour bien marquer leur portée :
85 (15:23:06) moussa.nombre: (je vous laisse lire le paragraphe, en parallèle)
86 (15:23:27) moussa.nombre: je disais les avoir classé en actifs ou passif, pour bien marquer leur portée :
87 (15:23:39) moussa.nombre: les premiers font leurs vérifications et vous alertent ...
88 (15:23:50) moussa.nombre: (par courriel, tchat, sms, téléphone, bip sonore, etc)
89 (15:23:55) moussa.nombre: en cas de problèmes.
90 (15:24:15) moussa.nombre: Quand aux seconds, ils surveillent vos ressources et font des "reporting" (graphes, logs) et
91 (15:24:40) moussa.nombre: à vous d'aller les consulter et en tirer les informations pertinentes
92 (15:25:03) moussa.nombre: Il y a une autre catégorie, que je n'ai pas listé sur cette page wiki :
93 (15:25:27) moussa.nombre: ce que je vais qualifier d'outils "pro-re-actifs" ;
94 (15:25:43) moussa.nombre: ce sont des outils qui lorsqu'ils détectent un soucis d'un certain niveau critique (interruption de service par exemple),
95 (15:25:58) moussa.nombre: sont programmés pour non seulement alerter l'admin sys, mais aussi,
96 (15:26:08) moussa.nombre: et surtout pour entreprendre des actions correctives permettant de rétablir la situation.
97 (15:26:38) moussa.nombre: Je n'ai personnellement jamais travaillé avec ce genre d'outil.
98 (15:26:42) moussa.nombre: Mais je peux vous rapporter l'exemple de l'utilisation de "mon" à Dakar pour
99 (15:26:54) moussa.nombre: surveiller les connexions Internet et
100 (15:27:10) moussa.nombre: basculer de l'une à l'autre en cas de coupure
101 (15:27:28) moussa.nombre: (Jérôme Santini, en son temps, nous avais présenté comment il avait fait ça).
102 (15:27:50) moussa.nombre: des questions / remarques ?
103 (15:28:28) willy:
104 alexandre.domont: QUESTION: Parmi tous ces outils, lesquels recommandes-tu et pour quels usages (on ne peut pas tout superviser) ?
105 (15:29:10) moussa.nombre: alexandre.domont: tout dépendra de l'objectif recherché
106 (15:29:33) moussa.nombre: par exemple, je veux suivre les espaces disque de mon serveur
107 (15:30:41) moussa.nombre: je peux utiliser "mon", qui va m'alerter quand j'aurai atteint un certain seuil tolérable (warning), et "crier" quand cela devient critique
108 (15:30:42) willy:
109 ismaila-abdoulaye.ndiaye: Moi: je pense que l'utlisation d'outils "pro-re-actifs" ne doivent pas etre a appliquer a tous les services. Car il est tres difficile d'anticiper un probleme si l'on sait que les solutions ne doivent pas etre "generiques" tout le temps. Des solutions qui envoient des alertes et nous permettent de diagnostiquer et de donner la solution la plus adequat me semble la meillleur... disons les outils "Actifs".
110 (15:31:39) moussa.nombre: parallèlement, je mettrai aussi des graphes pour voir l'évolution, ce qui me permettra de ne pas attendre d'être dans des problèmes pour agir
111 (15:33:27) moussa.nombre: le choix de l'outils peut aller d'outils simples "mon" et souvent limités, aux usines à gaz (nagios et compagnie)
112 (15:33:41) moussa.nombre: nous reviendrons sur le cas de Montréal
113 (15:34:06) moussa.nombre: willy : dans les recommandation, nous traiterons de ta question
114 (15:34:39) willy:
115 ismaila-abdoulaye.ndiaye: parmi les commandes je propose aussi mtr - a network diagnostic tool
116 (15:35:00) moussa.nombre:
117 ismaila-abdoulaye.ndiaye: oui, détecter un problème, est une chose
118 réagir à cet problème en est une autre
119 (15:35:26) moussa.nombre: il faut de l'expertise pour savoir quelle solution appliquer (quand on a des solutions)
120 (15:35:48) moussa.nombre: ceci étant, il y a des cas classiques : j'ai 2 liaisons internet
121 (15:36:05) moussa.nombre: une tombe en panne, je bascule sur l'autre
122 (15:36:36) moussa.nombre: Question pour vous
123
124 Que pensez-vous de tous ces outils ? quelles sont vos expériences en la matière ?
125 (15:37:14) willy:
126 khuon.tiv: : On n´utilise pas tshak et wireshark, qq1 l´utilise ou pas ?
127 (15:37:17) moussa.nombre: willy, on prend des avis
128 (15:38:25) willy: MOI : j'emploie assez régulièrement munin, iptraf, logcheck , tshark, mrtg , tcpdump,..
129 (15:38:34) moussa.nombre: parfait
130 (15:39:12) moussa.nombre: comme, je l'ai dis plus haut, généralement, on aura sous la main plusieurs outils, qu'on utilisera, en fonction des cas qui se présente
131 (15:39:35) moussa.nombre: qui utilise des outils actifs ? lesquels ?
132 (15:40:20) willy:
133 ismaila-abdoulaye.ndiaye: MOI: mrtg...., mtr: qui nous permet s'il ya des problemes de connections (reseau --> internet....) de savoir a quel niveau du reseau cela se situe, oubien si c'est hors du reseau d'appeler directement le pretestaire.....
134 (15:41:42) moussa.nombre: MRTG, MUNIN, CACTI : des outils pour avoir, entre autres, des graphes sur l'utilisation de votre débit Internet
135 (15:42:31) moussa.nombre: question ?
136 (15:42:40) willy:
137 ismaila-abdoulaye.ndiaye: QUESTION: aurais besoin d'une bonne documentation autour de Logcheck / logwatch?
138 (15:42:57) moussa.nombre:
139 tu peux déjà voir ici
140 http://wiki.auf.org/wikiteki/LogcheckLogwatch (https://wiki.auf.org/wikiteki/LogcheckLogwatch)
141 (15:43:16) moussa.nombre:
142 Passons au 2-
143
144 Quelques exemples d'utilisation à Montréal (http://wiki.auf.org/wikiteki/ZA/Montréal/Supervision)
145 (15:43:39) moussa.nombre: Avec la cinquantaine de serveurs, tous confondus, à Montréal,
146
147 (15:43:46) moussa.nombre: on n'a pas eu le choix que d'installer des outils de supervision pour
148 (15:44:06) moussa.nombre: surveiller de façon passive et active toutes ces ressources et éviter d'être pris au dépourvu
149 (15:44:38) moussa.nombre:
150 le principal outil ici est NAGIOS
151 (http://wiki.auf.org/wikiteki/ZA/Montréal/Supervision/AutomatisationdeNagios)
152 (15:45:33) willy:
153 /me a d'autres questions
154 (15:46:21) moussa.nombre: Ainsi, à chaque partition qui se rempli, chaque serveur virtuel qui atteint sa limite de ressource, chaque "out of memory", un service http, dns, smtp,etc. qui tombe, un serveur injoignable, etc.,
155 (15:46:35) moussa.nombre: dépendamment de la criticité (warning/critical) et du serveur concerné, Nagios envoie des alertes à un groupe prédéfinit de personnes (par courriel et par jabber)
156 (15:46:46) moussa.nombre: willy : je termine d'abord
157 (15:47:13) moussa.nombre: ... Et à nous de prendre les mesures qui s'imposent.
158 (15:47:37) moussa.nombre: Je vous ai mis dans le support quelques captures d'écrans et exemples d'alertes
159 (15:48:26) moussa.nombre:
160 exemple rapide, qui vient de tomber il y a quelques instants
161
162 (10:18:51) NM: Service: Charge CPU
163 Host: netopia83
164 Address: 10.36.0.83
165 State: CRITICAL
166 Info: CHARGE CPU CRITICAL - *100* %
167 Date: Wed Aug 31 10:23:07 EDT 2011
168 (15:48:55) moussa.nombre: un netopia (pour l'accès au rpv) qui est chargé à fond
169 (15:49:14) moussa.nombre:
170 et par la suite
171
172 (10:33:51) NM: Service: Charge CPU
173 Host: netopia83
174 Address: 10.36.0.83
175 State: OK
176 Info: CHARGE CPU OK - 7 %
177 Date: Wed Aug 31 10:38:07 EDT 2011
178 (15:49:30) moussa.nombre: situation rétablie
179 (15:49:39) moussa.nombre: des questions
180 (15:49:46) willy:
181 louis-beethoven.montrose: QUESTION: Munin est très intéressant, il te donne ttes les infos concernant la connexion internet, le processeur, le disque dur, etc... Cependant, il pose des fois des problèmes de mise-à-jour
182 (15:49:59) willy: avez-vous eu ce problème de mise-a-jour avec Munin?
183 (15:50:31) moussa.nombre: c'est plutôt rare comme situation
184 (15:51:24) willy: une autre ...
185 (15:51:59) moussa.nombre: j'ai moi même vécu ce type de soucis, mais parce que j'avais beaucoup de ressources à suivre et les 5 minutes d'intervalle pour les check, n'était plus suffisant, quadn un des services prenant un peu trop de temps
186 (15:52:21) moussa.nombre: oui, willy ?
187 (15:52:26) willy:
188 chanesakhone.chitsaya: MOI: QUESTION: Est-ce qu'il y a des outils qui permet d'analyser le réseau local par quelle IP entrain de télécharger, combien la taille de téléchargement ?
189 (15:52:47) moussa.nombre: tu as iptraf
190 (15:52:59) moussa.nombre: par exemple
191 (15:53:14) moussa.nombre: Point suivant
192 3. Recommandations en matière de supervision
193 (15:53:21) moussa.nombre:
194 - réviser les seuils d'alerte en fonction des activités des serveurs : pour mieux affiner et réduire le "bruit" (alertes inutiles/inopportunes)
195 (15:53:50) moussa.nombre: qd on met des outils de surveillance, on met des seuils, et il faut les adapter au fil du temps
196 (15:54:10) moussa.nombre:
197 - la rigueur dans le suivi des alertes, prendre soin de lire attentivement TOUS les messages. Cela peut s'avérer pénible, mais c'est moins pénible que de devoir soi-même faire toutes les vérifications et trouver les soucis
198
199 (15:54:47) moussa.nombre: se dire qu'on est chanceux de "n'avoir que" des mails à lire
200 (15:54:58) moussa.nombre:
201 - ne pas remettre à plus tard le traitement des alertes critiques ; quand c'est critique, c'est critique : à traiter immédiatement. Normalement, pour certaines ressources (mémoire, disque dur) on ne doit pas arriver à cette situation, acr on a reçu des WARNING qu'on aurait dû traiter
202 (15:55:38) moussa.nombre:
203 - suivre régulièrement les graphes : cela permet de déceler les soucis à venir (saturation espace disque ou mémoire, etc.) et d'anticiper
204 (15:56:03) moussa.nombre: Point 4.
205
206 Comment améliorer les performances de son serveur ?
207 (15:56:24) moussa.nombre:
208 - un serveur == rôle précis ==> applications précises ==> ne pas y installer n'importe quoi
209 (15:56:45) moussa.nombre:
210 - savoir détecter les signes d’essoufflement (charge constamment élevée, saturation espace disque ou mémoire, processeur, trafic réseau, etc.) et prendre les mesures qui s'imposent (augmentation RAM, carte réseau gigabits, ajout de processeur si possible, etc.)
211 (15:56:54) moussa.nombre:
212 - garder son serveur à jour
213 (15:57:20) moussa.nombre:
214 - on peut aussi changer périodiquement les disques durs (cela minimise les pannes de disques HS)
215 (15:57:33) moussa.nombre: des questions / remarques ?
216 (15:57:37) moussa.nombre: des compléments ?
217 (15:57:46) willy:
218 khuon.tiv: MOI : On parle de la supervision, mais prquoi ne pas parler de la Prévention de pénétration en interne ou de l´externe ? Comment savez-vous si vos serveurs sont sous l´attaque ?
219 (15:58:26) moussa.nombre: effectivement cela fait aussi parti de la surveillance
220 (15:59:33) moussa.nombre: et ça commence par un serveur bien installé, avec juste ce qu'il faut, des application de "confiance", une mise à jour régulière
221 (16:00:02) moussa.nombre: et bien sûr, on peut utiliser des outils de détection d'intrusion
222 (16:00:34) ***willy
223 (16:00:40) moussa.nombre: à postériori, on a aussi les logs
224 (16:00:59) moussa.nombre: willy, on a commencé avec 5 minutes de retard ;-)
225 (16:01:02) moussa.nombre: :P
226 (16:01:06) willy: :)
227 (16:01:34) moussa.nombre: ne pas oublier aussi un bon blindage de son parefeu
228 (16:01:56) moussa.nombre: je termine là ce que j'avais à vous présenter
229 (16:02:20) moussa.nombre: c'est la période de libres échanges
230 (16:02:29) moussa.nombre:
231 * existent-ils des scripts/outils perso ?
232 (16:02:56) moussa.nombre:
233 * comment font les autres (qui n'utilisent pas d'outils) ?)
234 (16:03:04) moussa.nombre: (très très mauvais)
235 (16:03:14) moussa.nombre:
236 * avez-vous des points qui n'ont pas été abordés et dont vous souhaiteriez parler ?
237 (16:03:49) moussa.nombre: willy : explique un peu STP
238 (16:04:00) moussa.nombre:
239 willy.manga: MOI: juste un pour le parefeu au démarrage et un autre pour des routes statiques avec l'université
240 (16:04:29) willy: j'ai un script qui définit les règles de mon parefeu au démarrage du serveur
241 (16:04:52) willy: un ensemble de 'iptables ... ACCEPT | DROP '
242 (16:04:56) moussa.nombre: ok
243 (16:05:19) ***willy
244 (16:05:23) moussa.nombre: vas-y
245 (16:05:30) willy: MARQUE: en prenant l'habitude de lire ses logs, on apprend à reconnaitre les niveaux de "sévérités" et ça permet par exemple de mieux trier son courriel et de reconnaitre ce qui est plus prioritaire
246 (16:05:51) moussa.nombre: oui, tout à fait
247 (16:06:06) moussa.nombre: et ça fait parti de "connaître son système"
248 (16:06:21) moussa.nombre: et est bien implémenté pat logcheck
249 (16:06:29) moussa.nombre: (par)
250 (16:07:08) moussa.nombre: willy, il y a des questions en attente
251 (16:07:11) willy:
252 frumence.boroto: QUESTION: vous avez avez parler du blindage de son parefeu, ça se fait comment, je crois que je n'ai pas bien saisi ?
253 (16:08:14) moussa.nombre: frumence.boroto: il s'agit de définir les bonnes règles et ne laisser passer que ce qui doit l'être depuis ou vers des lieux "sûr"
254 (16:08:47) moussa.nombre: notamment partir du principe de "tout ce qui n'est pas autorisé est interdit"
255 (16:09:06) moussa.nombre: bon, je pense qu'on a épuisé notre créneau horaire
256 (16:09:25) moussa.nombre: willi : est-ce qu'on continue les discussions dans @tech ?
257 (16:09:38) willy: on peut encore prendre quelques questions ici
258 (16:09:45) moussa.nombre: ok
259 (16:09:50) moussa.nombre: on y va alors
260 (16:09:51) willy: d'autant plus que c'est le dernier atelier; ça pourra figurer dans le log final
261 (16:09:52) willy:
262 claudine.mosozi: QUESTION : souvent on remarque que des users surcharge le réseau par des téléchargement volumuneux que pensez-vous de l'outils italc pour surveiller les salles public
263 (16:10:08) willy:
264 claudine.mosozi: MOI : je suis peut-être en déhors des outils utilisés sur les serveurs, mais ça peut aider si on l'installait sur son poste de RTL
265 (16:10:31) moussa.nombre: ITALC, personnellement je ne le connait pas
266 (16:10:51) moussa.nombre: quelqu'un d'autre l'utilise-t-il ? ou l'a-t-il testé ?
267 (16:11:42) willy: ismaila-abdoulaye.ndiaye: l'a utilisé (apparemment)
268 (16:12:02) moussa.nombre:
269 pour info : http://italc.sourceforge.net/
270 (16:12:04) moussa.nombre: okay
271 (16:12:33) willy: une dernière ou on arrête ici ?
272 (16:12:52) moussa.nombre:
273 oui, la question de brice.ondjibou
274 (16:13:06) willy:
275 brice.ondjibou: moi: si votre FAI dit vous donner 2M/bits, comment mesurer qu'effectivement on a 2M depuis parfeu ou routeur?
276 (16:14:03) willy: désolé. remarque de brice.ondjibou au sujet de italc
277 (16:14:04) willy:
278 brice.ondjibou: moi: Italc, je pense est approprier dans le cadre des enseignements. pertinent pour une formation, mais dans cadre navigation libre, c'est un peu gênant de surveiller ce que fait quelqu'un sur sa machine: je pense
279 (16:14:32) moussa.nombre: installer un outil de surveillance : mrtg, cacti, munin
280 et suivre régulièrement les graphes pour voir les pics
281 (16:14:46) moussa.nombre: pic == limite imposée par le FAI
282 (16:15:10) moussa.nombre: ou bien, sur les sites Internet qu'on trouve, mesurer sa bande passante
283 (16:15:21) moussa.nombre: bien
284 (16:15:38) moussa.nombre: je vous remercie tous pour votre attention
285 (16:16:11) moussa.nombre: j'ai beaucoup apprécié vos interventions et votre interêt
286 (16:16:41) moussa.nombre: votre participation a été très bonne
287 (16:17:07) moussa.nombre: nous pouvons continuer dans le salon tech, j'y suis connecté en permanence
288 (16:17:09) moussa.nombre: MERCI
289 (16:17:52) willy: merci moussa :)
290 (16:17:56) moussa.nombre: ;-)
291 (16:18:07) willy: ----------------------------- FIN ATELIER PERFORMANCE SERVEUR -----------------------