Modifications entre les versions 8 et 18 (s'étendant sur 10 versions)
Version 8 à la date du 2011-01-19 16:33:29
Taille: 3670
Éditeur: DarkoStanar
Commentaire:
Version 18 à la date du 2011-08-09 13:50:08
Taille: 3804
Éditeur: MoussaNombre
Commentaire: Nouvelle macro : minipage, formatage dans un tableau
Texte supprimé. Texte ajouté.
Ligne 1: Ligne 1:
## page was copied from ZA/Montréal/ToIP/JournalDesEvenements
## page was renamed from ZA/Montréal/ToIP/JournalDesIncidents
= ToIP : journal des évènements =
= Journal des évènements des serveurs bureautique =

== NFS-AUTHNSS ==

||08/08/2011||Plus aucun service||17h29||Constat : le serveur est simplement arrêté/éteint !!!||17h37||NM||<<MiniPage( * extrait de syslog\n * Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf on battery\n * Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf battery is low\n * Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf battery needs to be replaced\n * Aug 8 17:25:58 nfs-authnss upsmon[3650]: FSD set on '''UPS AUF_MTL1@vz-www.ca.auf failed: ERR ACCESS-DENIED\n * Aug 8 17:25:59 nfs-authnss upsmon[3650]: Executing automatic power-fail shutdown'''\n * Aug 8 17:25:59 nfs-authnss upsmon[3650]: Auto logout and shutdown proceeding\n * Aug 8 17:26:04 nfs-authnss shutdown[31502]: shutting down for system halt\n * Aug 8 17:26:05 nfs-authnss init: Switching to runlevel: 0)>><<MiniPage( * '''CONCLUSION''' : un gros soucis sur l'onduleur 1)>>||
||18/07/2011||Serveur planté, NM et DS en vacances||Date/Time: Mon Jul 18 17:18:00 EDT 2011 / ** PROBLEM alert 1 - nfs-mtl host is DOWN **||Assistance téléphonique de NM suite à l'appel de VB : arrêt du serveur via l'interrupteur et redémarrage||Date/Time: Mon Jul 18 17:28:20 EDT 2011 / ** RECOVERY alert 2 - nfs-mtl host is UP **||VB/NM/CL/DB||Il n'y avait aucun affichage sur la console||
||06/07/2011||Serveur planté (mêmes symptômes qu'avant)||Date/Time: Tue Jul 5 22:46:30 EDT 2011 / ***** Nagios ***** / ** PROBLEM alert 1 - nfs-mtl host is DOWN **||Reboot serveur par DS||Date/Time: Wed Jul 6 07:57:40 EDT 2011 / ***** Nagios ***** / ** RECOVERY alert 2 - nfs-mtl host is UP **||DS||NM : Suite aux mises à jour de noyau la semaine dernière, le serveur au reboot est repassé au noyau 32bits, du coup les bugs sont revenus ==> modifier le menu.lst : `Default 2`||

 * 11 mai 2011
   {{{
Récap des pannes successives
20 avr : 15h42 ... 1er "nfsd invoked oom-killer" suivi de "Out of memory: kill process 6330 (mysqld) score 38585 or a child"
03 mai : 15h46 ... idem
09 mai : ~20 ... haugmentation de la mémoire
10 mai : 15h15 ... idem
11 mai : 15h20 ... idem
11 mai : 17h28 ... installation noyau 64 bits
11 mai : 17h48-17h55 ... redémarrage du serveur sur le nouveau noyau
   }}}
  '''Les syslogs et les traces sont dans : `/root/[PS-AUXW|MEMINFO|SYSLOG]`'''
Ligne 6: Ligne 23:
|| ||Serveur non fonctionnel|| ||réinstallation du serveur|| ||NM - DS||Achat express et configuration du serveur secours||
|| ||Carte analogique Sangoma A202 HS|| ||Changement de carte|| ||NM||- C'est la 2ème carte qui tombe en panne.<<BR>> - Hypothèse : court-circuit dû à une différence de potentiel aux ports de la carte||
|| ||remplacement de la carte analogique par des modules ATA (analog téléphon adapter) SPA2102||-||achat des [[ZA/Montréal/ToIP/AnalogTelephoneAdapter|modules et installation]]||-||NM|| ||
||30/07/2010 9h||service téléphonique non stable (téléphones non connecté, communication interrompu ou impossible, etc.)||29/07/2010 ~17h36||- Constat : serveur très très chargé avec le processus asterisk qui bourrine à fond sur le CPU <<BR>> - restart d'asterisk||30/07/2010 9h11||NM à distance|| ||
||13/08/2010||service téléphonique non stable||~14h42||- Constat : encore process asterisk, charge très haute <<BR>> - Restart asterisk||14h58||NM|| ||
||20/09/2010||service téléphonique non stable||~17h30||- Charge élevée <<BR>> - Restart==>service toujours non fonctionnel car wanpipe planté à cause de la dernière mise à jour du noyau <<BR>> - retour au noyau précédent, restauration des drivers dans le bon répertoire du noyau||~2h ou 3h du mat||DS - JC|| ||
||30/09/2010||téléphonie HS, serveur inaccessible par ssh||~17h21||Restart Asterisk||21h28||NM|| ||
||19/10/2010||Certains téléphones sans service||avant 9h||- serveur RAS <<BR>> - brancher les postes concernés sur d'autres port du switch poe||9h45||DS - NM||- seul les postes branchés le 3ème bloc de 8 ports du switch étaient HS <<BR>> - Après reboot du switch, ils sont à nouveau fonctionnel||
||23/10/2010||Mise à jour système (aptitude)||10h00||- aptitude safe-upgrade <<BR>> - récompilation driver wanpipe <<BR>> - restauration fichiers de config wanpipe, zaptel, zapata.conf||11h||DS sur place <<BR>> NM à distance||- Opération faite en week end à cause du plantage dû à la mise à jour du noyau <<BR>> - Reboot après compilation du driver||
||29/11/2010||service téléphonique non stable||~15h50||- Constat : encore process asterisk, charge de CPU très haute <<BR>> - Restart asterisk||16h01||DS|| ||
||20612/2010||service téléphonique non stable||~14h57||- Constat : encore process asterisk, charge de CPU très haute <<BR>> - Restart asterisk||15h01||DS|| - Julien G. était en ligne quand ça arrivé. Sa communication a été simplement coupé, le compteur de temps continuait à fonctionner de coté téléphone. <<BR>> - 1 minute avant la plantage Nora recouperait ses messages vocales. ||
||10/05/2011 15h20||Constat : Internet inaccessible, résolution dns impossible, ... postes gelés ... <<BR>> - sur la console : message "outof memory, killed mysql (ou autre) qui défile sans cesse||10/05/2011 ???||Reboot serveur||15h30||NM, DS et JC pour investigations||- C'est le second crash identique qui arrive : le premier était le 3 mai vers 15h46, et a conduit à l'augmentation de la RAM hier <<BR>> - un premier crash avait eu lieu le 20 avril après 16h||
||09/05/2011||Augmentation de la mémoire : de 3.5GB à 14GB||09/05/2011 19h55||- installation de nouvelles barrettes <<BR>> - installation du noyau Debian pour les bigmem||09/05/2011 21h15||NM||On a au total 14GB de mémoire ; pour ne pas accepter les 5GB de online spare proposé par le bios, nous avons carrement désactivé la redondance mémoire||
||19/01/2011||ouverture des sessions d'usagers impossible ||19/01/2011 - 7h17 || Redemarrage du serveur || 19/01/2011 à 9h01 || Darko Stanar || le ping fonctionnait; ssh non fonctionel ; impossible d'ouvrir la session local sur la console ; serveur gelé; aucun message dans le log: aucun trace depuis 7h17 jusqu'au redemarrage ; RAID 1 matériel contenant la partition /home resynchronisé après le redemarrage; conclusion:on ne sait pas ce qui s'est passé ||
Ligne 21: Ligne 30:
= ToIP : protocol des tests apres la màj de noyau =
|| Servuer || Date et heure || Appel sortant vers exterieur || Appel entrant de l'exterieur || Appel sortant local || Appel entrant local || Messagerie vocal || FAX - reception || FAX - l'envoi || Intra - implantation || Test effectué par:|| Commentaire ||
|| Secours || 8/12/2010 18h00|| Succès || Succès || Succès || Succès || Succès || de fax 5783 vers 2107 <<BR>> ne fonctionne pas||de fax 5783 vers 2107 <<BR>> ne fonctionne pas || Succès || Darko || Il fallait redemarrer le servuer pour que le DHCP fonctionne ||
|| Production|| 8/12/2010 18h30 || Succès ||Succès|| Succès || Succès || Succès || Succès || Succès || Succès || Succès || RAS ||
  

Journal des évènements des serveurs bureautique

NFS-AUTHNSS

08/08/2011

Plus aucun service

17h29

Constat : le serveur est simplement arrêté/éteint !!!

17h37

NM

* extrait de syslog

  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf on battery
  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf battery is low
  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf battery needs to be replaced
  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: FSD set on UPS AUF_MTL1@vz-www.ca.auf failed: ERR ACCESS-DENIED
  • Aug 8 17:25:59 nfs-authnss upsmon[3650]: Executing automatic power-fail shutdown
  • Aug 8 17:25:59 nfs-authnss upsmon[3650]: Auto logout and shutdown proceeding
  • Aug 8 17:26:04 nfs-authnss shutdown[31502]: shutting down for system halt
  • Aug 8 17:26:05 nfs-authnss init: Switching to runlevel: 0

* CONCLUSION : un gros soucis sur l'onduleur 1

18/07/2011

Serveur planté, NM et DS en vacances

Date/Time: Mon Jul 18 17:18:00 EDT 2011 / ** PROBLEM alert 1 - nfs-mtl host is DOWN **

Assistance téléphonique de NM suite à l'appel de VB : arrêt du serveur via l'interrupteur et redémarrage

Date/Time: Mon Jul 18 17:28:20 EDT 2011 / ** RECOVERY alert 2 - nfs-mtl host is UP **

VB/NM/CL/DB

Il n'y avait aucun affichage sur la console

06/07/2011

Serveur planté (mêmes symptômes qu'avant)

Date/Time: Tue Jul 5 22:46:30 EDT 2011 / ***** Nagios ***** / ** PROBLEM alert 1 - nfs-mtl host is DOWN **

Reboot serveur par DS

Date/Time: Wed Jul 6 07:57:40 EDT 2011 / ***** Nagios ***** / ** RECOVERY alert 2 - nfs-mtl host is UP **

DS

NM : Suite aux mises à jour de noyau la semaine dernière, le serveur au reboot est repassé au noyau 32bits, du coup les bugs sont revenus ==> modifier le menu.lst : Default 2

  • 11 mai 2011
    • Récap des pannes successives
      20 avr : 15h42 ... 1er "nfsd invoked oom-killer" suivi de "Out of memory: kill process 6330 (mysqld) score 38585 or a child"
      03 mai : 15h46 ... idem
      09 mai : ~20   ... haugmentation de la mémoire
      10 mai : 15h15 ... idem
      11 mai : 15h20 ... idem
      11 mai : 17h28 ... installation noyau 64 bits
      11 mai : 17h48-17h55 ... redémarrage du serveur sur le nouveau noyau
    • Les syslogs et les traces sont dans : /root/[PS-AUXW|MEMINFO|SYSLOG]

Date constat

Evenement

date début

Actions

date reprise service

Intervenants

Observations

10/05/2011 15h20

Constat : Internet inaccessible, résolution dns impossible, ... postes gelés ...
- sur la console : message "outof memory, killed mysql (ou autre) qui défile sans cesse

10/05/2011 ???

Reboot serveur

15h30

NM, DS et JC pour investigations

- C'est le second crash identique qui arrive : le premier était le 3 mai vers 15h46, et a conduit à l'augmentation de la RAM hier
- un premier crash avait eu lieu le 20 avril après 16h

09/05/2011

Augmentation de la mémoire : de 3.5GB à 14GB

09/05/2011 19h55

- installation de nouvelles barrettes
- installation du noyau Debian pour les bigmem

09/05/2011 21h15

NM

On a au total 14GB de mémoire ; pour ne pas accepter les 5GB de online spare proposé par le bios, nous avons carrement désactivé la redondance mémoire

19/01/2011

ouverture des sessions d'usagers impossible

19/01/2011 - 7h17

Redemarrage du serveur

19/01/2011 à 9h01

Darko Stanar

le ping fonctionnait; ssh non fonctionel ; impossible d'ouvrir la session local sur la console ; serveur gelé; aucun message dans le log: aucun trace depuis 7h17 jusqu'au redemarrage ; RAID 1 matériel contenant la partition /home resynchronisé après le redemarrage; conclusion:on ne sait pas ce qui s'est passé

ZA/Montréal/Bureautique/JournalDesEvenements (dernière édition le 2012-09-11 14:19:59 par MoussaNombre)