Modifications entre les versions 19 et 20
Version 19 à la date du 2012-09-10 20:51:38
Taille: 4079
Éditeur: DarkoStanar
Commentaire: Panne NFS de dimanche le 9 sept. 2012
Version 20 à la date du 2012-09-11 14:18:43
Taille: 4383
Éditeur: MoussaNombre
Commentaire: Complément d'infos
Texte supprimé. Texte ajouté.
Ligne 5: Ligne 5:
||09/09/2012|| Serveur NFS planté||dimanche le 9 Sept à 09:00 || redemarrage du serveur ||dimanche le 9 Sept à 11:56|| Jean Christophe André||Les mêmes symptômes comme les pannes recents <<BR>> voir: http://wiki.auf.org/wikiteki/ZA/Montr%C3%A9al/JournalDesEvènements|| ||09/09/2012|| Serveur NFS planté||constaté le dimanche le 9 Sept à 09:00 || redemarrage du serveur ||dimanche le 9 Sept à 11:56|| Jean Christophe André||- Les [[mêmes symptômes]] comme les pannes recents <<BR>> voir: http://wiki.auf.org/wikiteki/ZA/Montr%C3%A9al/JournalDesEvènements <<BR>> <<BR>> - Le 2012-09-08 21:05, Supervision du serveur a écrit : <<BR>> '''CRITICAL''' - Le plugin nas pas répondu dans les 10 secondes <<BR>> ==> Autrement dit Nagios n'a pu effectuer le check donc serveur injoignable (mais ping-able, pas reçu d'alerte hôte inaccessible))||

Journal des évènements des serveurs bureautique

NFS-AUTHNSS

Date constat

Evenement

date début

Actions

date reprise service

Intervenants

Observations

09/09/2012

Serveur NFS planté

constaté le dimanche le 9 Sept à 09:00

redemarrage du serveur

dimanche le 9 Sept à 11:56

Jean Christophe André

- Les mêmes symptômes comme les pannes recents
voir: http://wiki.auf.org/wikiteki/ZA/Montr%C3%A9al/JournalDesEvènements

- Le 2012-09-08 21:05, Supervision du serveur a écrit :
CRITICAL - Le plugin nas pas répondu dans les 10 secondes
==> Autrement dit Nagios n'a pu effectuer le check donc serveur injoignable (mais ping-able, pas reçu d'alerte hôte inaccessible))

08/08/2011

Plus aucun service

17h29

Constat : le serveur est simplement arrêté/éteint !!!

17h37

NM

* extrait de syslog

  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf on battery
  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf battery is low
  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: UPS AUF_MTL1@vz-www.ca.auf battery needs to be replaced
  • Aug 8 17:25:58 nfs-authnss upsmon[3650]: FSD set on UPS AUF_MTL1@vz-www.ca.auf failed: ERR ACCESS-DENIED
  • Aug 8 17:25:59 nfs-authnss upsmon[3650]: Executing automatic power-fail shutdown
  • Aug 8 17:25:59 nfs-authnss upsmon[3650]: Auto logout and shutdown proceeding
  • Aug 8 17:26:04 nfs-authnss shutdown[31502]: shutting down for system halt
  • Aug 8 17:26:05 nfs-authnss init: Switching to runlevel: 0

* CONCLUSION : un gros soucis sur l'onduleur 1

18/07/2011

Serveur planté, NM et DS en vacances

Date/Time: Mon Jul 18 17:18:00 EDT 2011 / ** PROBLEM alert 1 - nfs-mtl host is DOWN **

Assistance téléphonique de NM suite à l'appel de VB : arrêt du serveur via l'interrupteur et redémarrage

Date/Time: Mon Jul 18 17:28:20 EDT 2011 / ** RECOVERY alert 2 - nfs-mtl host is UP **

VB/NM/CL/DB

Il n'y avait aucun affichage sur la console

06/07/2011

Serveur planté (mêmes symptômes qu'avant)

Date/Time: Tue Jul 5 22:46:30 EDT 2011 / ***** Nagios ***** / ** PROBLEM alert 1 - nfs-mtl host is DOWN **

Reboot serveur par DS

Date/Time: Wed Jul 6 07:57:40 EDT 2011 / ***** Nagios ***** / ** RECOVERY alert 2 - nfs-mtl host is UP **

DS

NM : Suite aux mises à jour de noyau la semaine dernière, le serveur au reboot est repassé au noyau 32bits, du coup les bugs sont revenus ==> modifier le menu.lst : Default 2

  • 11 mai 2011
    • Récap des pannes successives
      20 avr : 15h42 ... 1er "nfsd invoked oom-killer" suivi de "Out of memory: kill process 6330 (mysqld) score 38585 or a child"
      03 mai : 15h46 ... idem
      09 mai : ~20   ... haugmentation de la mémoire
      10 mai : 15h15 ... idem
      11 mai : 15h20 ... idem
      11 mai : 17h28 ... installation noyau 64 bits
      11 mai : 17h48-17h55 ... redémarrage du serveur sur le nouveau noyau
    • Les syslogs et les traces sont dans : /root/[PS-AUXW|MEMINFO|SYSLOG]

10/05/2011 15h20

Constat : Internet inaccessible, résolution dns impossible, ... postes gelés ...
- sur la console : message "outof memory, killed mysql (ou autre) qui défile sans cesse

10/05/2011 ???

Reboot serveur

15h30

NM, DS et JC pour investigations

- C'est le second crash identique qui arrive : le premier était le 3 mai vers 15h46, et a conduit à l'augmentation de la RAM hier
- un premier crash avait eu lieu le 20 avril après 16h

09/05/2011

Augmentation de la mémoire : de 3.5GB à 14GB

09/05/2011 19h55

- installation de nouvelles barrettes
- installation du noyau Debian pour les bigmem

09/05/2011 21h15

NM

On a au total 14GB de mémoire ; pour ne pas accepter les 5GB de online spare proposé par le bios, nous avons carrement désactivé la redondance mémoire

19/01/2011

ouverture des sessions d'usagers impossible

19/01/2011 - 7h17

Redemarrage du serveur

19/01/2011 à 9h01

Darko Stanar

le ping fonctionnait; ssh non fonctionel ; impossible d'ouvrir la session local sur la console ; serveur gelé; aucun message dans le log: aucun trace depuis 7h17 jusqu'au redemarrage ; RAID 1 matériel contenant la partition /home resynchronisé après le redemarrage; conclusion:on ne sait pas ce qui s'est passé

ZA/Montréal/Bureautique/JournalDesEvenements (dernière édition le 2012-09-11 14:19:59 par MoussaNombre)