Lichtbogenschweissen an einer FSC Primergy E200

Ich war die Tage mal wieder in München um ein wenig im Serverraum der Firmenzentrale zu basteln.

Also kein Problem und wie angekündigt den entsprechenden Server um 17:30Uhr angefangen herunter zu fahren. Danach den Server aus dem Schrank ausgebaut und die 40kg rausgewuchtet. Alles super. Deckel auf und USB2.0 Controller rein. Alles fein. Deckel wieder zu, die Kiste wieder in den Schrank gewuchtet, eingebaut und verkabelt. Auch alles super bis zu den Stromkabeln. Das erste Stromkabel von der ersten USV in erste Netzteil rein, die Kontrollampe leuchtet im fröhlichen Standby-Orange. Klasse. Also noch flux das zweite Stromkabel von der zweiten USV ins 2te Netzteil rein. Nicht mehr so gut. Nach dem überaschend hellweißen und ca 25cm langen (mir kam’s vor wie 1m) Lichtbogen viel mir kurzfristig auf, daß ich nix mehr sehen konnte. Vor dem Schrank kam in etwa ein “Uhh? Ähhh? Henry?” von meinem verwunderten Chef. Nach ein paar elendig langen Sekunden konnte ich wieder sehen. Dabei viel uns ein 2tes, nicht ganz unwesentliches, Detail auf. Es war überraschend ruhig hinter den 3 Serverschränken. Nicht mal die beiden 2200er APC USVs brumten mehr friedlich vor sich hin. Totalausfall. Total toll. Es stellte sich noch ein paar Sekunden später herraus, daß es nur die Schränke 2 und 3 erledigt hatte. Die Telefonanlage im ersten Schrank konnte weiter fleissig im Internet surfen, da in dem Schrank auch Router, Firewalls und Switches untergebracht waren. Das schien sie richtig glücklich zu machen, sie blinkte jedenfalls extrem friedlich. Das konnte allerdings auch daran liegen, daß der Siemenstechniker, der ebenfalls mit war und unser Telefonseelsorger ist, ihr gerade die neueste Software auf die Platinen schrieb. Er fand es jedenfalls schön leise im Serverraum…

Nach einer ersten Bestandsaufnahme war klar, das sich nicht nur die USVs abgeschaltet hatten, sondern jeweils die Hauptsicherungen für die beiden Schränke ebenfalls bockten. Also erstmal den Server wieder stromtechnisch abgeklemmt und die Sicherungen wieder reingeprügelt. Es tat sich immernoch nix. Also noch die Sicherungen an den USVs wieder reingedrückt und siehe da, es wurde Licht. Jedenfalls bis zu dem Zeitpunkt, wo ich nochmal testweise die Netzkabel in beide Netzteile steckte. Nach einem letzten Zucken zuckte dann da aber auch nix mehr. Die USVs sprangen anschliessend wieder an und die restlichen Server fuhren automatisch wieder hoch, wenn auch leicht beleidigt.

Mittlerweile stellte sich bei meinem Chef und mir ein nervöses Zucken der Augenbrauen ein. Stichworte: FSC Primergy E200, 4-5 Jahre alt, kein Support mehr, Exchange Siteserver, 150 Kollegen inkl. komplette Geschäftsleitung…mittlerweile 18Uhr irgendwas…

Also ruft Chef flux unseren Beschaffungsspezialisten bei Siemens an. “In ein paar Wochen könnten Teile da sein.” Öhhm…

“Hier steht doch noch so’ne Kiste”. Keine Ahnung ob vom Chef oder vom Siemenstechniker. Die Selbstmordgedanken rückten wieder in den Hintergrund, blieben aber als Option offen. Also wir die Kiste geschnappt und ein “Ah stimmt ja, die gibts ja auch noch!” erfüllte den Raum. Da lag doch glücklicherweise noch ein alter Server, den ich schon seit Wochen mit nach Magdeburg nehmen wollte, da dieser durch einen neuen ersetzt wurde. Glücklicherweise ebenfalls eine E200. Nur eine Revision Unterschied. Püüühhh. Also flux den Netzteile raus und gegen die leicht riechenden in der defekten Primergy ausgetauscht. Zur Sicherheit erstmal nur ein Netzteil komplett reingeschoben. Sah schonmal wieder gut aus. Erst den Stecker der einen dann der anderen USV getestet. Bei beiden alles bestens. Das 2te Netzteil rein und wieder getestet. Auch gut. Beide Ports schienen OK zu sein. Also bei zusammen und nochmal getestet. Alles super. Rechner wieder eingeschaltet. Gott sei Dank, er fährt wieder hoch. Mist eine Fehlermeldung. CPUID Missmatch oder so. Egal. Windows startet. Anmeldebildschirm ist wieder da. Und beendet mit einem Bluescreen mit irgendeinem ECC Memory Error. Toll.

Nach einigem Disktuieren stimmte ich meinem Chef zu in den defekten Server keine Arbeit mehr zu stecken und lieber zu versuchen die Festplatten und den SCSI-Raid-Controller umzubauen. Also gesagt getan und der Server lief tatsächlich erfolgreich wieder hoch. Jetzt läuft der Server mit 512MB anstelle 1,5GB und nur mit einer CPU anstelle von zwei P3 866MHz. Bis sich 1,5GB 133er SDRAM registered ECC auftreiben lassen, wirds wohl noch ein paar Tage dauern. Und wir müssen den Austausch des Servers um ein paar Monate vorverlegen. Bladecenter lässt grüssen ;-).

Fazit der Geschichte: Kein Lichtbogenschweissen im Serverraum.