Dec 24

So,

nachdem der Notfallserver (virtueller Server bei Strato) nun soweit eingerichtet ist, dass wohl alles funktioniert und nichts wichtiges verloren gegangen ist, habe ich Zeit zu schreiben, was genau los war.

Fangen wir mit dem Ausfall selbst an:

Am 19.12.2009 6:49Uhr ist der Server plötzlich nicht mehr verfügbar.

Alle reboot-Versuche schlagen fehl und selbst das Rettungssystem lässt sich nicht mehr starten. Zumindest dies hätte funktionieren müssen, der Grund für das Versagen wurde mir jedoch später erläutert.

Ich habe daraufhin ein Störungsticket aufgemacht, in der Hoffnung, dass der Fehler evtl.

noch am Samstag behoben werden kann. Zumindest, dass das Rettungssystem funktioniert. Aber da lag ich leider falsch!

Selbst dafür hätte ich einen kostenpflichtigen Endstörauftrag beauftragen müssen.

Einzige Rückmeldung ist die automatisch generierte Antwort des Ticketsystem, dass meine Mail eingegangen ist.

20.12.2009 – Sonntag

Dass sich am Sonntag nichts ändern würde, war mir durchaus bewusst, der Tag “PAUSE” war somit fix eingeplant.

21.12.2009 – Montag

Leider immer noch keine Rückmeldung zum Ausfall! Weder per E-Mail noch im Kunden-Forum.

Mittags schreibe ich deshalb nochmal mit Bezug auf die Ticketnummer eine Rückfrage, wie der Status der Bearbeitung sei. Leider keinerlei Rückmeldung, nicht einmal eine automatische. Sehr schade.

Als ich zuhause angekommen bin, immer noch nichts genaueres weiß, entschließe ich mich, die Hotline anzurufen. Natürlich nicht umsonst oder mit einer normalen Festnetznummer, die per Telefon-FLAT ebenso kostenfrei erreichbar wäre…! Doch auch hier erreiche ich niemanden und nach 6Minuten 30Sekunden wird man automatisiert aus der Leitung geworfen.

Genervt schreibe ich ein FAX und sende es an die Servicenummer.

Siehe da, kurze Zeit, nachdem dass Fax eingegangen sein muss, bekomme ich eine Rückmeldung per Mail, dass eine Festplatte im System ausgefallen sei und nun getauscht wurde.

Aber warum hat das RAID1 den Ausfall von “nur” einer Festplatte nicht abgefangen? Und warum hat eine defekte Festplatte das Rettungssystem blockiert?

Auszug aus der Antwort 21.12.2009 20:18Uhr:

die HDD hat das RescueSystem NICHT blockiert, sondern ein Bug welcher durch den Installierten USB Stick aufgetreten ist. Dieser ist jedoch sofort behoben worden.
Das RAID sollte greifen, da dies ein SoftwareRaid ist, hängt dies jedoch massgeblich von der Konfiguration ab.

OK, dann stellen wir das Raid mal her und prüfen die Daten:

Die Bootpartition lässt sich nicht reparieren und der MBR ist auch beschädigt.

Wenn etwas schief geht, dann aber auch richtig!

Zumindest die Datenpartition ist intakt und ich kann das letzte BackUp vom USB-Stick herunterladen.

Danach scheitern die Versuche, dass System bootfähig zu machen.

Aus der Not heraus miete ich einen kleinen vServer bei Strato, da ich erst einmal nur den E-Mail-Dienst implementieren möchte. Wie ich jedoch feststelle, ist ersteinmal nur eine 10-Domain-Lizenz von Plesk installiert und die 30er-Lizenz wird automatisch generiert, wenn 9 Domains angelegt sind. Ungünstig für das Rückspielen eines BackUps!

Also 10 Domains als Dummys angelegt und 24 Stunden warten…

22.12.2009 – Dienstag

Im späten Nachmittag wird die 30er-Lizenz verfügbar und ich kann das BackUp zurückspielen. Doch das letzte BackUp vom USB-Stick ist, warum auch immer, korrupt und lässt sich nicht verarbeiten.

Das eine Woche alte BackUp vom Backup-ftp-Server ist jedoch funktionstüchtig und lässt sich ohne größere Probleme zurückspielen, jedoch muss ich die ganzen Bilder von meiner Gallery löschen, da der Plattenplatz auf dem Sytem nicht ausreicht, ansonsten aber alles funktionieren würde. Und genau das tut es auch! Per pedes noch die letzen Mails vom alten Server auf den neuen verschieben und die rechte an die neuen Gegebenheiten anpassen.

Fast geschafft, jetzt noch die Nameserver auf die neue IP zeigen lassen und die letzten Basiskonfigurationen am neuen System vornehmen.

HEUREKA! Ein funktionierendes System.

[Nachtrag 2010-02-28]

Der Vollständigkeit halber, hier noch eine Ergänzung, die sich ein Paar Wochen nach dem eigentlichen Ausfall und Wechsel ergeben hat.

Bisher war ich lediglich nicht dazu gekommen, dies hier zu verewigen.

Der Grund, warum dass RAID1 versagt hat, ereilte mich ein Paar Wochen, nachdem ich auf den vServer umgestellt hatte. Auch die zweite Festplatte, die bereits um Ostern 2009 ausgefallen und getauscht worden war, hatte einen Defekt. Nach noch nicht einmal einem dreiviertel Jahr! Hierüber wurde ich im übrigen von einem Techniker informiert, nachdem eine automatische Neuinstallation, die ich einige Tage nach dem Umzug angestoßen hatte nicht durch lief. Ich selbst hatte den Server schon komplett aufgegeben und da er gekündigt werden sollte nicht weiter verfolgt. (Die Kündigung war noch nicht erfolgt!) Warum nicht immer so?

Mein Fazit nach einem Jahr EUserv: Für zum Beispiel Testsysteme absolut geeignet, wenn auch mal etwas Ausfallzeit erlaubt ist. Dann ist der Preis absolut OK!

Nur für Produktiv arbeitende Systeme, insbesondere E-Mail, setze ich nun auf andere Anbieter.

[/Nachtrag]

Die Kommentarfunktion für diesen Beitrag ist deaktiviert.