Serverschaden: Sicherungskonzept hat sich bewährt

Es dürfte nicht geschehen, passierte aber trotzdem: In der Nacht auf Freitag wurde rpi-virtuell von einem schwerwiegenden Serverschaden heimgesucht. Inzwischen ist der weitaus größte Teil der Dateien komplett rückgesichert. Joachim Happel, Leiter von rpi-virtuell, berichtet über Ursachen und Folgen. Am Wochenende arbeitete das Technikteam von rpi-virtuell viele Stunden und konnte den Serverschaden inzwischen weitgehend auffangen.…

Joachim HappelEs
dürfte nicht geschehen, passierte aber trotzdem: In der Nacht auf
Freitag wurde rpi-virtuell von einem schwerwiegenden Serverschaden
heimgesucht. Inzwischen ist der weitaus größte Teil der Dateien
komplett rückgesichert. Joachim Happel, Leiter von rpi-virtuell, berichtet über Ursachen und
Folgen.

Am Wochenende arbeitete das Technikteam von rpi-virtuell viele
Stunden und konnte den Serverschaden inzwischen weitgehend auffangen.

Joachim Happel, was ist eigentlich passiert?
Ursache war ein Defekt des Dateisystems auf unserem Datenserver, auf
dem die Dokumente aus den virtuellen Räumen abgelegt werden und auf dem
auch unsere MySQL-Datenbank läuft. Der Server verfügt über ein Raid-System,
bei dem vier Festplatten die Daten kontinuierlich gegenseitig spiegeln. Die Daten
werden also ständig kopiert. Das dient der Zugriffsgeschindigkeit und
zum anderen der Sicherheit: Bei Ausfall einer Platte sind die Daten auf
der anderen
gesichert.

Nun hat es aber nicht einen Hardwaredefekt gegeben, sondern aus unbekannten Gründen traten plötzlich Schäden am Dateiensystem auf. Danach wurden diese Fehler ständig weiterkopiert und haben sich vervielfacht. Gegen 20:00
Uhr fuhr das System herunter und versuchte eine eigenständige Reparatur
des Dateisystems durchzuführen, wobei dann ein Großteil der Daten auf
dem Server komplett zerstört wurden. Unser Chef-Administrator Dipl.-Inf. Frederik Happel kam gerade von einer Veranstaltung zurück, als auf
seinem Display die Katastrophe aufblinkte. Nach vergeblichen
Rettungsversuchen per Fernwartung fuhr er direkt in das Rechenzentrum. Es wurde ein
lange Nacht.

Reparatur noch in der Nacht 

Nun ist ja fast alles wieder da!
Abends um 20.00 Uhr war der Ausfall. Am Freitag Morgen um 8.00 Uhr,
also zwölf Stunden
später, konnte bereits wieder auf rpi-virtuell zugegriffen werden, und
mittags waren auch die internen Bereiche Mein rpi und die Seminarräume
wieder zugänglich. Gleichzeitig versuchten Mitarbeiter aus
verschiedensten  Datenquellen alles wieder herzustellen, was zerstört
wurde.

Ich bin sehr stolz, dass wir das so schnell schaffen konnten, und
möchte
mich hier auch noch einmal ausdrücklich bei Frederik bedanken, der in
dieser Nacht einen unglaublichen Einsatz (36 Stunden ohne Schlaf an der
Konsole) gezeigt hat!

Gab es keine Bandsicherungen?
Selbstverständlich hatten wir ein ausgefeiltes Sicherungsystem: Zwei 
Backupserver sichern abwechselnd den gesamten Datenbestand der Vortage.
Trotzdem ist das Wiederherstellen nicht trivial, insbesondere, wenn
eine zentrale Einheit im System zerstört wird. Und das war mit
dem Datenserver der Fall. Hier hätten wir uns einen zweiten Datenserver
gewünscht, der im Falle einer Störung sofort ans Netz gehen könnte und
die Augabe der gestörten Einheit übernehmen kann.

Zunächst mussten die anderen Server so verändert werden, dass sie zusätzlich die Dienste des zerstörten Datenservers übernehmen konnten. Dann haben wir versucht, die Backups einzuspielen, was bis auf eine Ausnahme erfreulich gut lief. Anschließend hat Frederik den zerstörte Server wieder neu aufgebaut und in das Gesamtsystem integriert. Gegen 12:00 war das System wieder voll lauffähig.

Wiki wird neu eingelesen

Leider können auch bei einem Backup Fehler auftreten. Eine
solcher Fehler verhinderte, dass die Seiten des rpi-Wiki
erneut aufgespielt werden konnten. Hier sind wir nun dabei, die Daten
aus zusätzlichen Quellen neu einzulesen. Das wird einige Tage in
Anspruch nehmen, wir nützen diese Gelegenheit gleichzeitig zu einer
Rekonfiguration des Wiki.
Die Seminar-Wikis sind ein Sonderfall, da sie ja intern sind. Hier ist
eine Wiedererstellung leider nicht möglich. Wir bedauern das sehr, es ließ sich jedoch technisch keine Möglichkeit finden.

Daten dreifach gesichert

Sind denn unsere Daten bei rpi-virtuell sicher?
Nach menschlichem Ermessen ja. Wir haben eine dreifache Sicherung: Wie
beschrieben, werden von den Daten ständig Kopien angelegt. Unsere
zusätzlichen Backupserver sorgen noch einmal für Sicherheitskopien.
Mehr kann man eigentlich nicht machen – das sind ja riesige
Datenmengen, mit denen dabei gearbeitet wird. Trotzdem kann es zu
Datenverlusten kommen, wie wir leider feststellen mussten. Deshalb
legen wir unseren Nutzern auch immer wieder nahe, stets zusätzlich für
eine eigene Datensicherung zu sorgen.

Wo sind eigentlich die Server von rpi-virtuell ans Netz angeschlossen?
Unsere Server selbst stehen im Rechenzentrum an einem zentralen Netzknoten
in Frankfurt. Wir haben bewusst Frankfurt als den neben Amsterdam
weltweit wichtigsten Datenknotenpunkt ausgewählt. Außerdem ist
Frankfurt für den Fall der Fälle auch gut für uns erreichbar, was sich
ja hier als großer Vorteil erwiesen hat.

Ich entschuldige mich bei unseren Nutzerinnen und Nutzern, die betroffen sind, und bedanke mich bei allen für Ihr Verständnis. 

Das Interview führte Julia Born.

Julia Born
Julia Born
Artikel: 790