Ausfall Webhosting & Verwaltung

Incident Report for lima-city Webspace

Postmortem

Wir möchten uns erneut für den Ausfall entschuldigen, der heute Morgen um 6:35 Uhr begann und um 6:59 Uhr behoben wurde. Die Ursache war ein fehlgeschlagenes, unbeaufsichtigtes Linux-Update auf einem Web-Frontend-Server. Die Frontend-Server verarbeiten alle Web-Zugriffe und kümmern sich um Verschlüsselung, Lastverteilung und DDoS-Abwehr, sind hochverfügbar und werden automatisiert von einem Cluster-Management verwaltet. Das fehlgeschlagene Update führte dazu, dass der System-Netzwerkdienst neu gestartet wurde. Durch den Neustart des Netzwerkinterface wurden vom Cluster-Management verwaltete IP-Adressen entfernt, auf denen die Webzugriffe eingehen.

Da das Cluster-Management den Status der aktiven IP-Adressen nicht überwacht hat wurde der Ausfall der IP-Adressen nicht erkannt und automatisch wieder dem Interface hinzugefügt. Der alarmierte Administrator hielt die Störung zunächst für einen größeren DDoS-Angriff, der sich automatisch lösen würde, deshalb wurden in den ersten Minuten keine Maßnahmen ergriffen. Erst nach etwa 15 Minuten begann der Administrator mit der Untersuchung und fand und behob das Problem um 6:59 Uhr.

Die weitere Analyse zeigte, dass die IP-Adressen nicht vom Cluster-Management-Service überwacht wurden. Dieses Problem wurde behoben. Die Konfiguration hat etwa 8 Jahre lang ohne dieses Problem funktioniert.

Betroffen waren alle Webseiten welche die IP-Adressen 91.216.248.20, 91.216.248.21, 91.216.248.3, 91.216.248.5, 91.216.248.7, 91.216.248.9, 91.216.248.11, 91.216.248.13, 91.216.248.15, 91.216.248.17, 91.216.248.19, 91.216.248.25, 91.216.248.27, 91.216.248.29, 91.216.248.31, 91.216.248.33, 91.216.248.35, 91.216.248.37 oder 91.216.248.39 verwenden. Der E-Mail-Service, das Webmail sowie Cloud-VPS waren nicht betroffen.

Sollten Fragen offen sein stehen wir unter support@lima-city.de natürlich gerne jederzeit zur Verfügung.

Posted Mar 08, 2023 - 11:25 CET

Resolved

Im Zeitraum von 6:35 bis 6:59 war ein Teil der Webseiten sowie die Verwaltung nicht erreichbar. Der Grund war der Ausfall eines der hochverfügbaren Load Balancer, nachdem ein automatischer Update-Prozess des Betriebssystems zu einem Entfernen von aktiven IP-Adressen auf dem System geführt hat. Der Cluster-Manager hat dieses Problem nicht automatisch reparieren können, es musste manuell eingegriffen werden. Wir werden das Problem und mögliche Lösungen genauer untersuchen und bitten vielmals um Entschuldigung.

Nicht betroffen waren Cloud-VPS sowie E-Mail-Dienste und Webmail.

Posted Mar 08, 2023 - 07:15 CET