DDoS
Incident Report for lima-city Webspace
Postmortem

In der Nacht vom 24.8. auf den 25.8. und am 25.8. und 26.8 jeweils gegen Mittag kam es auf mehreren Webservern zu Störungen der PHP-Seiten, die Datenbank-, E-Mail-, SSH- oder FTP-Server waren nicht betroffen. Aufgrund der gleichzeitigen Störungen auf mehreren Servern sind wir zuerst von einer gezielt herbeigeführten Überlastung ausgegangen. Das hat sich allerdings nicht bestätigt.

Der tatsächliche Grund war selbst erzeugter "memory pressure" (knapper RAM-Speicher), der zu einer wesentlichen Verlangsamung der Webseiten führte. Auf unseren Servern erhält jeder Dienst über sogenannte "cgroups" ein gewisses Kontingent an RAM, so auch die PHP-Prozesse. Unser Monitoring zeichnet die tatsächliche Belegung des RAM für eine Analyse der Auslastung auf. Eine kurzfristig hohe Auslastung der Webseiten in dem Zeitraum hat zum Erreichen der RAM-Limitierung geführt und Prozesse wurden angehalten, bis neuer RAM aus dem Kontingent verfügbar war. Es handelte sich also nicht um zu knappe Bemessung der Hardware-Ressourcen sondern um ein zu geringes Limit.

Diese Situation wurde allerdings nicht rechtzeitig bemerkt, da das Monitoring eine abweichende Metrik (Kennzahl) für die Statistik herangezogen hat. Der für die Analyse verwendete und der tatsächlich belegte RAM waren verschieden, weshalb die Limitierung nicht auffiel.

Die Situation war auf eine bestimmte Server-Generation beschränkt, auf welchen die PHP-Engine kleinere RAM-Kontingente zugeteilt hat als auf neueren Server-Generationen. Wir haben das Limit erhöht und die verwendete Metrik im Monitoring getauscht, um das Problem dauerhaft zu beheben.

Wir bitten vielmals um Entschuldigung für die Unannehmlichkeiten. Auch wenn das Problem selbst sehr einfach zu lösen war, hat es leider zu lange gedauert, die Ursache zu finden. Wir behalten die Auslastung weiter im Auge um zu prüfen, ob die Lösung dauerhaft erfolgreich ist oder weitere Korrekturen notwendig sind.

Im August haben wir daher die Verfügbarkeitsgarantie für diesen Account nicht eingehalten und es besteht in Anspruch auf die Erstattung der Monatsrechnung. Betroffene Kunden, welche diese in Anspruch nehmen möchten, bitten wir sich kurz bei uns zu melden, um eine entsprechende Erstattung zu erhalten.

Posted Aug 27, 2019 - 17:29 CEST

Resolved
Im Zeitraum von ca. 21:45 bis etwa 0:35 haben auf zwei Webhosting-Servern (zeus, hera) starke Überlastungen durch DDoS-Angriffe zu Ausfällen geführt. Die Situation ist derzeit unter Kontrolle.
Posted Aug 25, 2019 - 00:41 CEST
This incident affected: Webhosting (Webserver).