Ausfälle Sonntag 13.6. und Montag 14.6. Ursache und Behebung

Status
Für weitere Antworten geschlossen.

PURtel.com

Aktives Mitglied
Mitglied seit
1 Mai 2004
Beiträge
1,420
Punkte für Reaktionen
0
Punkte
0
Hallo Gemeinde,

nach dem wir jetzt Ursachenforschung betrieben haben, konnten wir den Übeltäter entlarven.

Beide Ausfälle, der von Sonntag 0:00 - 13:00 Uhr und der und der von Montag 15:30 - 22:30 basieren auf dem gleichen Fehler.

Vor und nach jedem Anruf (Inbound und Outbound) wird eine Logdatei geladen mit der wir einen DB-Abgleich der Kontostände machen. Diese wird im normalen Betrieb geleert, so dass es für das System keinerlei merkbare Belastung darstellt.

Als wir ein neues PSTN-Gateway angebunden haben, wurde zu Kontrollzwecken die automatische Löschunktion nach Übertragung in die Datenbank deaktiviert. Da das neue PSTN-Gateway einwandfrei lief, haben wir die Löschfunktion aus den Augen verloren. Es ist uns während der gesamten Zeit auch nichts aufgefallen, da die Systembelastung sehr, sehr schleichend anstieg.

Am Sonntag erreichte dieses Logfile dann eine Größe von 10MB(!), und wurde vor und nach jedem Anruf jeweils 1x geladen. Das Ergebnis war: Debian Linux ist ABGESTÜRZT(!), so wie man das von Windowsrechnern her kennt. Es ist richtig abgestürzt und konnte nicht einmal mehr per SSH rebootet werden.

Einzige Abhilfe wäre ein manueller Reboot vor Ort durch einen Techniker im Rechenzentrum. Ein einziger Klick, und das System würde sofort wieder laufen.

Das ist jetzt das zweite Problem: Am Sonntag brauchte ein Techniker 13(!) Stunden nach Eingang unserer Ausfallmeldung bis er auf die Resettaste gedrückt hat, - am Montag 7(!) Stunden! Wohlgemerkt: Nach drücken der Resettaste am Host lief das System anstandslos wieder weiter!

Wir haben die Probleme wie folgt behoben:

1.) Die Löschfunktion wurde wieder aktiviert (auch das Delay [zeitlicher Versatz] das manche zeitweise hatten sollte nun nicht mehr auftreten)

2.) Wir binden gerade 2 voneinander unabhängige Hosts mit Remote-Power-Switch ein um in einem solchen Fall sofort selbst einen Hard-Reset machen zu können, ohne auf einen Techniker warten zu müssen.


Wir bedauern die Ausfälle und Unannehmlichkeiten die Sie eventuell dadurch hatten und setzen die Problembehebung jetzt um.

Vielen Dank und beste Grüße

Volker Goudschmidt
 
Status
Für weitere Antworten geschlossen.

3CX PBX - GRATIS
Linux / Win / Cloud

Statistik des Forums

Themen
232,857
Beiträge
2,027,429
Mitglieder
350,958
Neuestes Mitglied
Gerd4711