.titleBar { margin-bottom: 5px!important; }

Ausfälle Sonntag 13.6. und Montag 14.6. Ursache und Behebung

Dieses Thema im Forum "PURtel-Störungsstelle" wurde erstellt von PURtel.com, 15 Juni 2004.

Status des Themas:
Es sind keine weiteren Antworten möglich.
  1. PURtel.com

    PURtel.com Aktives Mitglied

    Registriert seit:
    1 Mai 2004
    Beiträge:
    1,420
    Zustimmungen:
    0
    Punkte für Erfolge:
    0
    Hallo Gemeinde,

    nach dem wir jetzt Ursachenforschung betrieben haben, konnten wir den Übeltäter entlarven.

    Beide Ausfälle, der von Sonntag 0:00 - 13:00 Uhr und der und der von Montag 15:30 - 22:30 basieren auf dem gleichen Fehler.

    Vor und nach jedem Anruf (Inbound und Outbound) wird eine Logdatei geladen mit der wir einen DB-Abgleich der Kontostände machen. Diese wird im normalen Betrieb geleert, so dass es für das System keinerlei merkbare Belastung darstellt.

    Als wir ein neues PSTN-Gateway angebunden haben, wurde zu Kontrollzwecken die automatische Löschunktion nach Übertragung in die Datenbank deaktiviert. Da das neue PSTN-Gateway einwandfrei lief, haben wir die Löschfunktion aus den Augen verloren. Es ist uns während der gesamten Zeit auch nichts aufgefallen, da die Systembelastung sehr, sehr schleichend anstieg.

    Am Sonntag erreichte dieses Logfile dann eine Größe von 10MB(!), und wurde vor und nach jedem Anruf jeweils 1x geladen. Das Ergebnis war: Debian Linux ist ABGESTÜRZT(!), so wie man das von Windowsrechnern her kennt. Es ist richtig abgestürzt und konnte nicht einmal mehr per SSH rebootet werden.

    Einzige Abhilfe wäre ein manueller Reboot vor Ort durch einen Techniker im Rechenzentrum. Ein einziger Klick, und das System würde sofort wieder laufen.

    Das ist jetzt das zweite Problem: Am Sonntag brauchte ein Techniker 13(!) Stunden nach Eingang unserer Ausfallmeldung bis er auf die Resettaste gedrückt hat, - am Montag 7(!) Stunden! Wohlgemerkt: Nach drücken der Resettaste am Host lief das System anstandslos wieder weiter!

    Wir haben die Probleme wie folgt behoben:

    1.) Die Löschfunktion wurde wieder aktiviert (auch das Delay [zeitlicher Versatz] das manche zeitweise hatten sollte nun nicht mehr auftreten)

    2.) Wir binden gerade 2 voneinander unabhängige Hosts mit Remote-Power-Switch ein um in einem solchen Fall sofort selbst einen Hard-Reset machen zu können, ohne auf einen Techniker warten zu müssen.


    Wir bedauern die Ausfälle und Unannehmlichkeiten die Sie eventuell dadurch hatten und setzen die Problembehebung jetzt um.

    Vielen Dank und beste Grüße

    Volker Goudschmidt
     
Status des Themas:
Es sind keine weiteren Antworten möglich.