This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Sophos UTM - HA Node fährt automatisch herunter

Hallo zusammen,

lange war es ruhig und alles lief wie es soll. Heute morgen allerdings habe ich bemerkt, dass der eigentliche Master-Node aus war. Lediglich eine kurze Mail, worin das auch mitgeteilt wurde und kein Slave Node mehr verfügbar wäre. Es handelt sich um ein UTM Home HA Setup (active / passive) privat, bestehend aus 2x SG330 Rev1. Der eigentliche Master wurde mit der 9.715-4 betrieben, der Slave (nun der neue Master) fährt mit einem Update darunter.

Bin dann erstmal vom worst case ausgegangen und dachte, dass vielleicht das Netzteil das zeitliche gesegnet hat - dem war allerdings nicht so (hatte es trotzdem getauscht). Der betroffene Node startet normal, fährt jedoch sofort wieder herunter. Wenn er nicht im Netzwerk hängt, bleibt er "up" und idlet vor sich hin - also schliesse ich mal ein Hardwareproblem aus? Sobald er wieder eine Verbindung zum neuen Master bekommt, beginnt das Spiel von neuem und inneralb weniger Sekunden wird das Gerät heruntergefahren.

Auf dem TFT sieht man lediglich "INIT: Switching to Runlevel 0" und dann legt er los und fährt das Gerät herunter.

Die erste Mail kam heute Nacht um 00:05 Uhr - also ziemlich genau um Mitternacht ist das Spiel losgegangen.

Mir hat es leider erst jetzt gereicht, mich darum zu kümmern.

Was ich schon getestet habe? Den neuen "Master" neugestartet, den Slave zuerst gestartet, dieser bleibt dann auch up, bis der Master wieder durchgestartet ist und beginnt wieder herunterzufahren. Die HW habe ich inspiziert (vor dem Loop Problem, sonst hätte ich mir das gespart) und Netzteil getauscht, SSD schliesse ich eigentlich aus, ebenso sonstige HW, da es im "Solo Idle" auch weiter läuft. Auch habe ich versucht, etwas in den Logfiles zu finden, jedoch bin ich da glaub zu blöd für bzw suche falsch.

Hat hier jemand eine Idee und kann evtl weiterhelfen?



This thread was automatically locked due to age.
  • kurzes Update dazu, was noch weiter getestet wurde:

    1. beide Firewalls von allen LANs/VLANs getrennt und nur den HA-Link aktiv gelassen, selbiges Verhalten, eine der FWs fährt herunter (immer die selbe).

    2. die Firewall, welche immer "up" bleibt heruntergefahren und nur die zweite hochgefahren, welche sonst immer runterfährt: nun bleibt auch diese "up". Somit wird das Problem definitiv durch das HA-Setup und die zweite Firewall ausgelöst, sobald beide zusammenhängen.

    Macht aber keinen Sinn, da hier die letzte Woche nichts geändert wurde und auch das letzte Update schon etwas her ist. Die zweite fährt aktuell noch die 9.714-4, hier fuhr ich bisher immer gut, indem die andere dann nach 2-3 Wochen auf das selbe Level geupdatet wurde. Die Appliance lief nun ein paar Stunden, ohne irgendwelche Fehler. Ich habe nun mal das Update auf die aktuellste FW gestartet (lief ja bis jetzt immer mit einer Version Unterschied problemlos), nur um das auszuschliessen. Und bevor ichs dann nochmal versuche, schaue ich mir die Logfiles mal an, aber bis jetzt nicht wirklich was gefunden - man sieht aber die Uhrzeiten, wo sie das dann das shutdown signal bekommt und runterfährt.

    Danke vorab, falls jemand einen Tipp haben sollte!

  • OK, nachdem dann niemand etwas dazu zu sagen hatte, habe ich dann nach Stunden des Betriebs der Firewall, welche immer runtergefahren ist (zwischenzeitlich auch noch auf das selbe Update Level angehoben, da ich auch vielleicht dort den Fehler vermutete), die zweite wieder angeschaltet und diese hat dann normal gestartet, beide haben gesynct und der HA Status war wieder da - beide blieben up.

    Jedoch scheinen Tage der Synchronisierung verloren gegangen zu sein - zum Glück nicht viel an Änderungen zuvor passiert. D.h. es fehlten z.B. neuere Objekte / Geräte, welche angelegt wurden.

    Somit vermute ich, dass irgendwie zuvor der HA Status und die Konfiguration gecrasht ist, was bewirkte, dass die andere Firewall einfach immer wieder heruntergefahren wird. Nachdem dann die Shutdown-auslösende Firewall deaktiviert wurde, die andere zum Master wechselte, stabil lief und die andere danach wieder reaktiviert wurde, hat diese dann den Status "resynct" und sich wieder als Member eingereiht. Jedoch halt mit einer etwas älteren Konfiguration und SyncState.

    Ist hier nun kein Drama - wäre dennoch interessant, was da passiert ist.

    Die Log files habe ich soweit heruntergeladen, konnte da jedoch nichts entdecken. Vermutlich braucht es da dann ein etwas tieferes Logging. Wird aber wahrscheinlich ein Einzelfall gewesen sein, da ich dazu nichts ähnliches finden konnte, auf die Schnelle.