This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA funktioniert nicht mehr SG230 UTM 9.7

Hallo zusammen,

leider funktioniert nach einem damalgen Neustart vor 2 Wochen unser HA an der Sophos nicht mehr.

Beide Geräte Geräte sind auf dem Stand 9.700-5 und ich habe beide Geräte mehrmals resettet ( factory reset am Gerät) und habe auch mehrmals HA neu eingerichtet.

Des Weiteren habe ich die Notes getauscht, habe ein Backup eingespuielt und habe den damaligen Master versucht in das HA reinzubekommen.

Leider geht dieser kurz darauf auf den Status erst syncing und dann auf "Dead".

Hier meine Konfig und das Log:

 

 

19:12:27-13:50:55 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 38 55.684" name="Netlink: Found link beat on eth3 again!"
2019:12:27-13:51:04 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 39 04.658" name="Netlink: Lost link beat on eth3!"
2019:12:27-13:51:04 sophos-proxy-1 conntrack-tools[20313]: no dedicated links available!
2019:12:27-13:51:26 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 40 26.384" name="Netlink: Found link beat on eth3 again!"
2019:12:27-13:51:29 sophos-proxy-1 ha_daemon[19278]: id="38A1" severity="warn" sys="System" sub="ha" seq="M: 41 29.501" name="Got misformed HA message type = 9 len = 64, msg.len = 28"
2019:12:27-13:51:29 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 42 29.501" name="Autojoin of 198.19.250.162 granted! Searching for unused node ID..."
2019:12:27-13:51:29 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 43 29.501" name="Found unused node id 2!"
2019:12:27-13:51:29 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 44 29.501" name="New node 2"
2019:12:27-13:51:29 sophos-proxy-1 conntrack-tools[20313]: no dedicated links available!
2019:12:27-13:51:29 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 45 29.910" name="Netlink: Lost link beat on eth3!"
2019:12:27-13:51:33 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 46 33.964" name="Netlink: Found link beat on eth3 again!"
2019:12:27-13:51:37 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 47 37.010" name="Netlink: Lost link beat on eth3!"
2019:12:27-13:51:37 sophos-proxy-1 conntrack-tools[20313]: no dedicated links available!
2019:12:27-13:51:39 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 48 39.904" name="Netlink: Found link beat on eth3 again!"
2019:12:27-13:51:40 sophos-proxy-1 repctl[19472]: [i] recheck(1057): got ALRM: replication recheck triggered Setup_replication_done = 1
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 49 44.277" name="Access granted to remote node 2!"
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 50 44.389" name="Node 2 joined with version 9.700005"
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38C0" severity="info" sys="System" sub="ha" seq="M: 51 44.389" name="Node 2 is alive"
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 52 44.389" name="Node 2 changed state: DEAD(2048) -> SYNCING(2)"
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 53 44.389" name="Node 2 changed role: UNKNOWN -> SLAVE"
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 54 44.389" name="Executing (wait) /usr/local/bin/confd-setha mode master master_ip 198.19.250.1 slave_ip 198.19.250.2"
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 55 44.477" name="Executing (nowait) /etc/init.d/ha_mode topology_changed"
2019:12:27-13:51:44 sophos-proxy-1 ha_mode[24504]: calling topology_changed
2019:12:27-13:51:44 sophos-proxy-1 ha_mode[24504]: topology_changed: waiting for last ha_mode done
2019:12:27-13:51:44 sophos-proxy-1 ha_mode[24504]: repctl[24519]: [i] daemonize_check(1480): daemonized, see syslog for further messages
2019:12:27-13:51:44 sophos-proxy-1 repctl[24519]: [i] daemonize_check(1480): daemonized, see syslog for further messages
2019:12:27-13:51:44 sophos-proxy-1 repctl[24519]: [i] daemonize_check(1497): trying to signal daemon and exit
2019:12:27-13:51:44 sophos-proxy-1 repctl[19472]: [i] recheck(1057): got HUP: replication recheck triggered Setup_replication_done = 1
2019:12:27-13:51:44 sophos-proxy-1 ha_mode[24504]: topology_changed done (started at 13:51:44)
2019:12:27-13:51:44 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 56 44.826" name="Reading cluster configuration"
2019:12:27-13:51:47 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 57 47.802" name="Set syncing.files for node 2"
2019:12:27-13:51:51 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 58 51.995" name="Clear syncing.files for node 2"
2019:12:27-13:51:59 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 59 59.928" name="Monitoring interfaces for link beat: eth4 eth10 eth0"
2019:12:27-13:52:00 sophos-proxy-1 ha_daemon[19278]: id="38C1" severity="error" sys="System" sub="ha" seq="M: 60 00.802" name="Node 2 is dead, received no heart beats"
2019:12:27-13:52:00 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 61 00.803" name="Executing (wait) /usr/local/bin/confd-setha mode master master_ip 198.19.250.1 slave_ip ''"
2019:12:27-13:52:00 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 62 00.912" name="Executing (nowait) /etc/init.d/ha_mode topology_changed"
2019:12:27-13:52:00 sophos-proxy-1 ha_mode[24819]: calling topology_changed
2019:12:27-13:52:00 sophos-proxy-1 ha_mode[24819]: topology_changed: waiting for last ha_mode done
2019:12:27-13:52:01 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 63 01.160" name="Reading cluster configuration"
2019:12:27-13:52:01 sophos-proxy-1 ha_mode[24819]: repctl[24844]: [i] daemonize_check(1480): daemonized, see syslog for further messages
2019:12:27-13:52:01 sophos-proxy-1 repctl[24844]: [i] daemonize_check(1480): daemonized, see syslog for further messages
2019:12:27-13:52:01 sophos-proxy-1 repctl[24844]: [i] daemonize_check(1497): trying to signal daemon and exit
2019:12:27-13:52:01 sophos-proxy-1 repctl[19472]: [i] recheck(1057): got HUP: replication recheck triggered Setup_replication_done = 1
2019:12:27-13:52:01 sophos-proxy-1 ha_mode[24819]: topology_changed done (started at 13:52:00)
2019:12:27-13:52:16 sophos-proxy-1 ha_daemon[19278]: id="38A0" severity="info" sys="System" sub="ha" seq="M: 64 16.305" name="Monitoring interfaces for link beat: eth4 eth10 eth0"
2019:12:27-13:52:26 sophos-proxy-1 ha_daemon[19278]: id="38A3" severity="debug" sys="System" sub="ha" seq="M: 65 26.154" name="Netlink: Lost link beat on eth3!"
2019:12:27-13:52:26 sophos-proxy-1 conntrack-tools[20313]: no dedicated links available!
2019:12:27-13:57:01 sophos-proxy-1 repctl[19472]: [i] recheck(1057): got ALRM: replication recheck triggered Setup_replication_done = 1
 
 
Vielleicht habt ihr vielleicht einen Tipp für mich?
 
Vielen Dank im Voraus!


This thread was automatically locked due to age.
  • Hallo Robert,

    mir fallen zwei Dinge sofort ins Auge:

    der Status "UNLINKED" bedeutet ein Verbindungsproblem, das ist fast immer im Netzwerk begründet. Das Kabel wackelt, der Switch hat ein Problem, die Konfiguration im rest des ntzwerkes hat sich geändert (Hardware!).

    Das zweite ist "no backup interface", das heisst, es gibt keinen Ersatzweg, wenn die verbindung an eth3 ausgefsallen ist, wie es offenbar momentan der Fall ist.

    Also: zuerst den Fehelr suchen, der zum status "UNLINKED" führt, das sieht man auh im LCD-Display.

    Danach löst sich das HA-Thema meist von selbst. Und nicht zu ungeduldig sein und zu schnell neu booten. Geduld.

    Mittelfrsitig würde ich das Setup so ändern, dass ein Backup-Interface zur Verfügung steht.

    Mit freundlichem Gruß, best regards from Germany,

    Philipp Rusch

    New Vision GmbH, Germany
    Sophos Silver-Partner

    If a post solves your question please use the 'Verify Answer' button.

  • Hallo und vielen Dank!

    Backup Interface ist km Nachgang gesetzt und Kabel würde getauscht. Selbst die ETH habe ich zum Schluss noch auf die 2 gewechselt. Das Problem ist immernoch da... Nach dem Reset und Neustart synct der slave und dann steht er auf Dead.

    Sehr seltsam..  

  • Das "unlinked" kommt wahrscheinlich vom nicht laufenden Slave am HA-Port.

    Es gibt unterschiedliche Gründe, warum der Slave down geht.

    Wenn er eine neue ID hat, aber im HA noch eine "alte" für den Slave steht. (slave löschen)

    Wenn es Probleme mit der Lizenz gibt. (prüfen management/licensing)

    Defekte Datenbank am Slave. Factory-reset hilft nicht. Nur neuinstallation o. DB-Rebuild. 

    Die Meisten Fehler sind im HA-log zu finden und erkennbar. Einfach mal Posten (vom Einschalten des Slave bis zum Herunterfahren)

    Gruß Dirk


    Dirk

    Systema Gesellschaft für angewandte Datentechnik mbH  // Sophos Platinum Partner
    Sophos Solution Partner since 2003
    If a post solves your question, click the 'Verify Answer' link at this post.

  • Das "unlinked" kommt wahrscheinlich vom nicht laufenden Slave am HA-Port.

    - Es gibt unterschiedliche Gründe, warum der Slave down geht.

    Wenn er eine neue ID hat, aber im HA noch eine "alte" für den Slave steht. (slave löschen)

    - Das habe ich mehrmals auch über Kreuz gemacht, sowie den Slave aus einem Backup neu installiert und dann versucht den alten Master zu resetten und dann automatisiert rein zu     hängen in das Cluster.

    Wenn es Probleme mit der Lizenz gibt. (prüfen management/licensing)

    - Was genau muss da gemacht werden? Wir hatten schon 2 RMA Fälle, da haben wir den Note angeschlossen und hochgefahren. Im Anschluss war das CLuster initialisiert und Bereit.

    Defekte Datenbank am Slave. Factory-reset hilft nicht. Nur neuinstallation o. DB-Rebuild. 

    - Das ist natürlich das Problem, an welchem Gerät nun genau der Fehler auftritt, da ich ja über Kreuz das Ganze versucht habe. WQie kann ich eine Defekte DB noch herausfinden?

    Die Meisten Fehler sind im HA-log zu finden und erkennbar. Einfach mal Posten (vom Einschalten des Slave bis zum Herunterfahren)

    - Das HA Log habe ich oben mit gepostet.

     

    Vielen Dank!

    Gruß Dirk

  • ok, im HA-log ist nicht viel zu sehen.

    ist in den system messages / kernel messages / Configuration daemon / o.Ä zur fragliche Zeit etwas Interssantes zu finden?

    Als Lizenz: unter management/Lizensing muss unter "hot standby" enabled stehen.

    (wenigstens eine Subscription muss aktiv sein. Die Base-License alleine tut es nicht)


    Dirk

    Systema Gesellschaft für angewandte Datentechnik mbH  // Sophos Platinum Partner
    Sophos Solution Partner since 2003
    If a post solves your question, click the 'Verify Answer' link at this post.

  • Hallo zusammen,

     

    gestern habe ich nun eine Wartung durchgeführt und mir das Thema noch einmalö angenommen, mit Erfolg!

    Das Problem lag darin, dass ich nicht alle Interfaces auf dem 2. Node angeschlossen hatte. Darauf gekommen bin ich durch den Fehler im HA Log "no dedicated interfaces!"

    Letztendlich habe ich alle angeschlossenen interfaces diabled und siehe da, alles funkt wieder.

     

    Vielen Dank für eure Hilfe!