Important note about SSL VPN compatibility for 20.0 MR1 with EoL SFOS versions and UTM9 OS. Learn more in the release notes.

This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Probleme mit Erreichbarkeit von Active-Passive HA-Cluster

Hallo!

Wir setzen gerade für ein größeres Kundenprojekt eine neue Umgebung bei uns intern auf. Dazu habe ich auf unserer Sophos UTM ein eigenes Interface konfiguriert, worüber ein Switch angebunden ist, an welchem wiederum auch die WAN-Interfaces von 4 Sophos XG Firewalls hängen. Wir kommen in der Skizze unten aus dem 192.168.52.0er Netz.

Je 2 der XGs sind geclustert und decken intern unterschiedliche Subnetze/Standorte ab.

Da später noch weitere VLANs in den 10.60, bzw. 10.61 Bereichen laufen habe ich die Static Routes auf unserer SG auf den kompletten /16 Bereich angelegt und jeweils an die IP der Primary Appliance im 172er Transfernetz geschickt.

So lange ich nur eine der Firewalls (eines Clusters) nutze kann ich einen Web- und einen SSH-Server dahinter durchgehend erreichen, auch über längere Zeit beobachtet, ohne einen einzigen Ausfall. Sobald die beiden XGs zum Cluster konfiguriere fangen aber die Probleme an...

Im WebAdmin eingeloggt erschien immer wieder die o.g. Meldung, daher habe ich mich auf die Ursachensuche gemacht.

  • WebAdmin des XG-Clusters auf dem WAN-Interface ist sporadisch nicht erreichbar.
  • SSH dex XG-Clusters auf dem WAN-Interface ist dann ebenfalls nicht erreichbar.
  • zeitgleich gilt dies für alle Verbindungen auf IPs "hinter" den XGs (LAN-IP WebAdmin / HTTPS-Server / SSH-Server)

Die 172.16.22.68 ist in diesem Fall im als IP des Peers auf dem WAN-Interface konfiguriert worden, die 10.60.100.2 auf dem internen Netz:

Wie man an den Pings oben sieht ist die Peer IP durchgehend erreichbar. Bei der Primary Appliance setzt immer wieder der komplette Traffic aus, Konfigurationen im WebAdmin sind damit nahezu unmöglich geworden. Die Probleme treten auf beiden Clustern identisch auf, ich habe fürs Troubleshooting aber nur den linken näher unter die Lupe genommen.

Auf den XGs ist noch gar nichts aktiviert worden, keinerlei Protections, keine Trials, nichts. Nur die Registrierung bei der Sophos ID zum Erstellen des Clusters. Die Firmware und Pattern auf allen 4 Firewalls waren aktuell und identisch (Firmware 18.0 MR5).

Hat jemand eine Idee, was ich hier falsch mache? Ich habe bereits:

  • beide XGs neu gestartet.
  • Failover auf die Backup-Appliance ausgelöst.
  • Switch getauscht gegen einen "dummen" ohne VLANs oder Management.
  • Masquerading/SNAT auf den XGs deaktiviert.
  • die Sophos UTM direkt an den Switch gehangen (ging zuvor über ein VLAN-Interface und einen internen Switch von uns).
  • Cluster über "QuickHA" konfiguriert anstatt "Interactive".
  • auf der UTM die IPs der beiden Cluster in Ausnahmen für das IPS gepackt (Spoof Protection ist AUS).


Added TAGs
[edited by: Erick Jan at 4:48 AM (GMT -7) on 29 May 2023]
  • Tipp Nummer 1. Auf jeden Fall die HA Startup Guides durchlesen: https://docs.sophos.com/nsg/sophos-firewall/18.0/Help/en-us/webhelp/onlinehelp/nsg/sfos/haStartupHelp/concepts/HAAbout.html Dort sind viele wichtigen Informationen. 

    Tipp Nummer 2: Ändere die Cluster ID von jedem Cluster. Die Cluster ID bestimmt die virtual MACs der Appliances. Wenn du im gleichen Netzwerk zwei mal Cluster ID 0 hast, hast du duplicated MACs und das löst wahrscheinlich alle deine Probleme aus. (Wird auch im Startup Guide erklärt). 

    Warum ist die Peer ID erreichbar? Die zweite Appliance nutzt immer ihre Physical MAC, die Primary nutzt immer die virtual MAC. Daher erreichst du die zweite Appliance immer (Physical hat kein Duplicated im Netzwerk). 

    Das sollte dein Problem direkt lösen. 

    __________________________________________________________________________________________________________________

    • Tipp Nummer 2 war die Lösung. Ich hatte tatsächlich die Cluster ID in beiden Clustern auf 0 belassen. Kaum hatte ich die Cluster ID von einem der beiden gändert waren die Verbindungsprobleme direkt verschwunden. Dass durch die ID die virtuelle MAC-Adresse beeinflusst wird hab ich so nicht auf dem Schirm gehabt. Gut zu wissen, auch wenn wir relativ wenige Kunden mit 2 Clustern haben werden.

      Regards,

      Kevin

      Sophos CE/CA (XG, UTM, Central Endpoint)
      Gold Partner