Probleme mit Erreichbarkeit von Active-Passive HA-Cluster

Question

Hallo! 
 Wir setzen gerade f&uuml;r ein gr&ouml;&szlig;eres Kundenprojekt eine neue Umgebung bei uns intern auf. Dazu habe ich auf unserer Sophos UTM ein eigenes Interface konfiguriert, wor&uuml;ber ein Switch angebunden ist, an welchem wiederum auch die WAN-Interfaces von 4 Sophos XG Firewalls h&auml;ngen. Wir kommen in der Skizze unten aus dem 192.168.52.0er Netz. 
 Je 2 der XGs sind geclustert und decken intern unterschiedliche Subnetze/Standorte ab. 
 
 Da sp&auml;ter noch weitere VLANs in den 10.60, bzw. 10.61 Bereichen laufen habe ich die Static Routes auf unserer SG auf den kompletten /16 Bereich angelegt und jeweils an die IP der Primary Appliance im 172er Transfernetz geschickt. 
 So lange ich nur eine der Firewalls (eines Clusters) nutze kann ich einen Web- und einen SSH-Server dahinter durchgehend erreichen, auch &uuml;ber l&auml;ngere Zeit beobachtet, ohne einen einzigen Ausfall. Sobald die beiden XGs zum Cluster konfiguriere fangen aber die Probleme an... 
 
 Im WebAdmin eingeloggt erschien immer wieder die o.g. Meldung, daher habe ich mich auf die Ursachensuche gemacht. 
 
 WebAdmin des XG-Clusters auf dem WAN-Interface ist sporadisch nicht erreichbar. 
 SSH dex XG-Clusters auf dem WAN-Interface ist dann ebenfalls nicht erreichbar. 
 zeitgleich gilt dies f&uuml;r alle Verbindungen auf IPs "hinter" den XGs (LAN-IP WebAdmin / HTTPS-Server / SSH-Server)

Die 172.16.22.68 ist in diesem Fall im als IP des Peers auf dem WAN-Interface konfiguriert worden, die 10.60.100.2 auf dem internen Netz:

Wie man an den Pings oben sieht ist die Peer IP durchgehend erreichbar. Bei der Primary Appliance setzt immer wieder der komplette Traffic aus, Konfigurationen im WebAdmin sind damit nahezu unm&ouml;glich geworden. Die Probleme treten auf beiden Clustern identisch auf, ich habe f&uuml;rs Troubleshooting aber nur den linken n&auml;her unter die Lupe genommen. 
 Auf den XGs ist noch gar nichts aktiviert worden, keinerlei Protections, keine Trials, nichts. Nur die Registrierung bei der Sophos ID zum Erstellen des Clusters. Die Firmware und Pattern auf allen 4 Firewalls waren aktuell und identisch (Firmware 18.0 MR5). 
 
 Hat jemand eine Idee, was ich hier falsch mache? Ich habe bereits: 
 
 beide XGs neu gestartet. 
 Failover auf die Backup-Appliance ausgel&ouml;st. 
 Switch getauscht gegen einen "dummen" ohne VLANs oder Management. 
 Masquerading/SNAT auf den XGs deaktiviert. 
 die Sophos UTM direkt an den Switch gehangen (ging zuvor &uuml;ber ein VLAN-Interface und einen internen Switch von uns). 
 Cluster &uuml;ber "QuickHA" konfiguriert anstatt "Interactive". 
 auf der UTM die IPs der beiden Cluster in Ausnahmen f&uuml;r das IPS gepackt (Spoof Protection ist AUS).

LuCar Toni · Accepted Answer

Tipp Nummer 1. Auf jeden Fall die HA Startup Guides durchlesen: https://docs.sophos.com/nsg/sophos-firewall/18.0/Help/en-us/webhelp/onlinehelp/nsg/sfos/haStartupHelp/concepts/HAAbout.html Dort sind viele wichtigen Informationen. 
 Tipp Nummer 2: &Auml;ndere die Cluster ID von jedem Cluster. Die Cluster ID bestimmt die virtual MACs der Appliances. Wenn du im gleichen Netzwerk zwei mal Cluster ID 0 hast, hast du duplicated MACs und das l&ouml;st wahrscheinlich alle deine Probleme aus. (Wird auch im Startup Guide erkl&auml;rt). 
 Warum ist die Peer ID erreichbar? Die zweite Appliance nutzt immer ihre Physical MAC, die Primary nutzt immer die virtual MAC. Daher erreichst du die zweite Appliance immer (Physical hat kein Duplicated im Netzwerk). 
 Das sollte dein Problem direkt l&ouml;sen.

Probleme mit Erreichbarkeit von Active-Passive HA-Cluster

Top Replies