This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA sync endet nicht

wir haben 2 Sophos SG330 die in einem HA Cluster verbunden, vor ein paar tagen ist aufgefallen das eine ausgeschaltet war, nach dem einschalten hat sich diese allerdings immer wieder abgeschalten bis die verbindung zwischen den beiden getrennt wurde. durch vorrige recherche nach ähnlichen fällen stieß ich auf die möglichkeit das die Firmware der beiden Sophos auf verschiedenen stand war, ein einloggen allerdings nicht möglich da immer die meldung "Benutzer oder Passwort falsch" weswegen ich sie auf Werkseinstellungen zurücksetzte und die Firmware auf den Stand der noch laufenden aktualisierte um sie anschließend über den HA sync die einstellungen zu synchronisieren. das  hat auch teilweise funktioniert, die einstellungen sind alle vorhanden allerdings steht in der Weboberfläche unter "High Availability>Status"  das die Slave schon seit stunden im "Syncing" in den logs tauchen auch immer wieder die selben einträge auf die ich hier mitgebe


2023:07:06-11:25:51 fw01--1 repctl[28176]: [c] standby_clone(936): rsync failed on $VAR1 = {
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): 'path' => '/postgres.default',
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): 'dst' => '/var/storage/pgsql92/',
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): 'module' => 'postgres-default'
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): };
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): (Attempt #:3)
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] db_connect(2206): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] db_connect(2206): TCP/IP connections on port 5432?
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] master_connection(2045): could not connect to server: Connection refused
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] master_connection(2045): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] master_connection(2045): TCP/IP connections on port 5432?
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] db_connect(2206): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] db_connect(2206): TCP/IP connections on port 5432?
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] master_connection(2045): could not connect to server: Connection refused
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] master_connection(2045): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] master_connection(2045): TCP/IP connections on port 5432?
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] db_connect(2206): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] db_connect(2206): TCP/IP connections on port 5432?
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] master_connection(2045): could not connect to server: Connection refused
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] master_connection(2045): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] master_connection(2045): TCP/IP connections on port 5432?
2023:07:06-11:26:02 fw01-1 repctl[28176]: [i] execute(1768): @ERROR: Unknown module 'postgres-default'
2023:07:06-11:26:02 fw01-1 repctl[28176]: [i] execute(1768): rsync error: error starting client-server protocol (code 5) at main.c(1516) [receiver=3.0.4]

die Firmware der beiden Sophos ist aktuell auf version 9.714-4
ein neustart der Slave Sophos führt zum selben ergebnis
MfG
Konstantin Schulga


This thread was automatically locked due to age.
  • db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused

    Es hat den Anschein, als wäre die Postgres-Datenbank auf dem Node 1 defekt.
    Wenn die sich nicht wieder starten läßt, muß man sie vermutlich neu aufbauen (/etc/init.d/postgresql92 rebuild).

    Je nach Supportstatus würde ich das aber Sophos machen lassen, da sonst die Garantie erlischt.

  • Hallo  ,

    Vielen Dank, dass Sie sich an die Community gewandt haben. Ja, ich stimme   zu, okay, er hat recht. Bitte befolgen Sie die folgenden Schritte:

    1) ha_utils ssh (gehe zum Slave-Knoten/zweiten Knoten)
    2) killall repctl (den Synchronisierungsprozess beenden)
    3) Geben Sie „exit“ ein, um zum Master zurückzukehren
    4) killall repctl (jetzt den Kill-Sync-Prozess auf dem Master)
    5) Erstellen Sie /etc/init.d/postgresql92 rebuild (dadurch wird die Datenbank neu erstellt)
    6) Starten Sie den Synchronisierungsprozess auf beiden Knoten mit dem Befehl: repctl

    *Hinweis: Wenn möglich, nehmen Sie die Hilfe von Unterstützern in Anspruch. Wenn Sie sich nicht sicher sind, ob Sie die Schritte alleine ausführen sollen.

    Thanks & Regards,
    _______________________________________________________________

    Vivek Jagad | Team Lead, Technical Support, Global Customer Experience

    Log a Support Case | Sophos Service Guide
    Best Practices – Support Case  | Security Advisories 
    Compare Sophos next-gen Firewall | Fortune Favors the prepared
    Sophos Community | Product Documentation | Sophos Techvids | SMS
    If a post solves your question please use the 'Verify Answer' button.

  • Hallo,

    gibt es eine möglichkeit die bestehende datenbank, auch wenn sie anscheinend defekt ist, vorher zu sichern?

    MfG

    Konstantin Schulga

  • Wie man oben sieht, startet der Posgresql-Server nicht. Damit fällt der "offizielle" Weg mittels pg_dump aus.

    Die Datendateien liegen unter "/var/storage/pgsql92/data/", auf File-Ebene kann man die natürlich sichern.
    Ob man damit was anfangen kann (in einer anderen Umgebung wieder eine lauffähige Datenbank zusammenbauen) hängt davon ab, was beschädigt ist und ob der Server z.B. beim Ausschließen einzelner Tabellen wieder lauffähig wäre.

  • Wir hatten genau das gleiche Problem ( aber mit eine andere Version ) und die Lösung war ein Upgrade auf die aktuellste Version 9.715-4 (  Release Notes & News: UTM Up2date 9.715-4 released ) 

    Das neuerstellen der Datenbank mit postgresql92 rebuild hat damals nicht geholfen.

    Hier mein Thread : community.sophos.com/.../syncing-between-master-and-slave-not-working-after-latest-upgrade

  • Hier als Antwort damit das ganze auch als gelöst betrachtet werden kann:

    wir haben wegen fehlender erfahrung bei netzwerkthemen den support der firmen, die die Lizenz verkauft haben, angefordert. der support bestand aus der anweisung, wir sollen den HA auflösen und nochmal aufbauen, das auflösen des HA hat dann erstmal dafür gesorgt das beide alle aktiv wurden und wir alle sekunden einen kurzen aussetzer bis wir die Slave vom netz genommen haben, nach ein paar wochen haben wir die Slave Sophos auf den Firmware stand 9.716-2 gebracht, haben sie mit der Postiion der Master getauscht und eine woche gewartet um sicherzustellen, dass es kein Hardware problem ist und haben die Master auch auf den Firmware Stand 9.716-2 gebracht und haben den HA neu aufgebaut, der Sync hat erst beim zweiten versuch geklappt und seitdem läuft alles wie davor