This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

HA sync endet nicht

wir haben 2 Sophos SG330 die in einem HA Cluster verbunden, vor ein paar tagen ist aufgefallen das eine ausgeschaltet war, nach dem einschalten hat sich diese allerdings immer wieder abgeschalten bis die verbindung zwischen den beiden getrennt wurde. durch vorrige recherche nach ähnlichen fällen stieß ich auf die möglichkeit das die Firmware der beiden Sophos auf verschiedenen stand war, ein einloggen allerdings nicht möglich da immer die meldung "Benutzer oder Passwort falsch" weswegen ich sie auf Werkseinstellungen zurücksetzte und die Firmware auf den Stand der noch laufenden aktualisierte um sie anschließend über den HA sync die einstellungen zu synchronisieren. das  hat auch teilweise funktioniert, die einstellungen sind alle vorhanden allerdings steht in der Weboberfläche unter "High Availability>Status"  das die Slave schon seit stunden im "Syncing" in den logs tauchen auch immer wieder die selben einträge auf die ich hier mitgebe


2023:07:06-11:25:51 fw01--1 repctl[28176]: [c] standby_clone(936): rsync failed on $VAR1 = {
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): 'path' => '/postgres.default',
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): 'dst' => '/var/storage/pgsql92/',
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): 'module' => 'postgres-default'
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): };
2023:07:06-11:25:51 fw01-1 repctl[28176]: [c] standby_clone(936): (Attempt #:3)
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] db_connect(2206): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] db_connect(2206): TCP/IP connections on port 5432?
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] master_connection(2045): could not connect to server: Connection refused
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] master_connection(2045): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:55 fw01-2 repctl[15241]: [e] master_connection(2045): TCP/IP connections on port 5432?
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] db_connect(2206): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] db_connect(2206): TCP/IP connections on port 5432?
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] master_connection(2045): could not connect to server: Connection refused
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] master_connection(2045): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:25:58 fw01-2 repctl[15241]: [e] master_connection(2045): TCP/IP connections on port 5432?
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] db_connect(2206): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] db_connect(2206): TCP/IP connections on port 5432?
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] master_connection(2045): could not connect to server: Connection refused
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] master_connection(2045): Is the server running on host "198.19.250.1" and accepting
2023:07:06-11:26:01 fw01-2 repctl[15241]: [e] master_connection(2045): TCP/IP connections on port 5432?
2023:07:06-11:26:02 fw01-1 repctl[28176]: [i] execute(1768): @ERROR: Unknown module 'postgres-default'
2023:07:06-11:26:02 fw01-1 repctl[28176]: [i] execute(1768): rsync error: error starting client-server protocol (code 5) at main.c(1516) [receiver=3.0.4]

die Firmware der beiden Sophos ist aktuell auf version 9.714-4
ein neustart der Slave Sophos führt zum selben ergebnis
MfG
Konstantin Schulga


This thread was automatically locked due to age.
Parents
  • db_connect(2206): error while connecting to database(DBI:Pg:dbname=repmgr;host=198.19.250.1): could not connect to server: Connection refused

    Es hat den Anschein, als wäre die Postgres-Datenbank auf dem Node 1 defekt.
    Wenn die sich nicht wieder starten läßt, muß man sie vermutlich neu aufbauen (/etc/init.d/postgresql92 rebuild).

    Je nach Supportstatus würde ich das aber Sophos machen lassen, da sonst die Garantie erlischt.

  • Hallo  ,

    Vielen Dank, dass Sie sich an die Community gewandt haben. Ja, ich stimme   zu, okay, er hat recht. Bitte befolgen Sie die folgenden Schritte:

    1) ha_utils ssh (gehe zum Slave-Knoten/zweiten Knoten)
    2) killall repctl (den Synchronisierungsprozess beenden)
    3) Geben Sie „exit“ ein, um zum Master zurückzukehren
    4) killall repctl (jetzt den Kill-Sync-Prozess auf dem Master)
    5) Erstellen Sie /etc/init.d/postgresql92 rebuild (dadurch wird die Datenbank neu erstellt)
    6) Starten Sie den Synchronisierungsprozess auf beiden Knoten mit dem Befehl: repctl

    *Hinweis: Wenn möglich, nehmen Sie die Hilfe von Unterstützern in Anspruch. Wenn Sie sich nicht sicher sind, ob Sie die Schritte alleine ausführen sollen.

    Thanks & Regards,
    _______________________________________________________________

    Vivek Jagad | Team Lead, Global Support & Services 

    Log a Support Case | Sophos Service Guide
    Best Practices – Support Case


    Sophos Community | Product Documentation | Sophos Techvids | SMS
    If a post solves your question please use the 'Verify Answer' button.

  • Hallo,

    gibt es eine möglichkeit die bestehende datenbank, auch wenn sie anscheinend defekt ist, vorher zu sichern?

    MfG

    Konstantin Schulga

Reply Children
  • Wie man oben sieht, startet der Posgresql-Server nicht. Damit fällt der "offizielle" Weg mittels pg_dump aus.

    Die Datendateien liegen unter "/var/storage/pgsql92/data/", auf File-Ebene kann man die natürlich sichern.
    Ob man damit was anfangen kann (in einer anderen Umgebung wieder eine lauffähige Datenbank zusammenbauen) hängt davon ab, was beschädigt ist und ob der Server z.B. beim Ausschließen einzelner Tabellen wieder lauffähig wäre.