This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Up2date installation on HA killed slave

Hi

After investigating on how to do the Up2Date-installation in an active/passive HA environment I finally felt safe doing it.

15 minutes after clicking "Upgrade to latest version now" I ended up with a DEAD slave. Now it has passed 30 minutes and still the SLAVE is dead.

The log says:

2010:02:17-22:14:35 (none) ha_daemon[3539]: id="38A2" severity="error" sys="System" sub="ha" name="Node 2 died during up2date process!"
2010:02:17-22:14:35 (none) ha_daemon[3539]: id="38C1" severity="info" sys="System" sub="ha" name="Node 2 is dead, received no heart beats!"
2010:02:17-22:14:37 (none) slon_control[3668]: Killing slon reporting [21816]
2010:02:17-22:14:37 (none) slon_control[3668]: Killing slon pop3 [21817]
2010:02:17-22:14:45 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth5!"
2010:02:17-22:14:47 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth5 again!"
2010:02:17-22:14:56 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth5!"
2010:02:17-22:14:57 (none) slon_control[3668]: Slon reporting exited with value 0!
2010:02:17-22:14:57 (none) slon_control[3668]: Slon pop3 exited with value 0!
2010:02:17-22:14:59 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth5 again!" 


What am I doing wrong?


This thread was automatically locked due to age.
Parents
  • Ok, I was on the right path with the MTU. When I fixed that the slave came up and became master. The old master updated itself, rebooted and came back in the cluster. After that I got two problems:

    1. It hangs while syncing with the following errors:


    2011:07:13-10:17:15 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:15 rama-1 slon[6058]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:15 rama-1 slon[6058]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:16 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:16 rama-1 slon[6065]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:16 rama-1 slon[6065]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:25 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:25 rama-1 slon[6067]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:25 rama-1 slon[6067]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:26 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:26 rama-1 slon[6069]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:26 rama-1 slon[6069]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:35 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:35 rama-1 slon[6072]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:35 rama-1 slon[6072]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:36 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:36 rama-1 slon[6074]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:36 rama-1 slon[6074]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:45 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:45 rama-1 slon[6077]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:45 rama-1 slon[6077]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:46 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:46 rama-1 slon[6079]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:46 rama-1 slon[6079]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:55 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up


    2. One of our interfaces stopped working, I checked the switch, the cables and it has to be the firewall

    I had no choice but to kill the new master and let the original master become master again


    Sorry for being a bit annoyed but Astaro is now the weak link in an otherwise very nice hosting environment with full redundency - well we had full redundancy.

    I don't know what to do now.

    Upgrade to version 8, install cluster and pray to god that it will work the next time I run UP2DATE
    Get my current version working
    Switch to another brand?

    I understand why the UP2DATE didn't work, clearly it is a bug in Astaro not managing to have the heartbeat interfaces set to MTU = auto

    But why on earth did it not manage to sync itself?
    And why will suddenly one of the interfaces stop working?
Reply
  • Ok, I was on the right path with the MTU. When I fixed that the slave came up and became master. The old master updated itself, rebooted and came back in the cluster. After that I got two problems:

    1. It hangs while syncing with the following errors:


    2011:07:13-10:17:15 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:15 rama-1 slon[6058]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:15 rama-1 slon[6058]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:16 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:16 rama-1 slon[6065]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:16 rama-1 slon[6065]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:25 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:25 rama-1 slon[6067]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:25 rama-1 slon[6067]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:26 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:26 rama-1 slon[6069]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:26 rama-1 slon[6069]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:35 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:35 rama-1 slon[6072]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:35 rama-1 slon[6072]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:36 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:36 rama-1 slon[6074]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:36 rama-1 slon[6074]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:45 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:45 rama-1 slon[6077]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:45 rama-1 slon[6077]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:46 rama-1 slon[4193]: [1-1] CONFIG main: slon version 1.2.20 starting up
    2011:07:13-10:17:46 rama-1 slon[6079]: [2-1] ERROR  cannot get sl_local_node_id - ERROR:  schema "_asg_cluster" does not exist
    2011:07:13-10:17:46 rama-1 slon[6079]: [3-1] FATAL  main: Node is not initialized properly - sleep 10s
    2011:07:13-10:17:55 rama-1 slon[4192]: [1-1] CONFIG main: slon version 1.2.20 starting up


    2. One of our interfaces stopped working, I checked the switch, the cables and it has to be the firewall

    I had no choice but to kill the new master and let the original master become master again


    Sorry for being a bit annoyed but Astaro is now the weak link in an otherwise very nice hosting environment with full redundency - well we had full redundancy.

    I don't know what to do now.

    Upgrade to version 8, install cluster and pray to god that it will work the next time I run UP2DATE
    Get my current version working
    Switch to another brand?

    I understand why the UP2DATE didn't work, clearly it is a bug in Astaro not managing to have the heartbeat interfaces set to MTU = auto

    But why on earth did it not manage to sync itself?
    And why will suddenly one of the interfaces stop working?
Children
No Data