This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Up2date installation on HA killed slave

Hi

After investigating on how to do the Up2Date-installation in an active/passive HA environment I finally felt safe doing it.

15 minutes after clicking "Upgrade to latest version now" I ended up with a DEAD slave. Now it has passed 30 minutes and still the SLAVE is dead.

The log says:

2010:02:17-22:14:35 (none) ha_daemon[3539]: id="38A2" severity="error" sys="System" sub="ha" name="Node 2 died during up2date process!"
2010:02:17-22:14:35 (none) ha_daemon[3539]: id="38C1" severity="info" sys="System" sub="ha" name="Node 2 is dead, received no heart beats!"
2010:02:17-22:14:37 (none) slon_control[3668]: Killing slon reporting [21816]
2010:02:17-22:14:37 (none) slon_control[3668]: Killing slon pop3 [21817]
2010:02:17-22:14:45 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth5!"
2010:02:17-22:14:47 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth5 again!"
2010:02:17-22:14:56 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth5!"
2010:02:17-22:14:57 (none) slon_control[3668]: Slon reporting exited with value 0!
2010:02:17-22:14:57 (none) slon_control[3668]: Slon pop3 exited with value 0!
2010:02:17-22:14:59 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth5 again!" 


What am I doing wrong?


This thread was automatically locked due to age.
Parents
  • This might be a long shot but could there be any problems with the heartbeat interfaces, perhaps a MTU change with the new version of Astaro? I have some memory of a bug that made the master kill the slave if the MTU differed between them. If so, will I be able to find that in a log on the master? We run a crossed patch cable between the FW:s so no switch problems will affect this.

    Maybe this way off, but to me it seems like the slave is not coming up at all. I have no access to the servers now.

    I try to ping node2 (node2 coming from /etc/hosts file) from the master but no luck. There are some predefined IP addresses in the hosts file and I guess those are the ones I can use when I want to ssh into either the master or the slave. Otherwise an ssh to the FW of course always brings me to the current master, right?
Reply
  • This might be a long shot but could there be any problems with the heartbeat interfaces, perhaps a MTU change with the new version of Astaro? I have some memory of a bug that made the master kill the slave if the MTU differed between them. If so, will I be able to find that in a log on the master? We run a crossed patch cable between the FW:s so no switch problems will affect this.

    Maybe this way off, but to me it seems like the slave is not coming up at all. I have no access to the servers now.

    I try to ping node2 (node2 coming from /etc/hosts file) from the master but no luck. There are some predefined IP addresses in the hosts file and I guess those are the ones I can use when I want to ssh into either the master or the slave. Otherwise an ssh to the FW of course always brings me to the current master, right?
Children
No Data