This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Up2date installation on HA killed slave

Hi

After investigating on how to do the Up2Date-installation in an active/passive HA environment I finally felt safe doing it.

15 minutes after clicking "Upgrade to latest version now" I ended up with a DEAD slave. Now it has passed 30 minutes and still the SLAVE is dead.

The log says:

2010:02:17-22:14:35 (none) ha_daemon[3539]: id="38A2" severity="error" sys="System" sub="ha" name="Node 2 died during up2date process!"
2010:02:17-22:14:35 (none) ha_daemon[3539]: id="38C1" severity="info" sys="System" sub="ha" name="Node 2 is dead, received no heart beats!"
2010:02:17-22:14:37 (none) slon_control[3668]: Killing slon reporting [21816]
2010:02:17-22:14:37 (none) slon_control[3668]: Killing slon pop3 [21817]
2010:02:17-22:14:45 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth5!"
2010:02:17-22:14:47 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth5 again!"
2010:02:17-22:14:56 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Lost link beat on eth5!"
2010:02:17-22:14:57 (none) slon_control[3668]: Slon reporting exited with value 0!
2010:02:17-22:14:57 (none) slon_control[3668]: Slon pop3 exited with value 0!
2010:02:17-22:14:59 (none) ha_daemon[3539]: id="38A3" severity="debug" sys="System" sub="ha" name="Netlink: Found link beat on eth5 again!" 


What am I doing wrong?


This thread was automatically locked due to age.
Parents
  • Thanks Bob, I really appreciate your answers!
     

    We have it running on 7.511 fully functionally now. I took up the the slave again and the sync worked from master->slave but not vice versa. Also I fixed the network problem, that was probably an issue with NAT that worked when we configured it but stopped working when we restarted the firewalls. 

    I still don't know why the sync did not run. And I am a bit unsure also about the network problem.

    I am running this on Supermicro hardware with pretty common parts but I guess it still might be the hardware. The good thing about Astaro is that is runs rock solid, but as soon as I want to update it, it becomes a big mess. The up2date part is critical, after all it is a firewall and it needs to be updated.

    Our local news contacted us since we had down time for our customers.

    Do you have any recommendations how we could establish a more secure and safe up2date process. I dont feel like explaining to the media that our down time is due to a bug in our firewall. 

    Should we buy a third firewall and upgrade that one, switch over to that and then run up2date on the HA-environment?
    I have to get the FW up to standard that we need, this just wont do.
Reply
  • Thanks Bob, I really appreciate your answers!
     

    We have it running on 7.511 fully functionally now. I took up the the slave again and the sync worked from master->slave but not vice versa. Also I fixed the network problem, that was probably an issue with NAT that worked when we configured it but stopped working when we restarted the firewalls. 

    I still don't know why the sync did not run. And I am a bit unsure also about the network problem.

    I am running this on Supermicro hardware with pretty common parts but I guess it still might be the hardware. The good thing about Astaro is that is runs rock solid, but as soon as I want to update it, it becomes a big mess. The up2date part is critical, after all it is a firewall and it needs to be updated.

    Our local news contacted us since we had down time for our customers.

    Do you have any recommendations how we could establish a more secure and safe up2date process. I dont feel like explaining to the media that our down time is due to a bug in our firewall. 

    Should we buy a third firewall and upgrade that one, switch over to that and then run up2date on the HA-environment?
    I have to get the FW up to standard that we need, this just wont do.
Children
No Data