This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Error with ASG on VMware Vsphere with Hot-Standby

hello,

i have two hp with vmware vsphere 4.

every server has 4 nics. the ha nic is connected from server to server with a normal cable.

i installed asg on both machines with 7.504

when i try to create a active/passive both asg are online.

when i shutdown the master, the slave wont take over, and the master starts up, but after a few minutes the asg shuts down.

under status the asg master that was shutdown is dead.

anyone ideas?

regards,
sebastian


This thread was automatically locked due to age.
  • What indications are there in the High Availability log?

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • when i reboot the master this is the only which is written in the ha log.

    2010:03:23-16:38:09 asg2-2 ha_proxy[7164]: storeLateRelease: released 0 objects
    2010:03:23-16:38:23 asg2-2 ctsyncd: ctsyncd started
    2010:03:23-16:38:23 asg2-2 ctsyncd: tuple-cache initialized (hashsize 512)
    2010:03:23-16:38:23 asg2-2 ctsyncd: seq-cache initialized (hashsize 64)
    2010:03:23-16:38:23 asg2-2 ctsyncd: joined mcast group 224.0.0.82:1999
    2010:03:23-16:38:23 asg2-2 ctsyncd: new session 'default' (ip=198.19.250.2 grp=224.0.0.82:1999)
    2010:03:23-16:38:23 asg2-2 ctsyncd: now running in INIT mode
    2010:03:23-16:38:23 asg2-2 ctsyncd: now running in MASTER mode
    2010:03:23-16:39:15 asg2-2 ha_daemon[4827]: id="38A0" severity="info" sys="System" sub="ha" name="Access granted to remote node 1!"
    2010:03:23-16:39:19 asg2-2 ha_daemon[4827]: id="38A0" severity="info" sys="System" sub="ha" name="Monitoring interface for link beat: eth0"
    2010:03:23-16:46:08 asg2-2 ha_daemon[4827]: id="38A0" severity="info" sys="System" sub="ha" name="Access granted to remote node 1!"
    2010:03:23-16:49:12 asg2-2 slon_control[5336]: Killed pending Slonik process!
    2010:03:23-16:52:21 asg2-2 slon_control[5336]: Slonik error, process exited with value 255
    2010:03:23-16:52:30 asg2-2 slon_control[5336]: Failed to drop slony schemas for pop3, process exited with value 2! 

    remember i am not using the esx image which you can download from the homepage. i am installing with the iso with suse linux enterprise 10 sp2 x86.

    support told me to use the esx image, but it has limitations because of the nics. i need 6 nics. with version 3 you cannot attach 6 nics.
  • hello,

    anyone has this problem?
    i am not on support with astaro.

    we know that the problem is only if you are using 2 pysical vmware servers. but with only one server it makes no sence.

    if a make the ha feature on a single vmware server it works with no problem.

    only if i use 2 vmware server and have each asg on one vmware server, then the ha doesnt work anymore.

    if you are shutting down the master, the slave wont take over, then if you start the master again, it shuts himself down after a while..
  • Network issues? VLAN? or are the nics mapped 1:1? can you ping the other node on the ha interface? (when both are up)
  • hello,

    i have two hp with vmware vsphere 4.

    every server has 4 nics. the ha nic is connected from server to server with a normal cable.

    i installed asg on both machines with 7.504

    when i try to create a active/passive both asg are online.

    when i shutdown the master, the slave wont take over, and the master starts up, but after a few minutes the asg shuts down.

    under status the asg master that was shutdown is dead.

    anyone ideas?

    regards,
    sebastian


    Hi Sebastian

    Dow did you get 7.504 HA configured and running on top of vSphere ?

    I try to set up 7.900 beta HA/Cluster with vSphere. Node1 is running well and node2 is also installed, but when I try to build an HA or cluster config (auto configuration), node1 recognises node2 (I can see node2 stats like cpu and disk from node1 HA menu) but after the first reboot of node2 (HA or cluster), node2 stops after activation of the HA nic (eth3) with status "waiting for STP (spanning tree protocol?)", stays there for about 3-5 mins and afterwards shuts down the VM.

    I can't get up an running HA/Cluster with vSphere because of this "waiting for STP" issue.

    Can you tell me, what I'm doing wrong ?

    Kind regards
    David
  • would be interested in help too!

    How did you the config of the second HA Server? just copied the runing config of the first?

    Regards Robert
  • I am also seeing this problem with two ASG vms in cluster mode, each on a separate phsyical VM node in a vmware cluster. I can setup the ASG cluster OK, and the initial sync works fine (so I am sure networking is OK). But when I restart the second node all I see in the primary node log is:

    2010:04:23-13:46:53 astaro1-1 ha_daemon[3551]: id="38A0" severity="info" sys="System" sub="ha" name="Access granted to remote node 2!"

    I see its status in the system status, but it does not show in "Status" tab, and the cluster node number never goes up to 2 like it should. It seems after rebooting a working cluster it breaks.

    UPDATE, after a while the second cluster node just powers itself down.
  • FYI, I found a solution, at least for my issue. According to what "da_merlin" says here ->
    https://community.sophos.com/products/unified-threat-management/astaroorg/f/102/t/69305 on first reboot of a node in a cluster setup if it detects gigabit ethernet it will set the MTU for the HA/cluster interface (eth2) to 2000. Which is incompatable with the virtualized e1000 driver you are using if using the vmware linux 32bit vm template. His solution is to fire both vms up and run "cc set ha advanced mtu 1500" on the cmd line on each. I was able to do that although had to be quick on the second wonky node as it wanted to reboot right away since things are messed. Once I ran that command on both units the cluster came back up properly and is now working 100%
  • His solution is to fire both vms up and run "cc set ha advanced mtu 1500" on the cmd line on each.


    It worked like a charm ! My 8.000 HA installation on ESX 4.1 is up, running and stable.

    Thanks for your hint