This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

AP30's disconnecting all wireless clients

I've been having issues with my Astaro AP30's disconnecting all the wireless clients on the network. It seemed to start happening around v8.203 and I have never had this issue before (been using the AP30's since they were released). 

I currently have 3 SSID's (all using WPA2 Personal). Two are Bridge to LAN (Client isolation off). The third is a guest network that is isolated on a separate VLAN. When this issue happens it cripples all three.

So I did some searching on the forums and found some problems that were kind of similar but with no solutions yet. I opened a ticket with Astaro and they told me they couldn't help because I was a home license (even though I bought roughly $500 worth of hardware from them).

I have tried using the up2date package that upgrades the Astaro to v8.300 but since I have done that it has gotten way worse.

It looks as if the clients are getting disconnected because of some WPA issues? All the clients can see the wireless network but can't connect. For example if I try and reconnect on my iPhone it keeps asking for the password and it never accepts it. Also due to this wireless clients can't get a DHCP IP. There also seems to be no exact time this happens, but I have been seeing it happen roughly once or twice every 12 or so hours.

I have pinged both AP30's during the issue with no timeouts and all pings are under 1ms.

I have turned on awed debugging via the following method:
/var/mdw/scripts/awed stop
awed.plx --debug


See the log attached for a small portion of the log (it's 65MB as it happened last in the middle of the night). The beginning of this log file is when the problem started. It continues on until 10am in the morning (when I fixed it).

The only thing that seems to fix it (temporarily) is either a reboot (power cycle) of the AP's or a stop/start of awed.

This whole issue is annoying as I spent good money for these AP30's thinking they were reliable and right now they are worthless.

Has anyone else been experiencing these issues? Are there any fixes currently for this or is there an ETA for a fix?

Any help or information would be much appreciated! Thanks!


This thread was automatically locked due to age.
wireless_log_debug_on.zip
  • Ok, for the time being as a temporary workaround I added this to the crontab

    0 0,5,12,18 * * * /var/mdw/scripts/awed restart


    Which should restart awed every 6 or so hours (with some minor time adjustments, based off of when the wireless is not used as much)

    I'm really hoping a fix is found for this soon, as even with this workaround it kicks wireless clients off. But at least now it will start back up without me having to manually intervene.
  • Support is separate from hardware purchases, it also covers warranty on the device for as long as you have an active support agreement.

    As for the issue you are experiencing, is the DHCP for the Wireless Access Points provided by the Astaro Security Gateway? If this is not the case, please make sure that the APs are receiving a DHCP lease from the ASG.

    Are you using the Intrusion Prevention System on your ASG? If so, I would recommend that you add an exception for the network that you have the APs connected from for all the checks as the IPS can interfere with communication to your APs.
  • Both AP's are receiving a static mapped DHCP IP from the ASG that they are communicating with (I have no other DHCP server on the network). I noticed the problem when they were getting IP's from the DHCP lease pool. So when I first started noticing the issue I statically mapped them to IPs (outside of the lease pool) hoping that fixed the issue. It did not.

    Ok, good suggestion. I added an exception for source and destination of the AP's IPs to be skipped for all IPS rules. Although it looks more like a WPA handshake issue... but I could see how IPS could block the communication of the AP's to the ASG, especially if the ASG is providing the processing power for the WPA encryption.
  • Now I'm getting a strange issue where one AP30 stopped accepting clients where the other one is still working? Both AP30's are showing as active in ASG and both AP30's are responding normally to pings.

    This leads me to believe that it may be a bug in the AP30's firmware?
  • Hi,
    I have similar setup to you except using an AP30 and AP10. I am not experiencing any of the issues you describe.
    AP30 (POE) -> ASUS switch (priority port) -> ASUS switch -> ASG
    AP10 -> Netgear switch -> Belkin EOP -> ASUS switch ->ASG
    ASG uses an Intel pro 1000 NIC.

    Let us try for some debugging info, because you didn't supply much in the way of connectivity details.

    1/. How are the APs connected to the ASG?
    2/. what are the devices that are faiing?
    3/. how long are the lease times on your dhcp server?
    4/. what sort of NIC do your APs connect to the ASG through?

    Ian M

    XG115W - v20.0.2 MR-2 - Home

    XG on VM 8 - v21 GA

    If a post solves your question please use the 'Verify Answer' button.

  • Hi,
    I have similar setup to you except using an AP30 and AP10. I am not experiencing any of the issues you describe.
    AP30 (POE) -> ASUS switch (priority port) -> ASUS switch -> ASG
    AP10 -> Netgear switch -> Belkin EOP -> ASUS switch ->ASG
    ASG uses an Intel pro 1000 NIC.

    Let us try for some debugging info, because you didn't supply much in the way of connectivity details.

    1/. How are the APs connected to the ASG?
    2/. what are the devices that are faiing?
    3/. how long are the lease times on your dhcp server?
    4/. what sort of NIC do your APs connect to the ASG through?

    Ian M


    The reason why I don't think it's connectivity issues is this setup runs perfectly with older Astaro software versions. I was running it fine for about a year with no connectivity changes. When I upgraded to v8.203 I started seeing the issues and since then v8.3 is worse (was hoping for a fix in v8.3). Also constant pings to the AP30's durring their issues shows no request time outs. But non the less here are the answers to your questions:

    1. AP30 (POE) -> Astaro POE Inserter -> HP ProCurve 1800-24G Switch -> ASG (This is the same connectivity scheme used for the other AP30. Each AP30 has it's own power inserter.)

    2. The AP30's. They stop accepting clients but the SSID's are still broadcasting. Sometimes both go down and other times only one of them goes down. The blue lights on the AP30's (that are experiencing the issue) only show the LAN light occasionally blinking. The other blue lights are on solid. The logs show a bunch of WPA failures right when they go down and after that nothing but "send msg" entries. If a iPhone 4 client attempts to reconnect at this time, they are presented with a WPA password screen. When they enter it successfully it just prompts again for the password. On Windows it just fails to connect to the wireless if you attempt to connect. Also during the problem, in the "Access Points" section of the Wireless Security area in ASG; it shows both AP's as active. The versions from the log are:

    2012:01:01-00:00:04 Firewall awed[17355]: Awed version 1.4.2.57.2.19 starting
    2012:01:01-00:00:04 Firewall awed[17355]: access point firmware available: AP10:2013 AP50:2013 AP30:2013


    3. DHCP lease time I believe is the default. Which is currently set at "86400".

    4. The Astaro's NIC is a server grade Intel EXPI9404PTLBLK PT Quad Port NIC. And the LAN interface connects to one of these ports, the LAN port is the same port the AP30's communicate on. So if there was a connectivity issue on this port it would effect Internet access as well.

    Thanks for your help and information! Let me know if you need further clarification.
  • After upgrading, one of my customers had to power cycle his AP nine times before it finally straightened itself out.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • After upgrading, one of my customers had to power cycle his AP nine times before it finally straightened itself out.

    Cheers - Bob


    I have power cycled the AP30's probably around 5 or 6 times over this last week and have cycled awed at least 30 times (taking into account my cron cmd also)


    Speaking of which, I just cycled awed a few minutes ago and the wireless already died. Sometimes it lasts for hours other times it goes down a few minutes after cycling awed. :Sigh:

    I'll try cycling the AP30's power a few more times. Thanks
  • Hi RedTechie,
    your fault description sounds a like a problem a number of us had during the v8.2b. That was fixed though. When the fix was applied as part of the beta, the recommendation from memory was to leave the APs powered off for about a minute after the ASG was upgraded. Then to reconnect them.

    How many AP30s do you have?

    Sorry, I have runout of ideas to test.

    Ian

    XG115W - v20.0.2 MR-2 - Home

    XG on VM 8 - v21 GA

    If a post solves your question please use the 'Verify Answer' button.

  • Hi RedTechie,
    your fault description sounds a like a problem a number of us had during the v8.2b. That was fixed though. When the fix was applied as part of the beta, the recommendation from memory was to leave the APs powered off for about a minute after the ASG was upgraded. Then to reconnect them.

    How many AP30s do you have?

    Sorry, I have runout of ideas to test.

    Ian


    Ok, I gave your suggestion a shot. 

    Procedure: 
    1. I turned off my cron schedule
    2. Unplugged the power from both AP's POE inserters
    3. Re-cycled awed
    4. After 5 minutes plugged the power back in to both AP's (one at a time, while monitoring the wireless live log).

    Interesting thing I noticed, while watching the live log. The first AP30 I plugged in gave a bunch of kernel/sysint type log entries, when the second AP30 I plugged in didn't. The second AP30 just showed that ASG found a new connection for the second AP's IP.

    Here is the log from the first AP30 start up, which didn't happen on the second AP30 startup:
    2012:01:01-18:47:24 floor1 sysinit: rm: can't remove '/var/run/hostapd-*.maclist': No such file or directory
    2012:01:01-18:47:25 floor1 sysinit: 192.168.1.1 = 192.168.1.1
    2012:01:01-18:47:25 floor1 kernel: [ 16.820000] device eth0 entered promiscuous mode
    2012:01:01-18:47:25 floor1 kernel: [ 16.820000] br-lan: port 1(eth0) entering forwarding state
    2012:01:01-18:47:25 floor1 kernel: [ 16.820000] br-lan: port 1(eth0) entering forwarding state
    2012:01:01-18:47:25 floor1 sysinit: Interface type not supported.
    2012:01:01-18:47:26 floor1 kernel: [ 17.450000] cfg80211: Calling CRDA for country: US
    2012:01:01-18:47:26 floor1 sysinit: Usage: iw [options] phy  set antenna  | all |  
    2012:01:01-18:47:26 floor1 sysinit: Set a bitmap of allowed antennas to use for TX and RX.
    2012:01:01-18:47:26 floor1 sysinit: The driver may reject antenna configurations it cannot support.
    2012:01:01-18:47:26 floor1 sysinit: Options:
    2012:01:01-18:47:26 floor1 sysinit: --debug enable netlink debugging
    2012:01:01-18:47:26 floor1 kernel: [ 17.990000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 0 - CWmin: 3, CWmax: 4, Aifs: 2, TXop: 102.
    2012:01:01-18:47:26 floor1 kernel: [ 17.990000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 1 - CWmin: 4, CWmax: 5, Aifs: 2, TXop: 188.
    2012:01:01-18:47:26 floor1 kernel: [ 17.990000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 2 - CWmin: 5, CWmax: 10, Aifs: 3, TXop: 0.
    2012:01:01-18:47:26 floor1 kernel: [ 17.990000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 3 - CWmin: 5, CWmax: 10, Aifs: 7, TXop: 0.
    2012:01:01-18:47:26 floor1 kernel: [ 18.090000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 0 - CWmin: 3, CWmax: 4, Aifs: 2, TXop: 102.
    2012:01:01-18:47:26 floor1 kernel: [ 18.090000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 1 - CWmin: 4, CWmax: 5, Aifs: 2, TXop: 188.
    2012:01:01-18:47:26 floor1 kernel: [ 18.090000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 2 - CWmin: 5, CWmax: 10, Aifs: 3, TXop: 0.
    2012:01:01-18:47:26 floor1 kernel: [ 18.090000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 3 - CWmin: 5, CWmax: 10, Aifs: 7, TXop: 0.
    2012:01:01-18:47:26 floor1 kernel: [ 18.100000] device wlan0 entered promiscuous mode
    2012:01:01-18:47:27 floor1 kernel: [ 19.150000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 0 - CWmin: 2, CWmax: 3, Aifs: 1, TXop: 47.
    2012:01:01-18:47:27 floor1 kernel: [ 19.150000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 1 - CWmin: 3, CWmax: 4, Aifs: 1, TXop: 94.
    2012:01:01-18:47:27 floor1 kernel: [ 19.150000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 2 - CWmin: 4, CWmax: 6, Aifs: 3, TXop: 0.
    2012:01:01-18:47:27 floor1 kernel: [ 19.150000] phy0 -> rt2x00mac_conf_tx: Info - Configured TX queue 3 - CWmin: 4, CWmax: 10, Aifs: 7, TXop: 0.
    2012:01:01-18:47:28 floor1 kernel: [ 19.370000] device red0.100 entered promiscuous mode
    2012:01:01-18:47:28 floor1 kernel: [ 19.370000] device red0 entered promiscuous mode
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: Regulatory domain changed to country: US
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: (start_freq - end_freq @ bandwidth), (max_antenna_gain, max_eirp)
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: (2402000 KHz - 2472000 KHz @ 40000 KHz), (300 mBi, 2700 mBm)
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: (5170000 KHz - 5250000 KHz @ 40000 KHz), (300 mBi, 1700 mBm)
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: (5250000 KHz - 5330000 KHz @ 40000 KHz), (300 mBi, 2000 mBm)
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: (5490000 KHz - 5600000 KHz @ 40000 KHz), (300 mBi, 2000 mBm)
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: (5650000 KHz - 5710000 KHz @ 40000 KHz), (300 mBi, 2000 mBm)
    2012:01:01-18:47:28 floor1 kernel: [ 19.460000] cfg80211: (5735000 KHz - 5835000 KHz @ 40000 KHz), (300 mBi, 3000 mBm)
    2012:01:01-18:47:28 floor1 kernel: [ 19.960000] br-red100: port 2(red0.100) entering learning state
    2012:01:01-18:47:28 floor1 kernel: [ 19.960000] br-red100: port 2(red0.100) entering learning state
    2012:01:01-18:47:28 floor1 kernel: [ 19.960000] br-red100: port 1(wlan0) entering learning state
    2012:01:01-18:47:28 floor1 kernel: [ 19.960000] br-red100: port 1(wlan0) entering learning state
    2012:01:01-18:47:30 floor1 kernel: [ 21.380000] device wlan0 left promiscuous mode
    2012:01:01-18:47:30 floor1 kernel: [ 21.380000] br-red100: port 1(wlan0) entering learning state
    2012:01:01-18:47:30 floor1 kernel: [ 21.510000] device wlan0 entered promiscuous mode
    2012:01:01-18:47:30 floor1 kernel: [ 21.510000] br-red100: port 1(wlan0) entering learning state
    2012:01:01-18:47:30 floor1 kernel: [ 21.510000] br-red100: port 1(wlan0) entering learning state
    2012:01:01-18:47:30 floor1 kernel: [ 21.750000] device wlan1 entered promiscuous mode
    2012:01:01-18:47:30 floor1 kernel: [ 21.750000] br-lan: port 2(wlan1) entering forwarding state
    2012:01:01-18:47:30 floor1 kernel: [ 21.750000] br-lan: port 2(wlan1) entering forwarding state
    2012:01:01-18:47:30 floor1 kernel: [ 21.990000] device wlan2 entered promiscuous mode
    2012:01:01-18:47:30 floor1 kernel: [ 21.990000] br-lan: port 3(wlan2) entering forwarding state
    2012:01:01-18:47:30 floor1 kernel: [ 21.990000] br-lan: port 3(wlan2) entering forwarding state 


    Not sure if this type of behavior is normal or not. Regardless I will monitor the status of the wireless and see if the problem persists.


    Another idea I had is to turn off the 5Ghz band on both AP's. But I will try that after this test.

    To answer your question, I have two AP30's.

    Thanks for your help!