This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

AP30's disconnecting all wireless clients

I've been having issues with my Astaro AP30's disconnecting all the wireless clients on the network. It seemed to start happening around v8.203 and I have never had this issue before (been using the AP30's since they were released). 

I currently have 3 SSID's (all using WPA2 Personal). Two are Bridge to LAN (Client isolation off). The third is a guest network that is isolated on a separate VLAN. When this issue happens it cripples all three.

So I did some searching on the forums and found some problems that were kind of similar but with no solutions yet. I opened a ticket with Astaro and they told me they couldn't help because I was a home license (even though I bought roughly $500 worth of hardware from them).

I have tried using the up2date package that upgrades the Astaro to v8.300 but since I have done that it has gotten way worse.

It looks as if the clients are getting disconnected because of some WPA issues? All the clients can see the wireless network but can't connect. For example if I try and reconnect on my iPhone it keeps asking for the password and it never accepts it. Also due to this wireless clients can't get a DHCP IP. There also seems to be no exact time this happens, but I have been seeing it happen roughly once or twice every 12 or so hours.

I have pinged both AP30's during the issue with no timeouts and all pings are under 1ms.

I have turned on awed debugging via the following method:
/var/mdw/scripts/awed stop
awed.plx --debug


See the log attached for a small portion of the log (it's 65MB as it happened last in the middle of the night). The beginning of this log file is when the problem started. It continues on until 10am in the morning (when I fixed it).

The only thing that seems to fix it (temporarily) is either a reboot (power cycle) of the AP's or a stop/start of awed.

This whole issue is annoying as I spent good money for these AP30's thinking they were reliable and right now they are worthless.

Has anyone else been experiencing these issues? Are there any fixes currently for this or is there an ETA for a fix?

Any help or information would be much appreciated! Thanks!


This thread was automatically locked due to age.
wireless_log_debug_on.zip
  • (See my first post for an example of the logs during an outage)

    Basically, All wireless clients disconnect from the problematic AP (sometimes it's both AP's, sometimes one or the other). During this time the wireless activity light is just solid with very occasional blinks. If you try to reconnect to the AP's that are affected by this issue during the outage it asks you for the wireless password. I enter in the password and it just keeps asking me (at least that's what I noticed on iOS devices).


    Thanks for the info. The log indeed shows WPA handshake failures but this is no indication for a crypto bug. It seems more likely that the AP is dropping (or somehow losing) the EAPOL frames and thus never gets an answer back from the clients. As a result the client is asking for the passphrase again and again since it cannot establish a secured connection.

    Could you please observe if the kindle fire somehow increases chances to trigger the problem. If it does I'd buy one for internal testing ASAP.

    Second, I could prepare a special firmware containing much more debug output in the suspicious places. That might help to find the root cause triggering this issue. If you like to try that please drop me a note to helmut.schaa@sophos.com.

    Thanks for your patience,
    Helmut
  • Thanks for the info. The log indeed shows WPA handshake failures but this is no indication for a crypto bug. It seems more likely that the AP is dropping (or somehow losing) the EAPOL frames and thus never gets an answer back from the clients. As a result the client is asking for the passphrase again and again since it cannot establish a secured connection.

    Could you please observe if the kindle fire somehow increases chances to trigger the problem. If it does I'd buy one for internal testing ASAP.

    Second, I could prepare a special firmware containing much more debug output in the suspicious places. That might help to find the root cause triggering this issue. If you like to try that please drop me a note to helmut.schaa@sophos.com.

    Thanks for your patience,
    Helmut


    Thanks Helmut for this detailed analysis! Regarding the mention of crypto errors in the log. I wasnt sure if EAPOL msgs were part of encryption or not, so i said encryption mismatch. But what you mentioned is accurate of my problem. 

    Well, needless to say it wasn't just the kindle fire like i thought. I told the kindle fire to forget all the astaro APs and to connect to a AT&T hotspot only; but the problem still happened when the kindle wasn't connected.

    I would be more than happy to help debug this issue with a more verbose firmware! The problem dosn't take to long to surface without the awed restart script running and with all the mobile devices we have. I'll send you an email now.
  • Hoping to see a solution to this.

    I have an AP10 resetting up a few times a day.

    Previously it required a power cycle but since a recent firmware update it appears to be coming back within a minute.

    However, it can go a day or two without restarting or reset 7 times a day.

    I can see when this happens by looking for... low-level recv error: sysread failed  ... in the log.

      Tom

       Tom
  • I'm still in communication with Helmut on this issue.

    He gave me the AP firmware from ASG v9 beta over a week ago and so far.... no issues! He told me that they have made a number of improvements and bug fixes in the v9 beta AP firmware. He also told me that it MAY cause more issues as it hasn't been tested with ASG v8... but so far everything is operating better then it was with the v8 AP firmware! [:D]


    I would ask Helmut for more details on getting this firmware and instructions on how to install it. As I doubt I am allowed to publicly post it on the forums... Correct me if I'm wrong Helmut?
  • I just sent an email to Helmut asking if I or he can post the v9 beta AP firmware here. 

    If not you may need to contact him directly via email. Like I said almost 2 weeks now with no drops after manually pushing this firmware out to my AP30's! [:)]
  • @RedTechie:  The v9 backport wouldn't be able to be posted, as he mentioned it has not been tested rigorously.  Thank you for asking though.
    __________________
    ACE v8/SCA v9.3

    ...still have a v5 install disk in a box somewhere.

    http://xkcd.com
    http://www.tedgoff.com/mb
    http://www.projectcartoon.com/cartoon/1
  • Hoping to see a solution to this.

    I have an AP10 resetting up a few times a day.

    Previously it required a power cycle but since a recent firmware update it appears to be coming back within a minute.

    However, it can go a day or two without restarting or reset 7 times a day.

    I can see when this happens by looking for... low-level recv error: sysread failed  ... in the log.

       Tom


    Not sure if this issue is related, looks more like the control connection between AP and ASG is getting dropped. The question is why but I'd suggest to put this into a new thread and add your wireless.log that shows some of these disconnects for further analysis.

    Thanks,
    Helmut
  • I just sent an email to Helmut asking if I or he can post the v9 beta AP firmware here. 

    If not you may need to contact him directly via email. Like I said almost 2 weeks now with no drops after manually pushing this firmware out to my AP30's! [:)]


    I wouldn't recommend using the v9 firmware with v8 in general. in RedTechie's case I wasn't able to find a root cause based on the wireless logfiles and thus using the v9 fw was just a shot in the dark.

    So, in case someone wants to try the v9 firmware I'd suggest to just use the current v9 beta instead.

    Thanks,
    Helmut
  • I have the same Issue with my AP30....
    ASG Version 8.305

    I have two Networks. One Guest Network and one that is Bridged in the AP lan.
    Suddenly the two networks offline. After 30-60 Seconds both Networks online..

    is there already a solution?

    Sry my english isnt good [;)]
  • I have the same Issue with my AP30....
    ASG Version 8.305

    I have two Networks. One Guest Network and one that is Bridged in the AP lan.
    Suddenly the two networks offline. After 30-60 Seconds both Networks online..

    is there already a solution?

    Sry my english isnt good [;)]


    I had this too in the past - especially with large transfers (moving videos over the air). In my case it made things better, that I activated QoS with the "download equalizer" option only checked on the Interface(s), where the AP's are connected. My personal guess is, that the "random early detection" queuing in this option seems to help to keep the management connection between AP's and ASG more stable - especially under load.

    I guess, the helpful feature in the automagic "download equalizer" feature in this case is the RED ( http://www.opalsoft.net/qos/DS-26.htm ), as the IF bandwith usually is not saturated (where SFQ would become helpful ( http://opalsoft.net/qos/DS-25.htm )).

    In my eyes Random early detection should be active per default on every ASG / SpohosUTM, and the download equalizer should add the SFQ only...

    BTW: My guess is absolutely unscientific, as it bases on personal testing experience, and not monitoring queues and packet drops on the UTM's console ;o)

    /Sascha