This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

All devices Offline

Hello

Just an hour ago, our provider changed a card on a device on our side. Not because it failed, but because it's new and better hard- and sowftware.

But since the replacement, ACC shows all devices as offline. Everything works fine again, except ACC.

Already rebooted ACC twice, nothing. Restarted ACC agent on two ASG's manually over WeAdmin, nothing. Even the Firewall which is connected to the same Network as the ACC is not able to connect to it.

First the ASG's showed "Login Successful" in the ACC message box. Now, it always shows "starting '/usr/sbin/acc-agent.plx'" (in meantime it also shows Successfull again sometimes). When trying to connect to the port 4433 of the ACC with telnet, it connects, but does not gives back anything. It's just hanging and hanging. Don't know if it should give back something when connecting with telnet.

Then wanted to connect with SSH, connection timeout... (But WebAdmin works just fine and fast)

Looked at the "Process List" in WebAdmin. "accd" is running at 60-95% (since 20 minutes now)

I think i remember, that i already had such a problem with ACC in the past, and just have to wait some time (maybe some hours). But that would be very bad on a productional system.

Here some output from the ACC client log on a firewall:
2010:10:21-07:38:12 fw20 device-agent[25901]: We are now connected (ip=11.12.13.14, port=4433).
2010:10:21-07:38:12 fw20 device-agent[25901]: (ec) Connection to remote ACC established.
2010:10:21-07:38:12 fw20 device-agent[25901]: Init iWatcher dropping file 0 '/etc/raid/status'.
2010:10:21-07:38:12 fw20 device-agent[25901]: Login complete.
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'weekly' -> 3600
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( weekly, 3600 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'monthly' -> 43200
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( monthly, 43200 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'yearly' -> 172800
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( yearly, 172800 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'daily' -> 900
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( daily, 900 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Done subscribing
2010:10:21-07:51:54 fw20 device-agent[25901]: Write failed after 510000 retries. Could not send data for over 1 Minute.
2010:10:21-07:52:55 fw20 device-agent[25901]: Write failed after 1020000 retries. Could not send data for over 2 Minutes.
2010:10:21-07:53:56 fw20 device-agent[25901]: Write failed after 1520000 retries. Could not send data for over 3 Minutes. Giving up.
2010:10:21-07:53:56 fw20 device-agent[25901]: >=========================================================================
2010:10:21-07:53:56 fw20 device-agent[25901]: RaiseError called. 'main'
2010:10:21-07:53:56 fw20 device-agent[25901]: 'acc-agent.pl'
2010:10:21-07:53:56 fw20 device-agent[25901]: 1384
2010:10:21-07:53:56 fw20 device-agent[25901]: .
2010:10:21-07:53:56 fw20 device-agent[25901]: 


07:38 was the last time i rebooted ACC.

After last reboot, the most of the ASG's were shown as online, maybe for 30 seconds or so, then all changed to offline.

Thanks for you help
Urs


This thread was automatically locked due to age.
  • Hi Hakan, 

    i had the symptoms as described: all ASGs offline and CPU of ACC @ 100%
    after the workarround CPU @ 5% and some AxGs offline as described in last post.

    on friday last week all AxGs where online in ACC. 
    On weekend one of our ASG120 was updated from 7.508 to 8.00x - i think since this update all systems where offline in ACC. This was not the first ASG V8 in ACC. there are other V8 Systems registered (fresh installed and updated)

    your questions: 

    CPU of ACCd is below 1%
    yes - i can ping the offline ASGs from ACC

    Regards Stefan
  • yes - i can ping the offline ASGs from ACC


    Does
     netstat --inet -apn

    show these devices connected with port 4433 on the ACC? Do you see traffic with these devices via tcpdump? Or do you see these devices sending requests in the accd log file (/var/log/accd.log)?

    Regards, Hakan
  • I had the same problem, 100% CPU on the ACC and no ASG's checking in.  Applied the patch and it's working now.
  • show these devices connected with port 4433 on the ACC

    - with netstat --inet -apn | grep :4433 only the ip's of the online devices are listed

    There are no entrys in packetfilterlog of ACC

    i have tried some things: 

    after disabling and enabling the central management on an "offline"ASG this device registers again in ACC and is now listed as online. i will try this with the other offline ASGs.

    i think problem is solved - thank you Hakan
  • i have now the most ASGs in ACC online again. 
    its enough to go to the ACC configuration page of an offline ASG, make an config-change (like disabling or enabling a feature) and save this with apply.
    the ASG reconnects then to the ACC and is shown as online

    what happening on configchange in the background? i think the ACC-Agent is restarted? so an restart of the accagent should also reconnect the ASG to the ASG?
  • i have now the most ASGs in ACC online again. 


    I'm pleased about this news although it is somewhat weird that you have needed to disable and enable the ACC status on the ASG. It is true that this restarts the device agent which then reconnects. 

    But this shouldn't be necessary since the agent should be running as long as the status is green on the "Central Management" site. And a running device agent always reconnects automatically with the ACC if there was any disconnection. You have seen this with the other devices which appeared online again automatically.

    Please inform us if this behaviour reoccurs.

    Regards, Hakan
  • Are there any news for an update to the ACC to include the fix mentioned in this thread?

    Ronny
  • I expect that ACC v2.202 will be release at end of december. I recommend to check up2date.astaro.com requently for further information about the release.
  • Thank you for this, finding that post made my day [:D]

    Patch your ACC - HowTo

    Login your ACC via SSH as 'root' and enter following commands - confirm each command with ENTER:

    cd /home/login/
    wget http://people.astaro.com/svogt/cm-chroot-accd-2.2-219.i686.rpm
    /var/mdw/scripts/accd stop
    rpm -Uvh --force cm-chroot-accd-2.2-219.i686.rpm
    /var/mdw/scripts/accd start
  • I expect that ACC v2.202 will be release at end of december. I recommend to check up2date.astaro.com requently for further information about the release.


    Thank you.

    Ronny