This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

All devices Offline

Hello

Just an hour ago, our provider changed a card on a device on our side. Not because it failed, but because it's new and better hard- and sowftware.

But since the replacement, ACC shows all devices as offline. Everything works fine again, except ACC.

Already rebooted ACC twice, nothing. Restarted ACC agent on two ASG's manually over WeAdmin, nothing. Even the Firewall which is connected to the same Network as the ACC is not able to connect to it.

First the ASG's showed "Login Successful" in the ACC message box. Now, it always shows "starting '/usr/sbin/acc-agent.plx'" (in meantime it also shows Successfull again sometimes). When trying to connect to the port 4433 of the ACC with telnet, it connects, but does not gives back anything. It's just hanging and hanging. Don't know if it should give back something when connecting with telnet.

Then wanted to connect with SSH, connection timeout... (But WebAdmin works just fine and fast)

Looked at the "Process List" in WebAdmin. "accd" is running at 60-95% (since 20 minutes now)

I think i remember, that i already had such a problem with ACC in the past, and just have to wait some time (maybe some hours). But that would be very bad on a productional system.

Here some output from the ACC client log on a firewall:
2010:10:21-07:38:12 fw20 device-agent[25901]: We are now connected (ip=11.12.13.14, port=4433).
2010:10:21-07:38:12 fw20 device-agent[25901]: (ec) Connection to remote ACC established.
2010:10:21-07:38:12 fw20 device-agent[25901]: Init iWatcher dropping file 0 '/etc/raid/status'.
2010:10:21-07:38:12 fw20 device-agent[25901]: Login complete.
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'weekly' -> 3600
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( weekly, 3600 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'monthly' -> 43200
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( monthly, 43200 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'yearly' -> 172800
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( yearly, 172800 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'daily' -> 900
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( daily, 900 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Done subscribing
2010:10:21-07:51:54 fw20 device-agent[25901]: Write failed after 510000 retries. Could not send data for over 1 Minute.
2010:10:21-07:52:55 fw20 device-agent[25901]: Write failed after 1020000 retries. Could not send data for over 2 Minutes.
2010:10:21-07:53:56 fw20 device-agent[25901]: Write failed after 1520000 retries. Could not send data for over 3 Minutes. Giving up.
2010:10:21-07:53:56 fw20 device-agent[25901]: >=========================================================================
2010:10:21-07:53:56 fw20 device-agent[25901]: RaiseError called. 'main'
2010:10:21-07:53:56 fw20 device-agent[25901]: 'acc-agent.pl'
2010:10:21-07:53:56 fw20 device-agent[25901]: 1384
2010:10:21-07:53:56 fw20 device-agent[25901]: .
2010:10:21-07:53:56 fw20 device-agent[25901]: 


07:38 was the last time i rebooted ACC.

After last reboot, the most of the ASG's were shown as online, maybe for 30 seconds or so, then all changed to offline.

Thanks for you help
Urs


This thread was automatically locked due to age.
Parents
  • "accd" is running a 95% all the time on one core, not 60-95%.
  • Hi Whity,

    this is a known problem of the latest accd. The reason why all devices appear offline is the high cpu usage. A restart of the accd sometimes helps but is not a lasting solution.

    We have analyzed the problem and have already a patch which should be released soon.

    Regards, Hakan
  • We have been having the same problem.

    Our ACC is running on a dedicated IBM server.

    At one point we rebuilt the ACC from the latest ISO in case there was some issue with the previous uptodate.

    We have made all sorts of adjustments to the config with Astaro support, but not resolved it yet.

    The only way I can get the thing on line is to apply a back up and it all starts to work for a few hours.

    Generally the latest back up does not work!

    The ACC is not under heavy load.
  • Thanks for the info Hakan.

    Hope the update will come very soon. We need ACC to work and it's useless with this bug.
  • @Whity:
    If it is urgent and if you can provide our support with ssh access we could install the patch before it is released.

    @Healingbreeze:
    The main symptom of the problem is the high cpu usage. Can you please check the cpu usage of the accd process.

    Regards, Hakan
  • I know it is weird but I have a backup that fixes the problem for a while and then it all goes off line.

    When it is offline the CPU is at 51%

    At the  moment it is online with 9%-12% of CPU in use and all devices online and 23% of 4GB RAM.

    Christoph in support has been dealing with me and you have aceess by SSH and webadmin so please do whatever you need to.

    I was going to revert to an earlier iso image today as we rely so much on the ACC to service our customers.
  • Yes, the installation of the patch would be great. i will send you the temp login to acc-support mail address. Access is restriced to your IP range i know from earlier support.
Reply Children
No Data