This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

All devices Offline

Hello

Just an hour ago, our provider changed a card on a device on our side. Not because it failed, but because it's new and better hard- and sowftware.

But since the replacement, ACC shows all devices as offline. Everything works fine again, except ACC.

Already rebooted ACC twice, nothing. Restarted ACC agent on two ASG's manually over WeAdmin, nothing. Even the Firewall which is connected to the same Network as the ACC is not able to connect to it.

First the ASG's showed "Login Successful" in the ACC message box. Now, it always shows "starting '/usr/sbin/acc-agent.plx'" (in meantime it also shows Successfull again sometimes). When trying to connect to the port 4433 of the ACC with telnet, it connects, but does not gives back anything. It's just hanging and hanging. Don't know if it should give back something when connecting with telnet.

Then wanted to connect with SSH, connection timeout... (But WebAdmin works just fine and fast)

Looked at the "Process List" in WebAdmin. "accd" is running at 60-95% (since 20 minutes now)

I think i remember, that i already had such a problem with ACC in the past, and just have to wait some time (maybe some hours). But that would be very bad on a productional system.

Here some output from the ACC client log on a firewall:
2010:10:21-07:38:12 fw20 device-agent[25901]: We are now connected (ip=11.12.13.14, port=4433).
2010:10:21-07:38:12 fw20 device-agent[25901]: (ec) Connection to remote ACC established.
2010:10:21-07:38:12 fw20 device-agent[25901]: Init iWatcher dropping file 0 '/etc/raid/status'.
2010:10:21-07:38:12 fw20 device-agent[25901]: Login complete.
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'weekly' -> 3600
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( weekly, 3600 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'monthly' -> 43200
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( monthly, 43200 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'yearly' -> 172800
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( yearly, 172800 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Creating Watcher (timer) for 'daily' -> 900
2010:10:21-07:38:12 fw20 device-agent[25901]: _create_time_watcher: Event->timer( daily, 900 )
2010:10:21-07:38:12 fw20 device-agent[25901]: Done subscribing
2010:10:21-07:51:54 fw20 device-agent[25901]: Write failed after 510000 retries. Could not send data for over 1 Minute.
2010:10:21-07:52:55 fw20 device-agent[25901]: Write failed after 1020000 retries. Could not send data for over 2 Minutes.
2010:10:21-07:53:56 fw20 device-agent[25901]: Write failed after 1520000 retries. Could not send data for over 3 Minutes. Giving up.
2010:10:21-07:53:56 fw20 device-agent[25901]: >=========================================================================
2010:10:21-07:53:56 fw20 device-agent[25901]: RaiseError called. 'main'
2010:10:21-07:53:56 fw20 device-agent[25901]: 'acc-agent.pl'
2010:10:21-07:53:56 fw20 device-agent[25901]: 1384
2010:10:21-07:53:56 fw20 device-agent[25901]: .
2010:10:21-07:53:56 fw20 device-agent[25901]: 


07:38 was the last time i rebooted ACC.

After last reboot, the most of the ASG's were shown as online, maybe for 30 seconds or so, then all changed to offline.

Thanks for you help
Urs


This thread was automatically locked due to age.
Parents
  • Please ignore that line "chown: changing ownership of `/tmp/sh': No such file or directory"

    Finally start your ACC: /var/mdw/scripts/accd start
  • Hi friends,

    same problem for me since long time. I was informed about this thread in one of the last technical workshop on astaro. I´ve download an test it now for 2 weeks without problems.

    For documentation:
    By me i have only the "crash" when connected an v8.002 to the acc v2.2. If the central management was disabled on this versions of maschines, the acc works without problems.

    cu

  • By me i have only the "crash" when connected an v8.002 to the acc v2.2. If the central management was disabled on this versions of maschines, the acc works without problems.


    This is correct. The problem occurs with V8.002 machines only. It is fixed with the ACC rpm which is linked in this thread. And the problem does not occur with V7 ASGs and ASGs with beta V8.055 or later.
  • i have aplied the patch as described - and all ASG V8, AMG V7 and AWG V7 Devices are online again
    but all my ASG 7.50x devices stay offline

    any succestions?
Reply Children
  • Hi potsdam,

    this is strange since we didn't observed this in the context of the problem discussed in this thread.

    You may have encountered a different problem. The main symptom of the problem here is that all devices are shown offline though the problem was originally caused by a V8 device. Furthermore the accd process then has a cpu usage about 100 %.

    Could you please check the cpu usage of the accd process and could you please ensure whether the respective devices are reachable from the ACC by pinging them?

    Regards, Hakan
  • Hi Hakan, 

    i had the symptoms as described: all ASGs offline and CPU of ACC @ 100%
    after the workarround CPU @ 5% and some AxGs offline as described in last post.

    on friday last week all AxGs where online in ACC. 
    On weekend one of our ASG120 was updated from 7.508 to 8.00x - i think since this update all systems where offline in ACC. This was not the first ASG V8 in ACC. there are other V8 Systems registered (fresh installed and updated)

    your questions: 

    CPU of ACCd is below 1%
    yes - i can ping the offline ASGs from ACC

    Regards Stefan
  • yes - i can ping the offline ASGs from ACC


    Does
     netstat --inet -apn

    show these devices connected with port 4433 on the ACC? Do you see traffic with these devices via tcpdump? Or do you see these devices sending requests in the accd log file (/var/log/accd.log)?

    Regards, Hakan
  • I had the same problem, 100% CPU on the ACC and no ASG's checking in.  Applied the patch and it's working now.
  • show these devices connected with port 4433 on the ACC

    - with netstat --inet -apn | grep :4433 only the ip's of the online devices are listed

    There are no entrys in packetfilterlog of ACC

    i have tried some things: 

    after disabling and enabling the central management on an "offline"ASG this device registers again in ACC and is now listed as online. i will try this with the other offline ASGs.

    i think problem is solved - thank you Hakan
  • i have now the most ASGs in ACC online again. 
    its enough to go to the ACC configuration page of an offline ASG, make an config-change (like disabling or enabling a feature) and save this with apply.
    the ASG reconnects then to the ACC and is shown as online

    what happening on configchange in the background? i think the ACC-Agent is restarted? so an restart of the accagent should also reconnect the ASG to the ASG?
  • i have now the most ASGs in ACC online again. 


    I'm pleased about this news although it is somewhat weird that you have needed to disable and enable the ACC status on the ASG. It is true that this restarts the device agent which then reconnects. 

    But this shouldn't be necessary since the agent should be running as long as the status is green on the "Central Management" site. And a running device agent always reconnects automatically with the ACC if there was any disconnection. You have seen this with the other devices which appeared online again automatically.

    Please inform us if this behaviour reoccurs.

    Regards, Hakan