This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

[1.201] All firewalls OFFLINE

Today at about 2 PM within  one hour, seven of my ACC controlled system suddenly appeared as OFFLINE.

By manually controlling them via WebAdmin, everything was correct.
Systems were up and working fine.

All i can see in the remote system is something like this in DeviceAgentLog

*snip*
2006:07:31-17:09:04 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:14:12 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:19:21 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:24:30 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:29:39 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:34:50 (none) device-agent[4695]: connecting to 'My.ACC.IP.Adress' (SSL: 1)
*snip*

Tried to disable and re-enable ACC on the remote system.
After enabling it, WebAdmin hung aand was not reachable anymore

Anyone any idea ??


This thread was automatically locked due to age.
Parents
  • Hi Karsten,

    could you please post a snippet of /var/log/agent-manager.log from your ACC. You need to go command line for this at the moment as there is no logfile retrieval in ACC yet.

    You can test reachability and functionality of the agent-manager process on ACC with openssl from a remote system:

    $ openssl s_client -connect www.xxx.yyy.zzz:4433

    You should see some certificate chain information and a POST request at the end. After 10 seconds, the connection will be closed from the ACC. In the logfile mentioned above, you should see a line similiar to this one:

    2006:08:01-09:01:21 (none) agent-manager: CAgentSession::initialize() basic_ios::clear(iostate) caused exception ...

    If you get something like

    2006:08:01-09:01:21 (none) agent-manager: CAgentSession::start() SSL handshake error ...

    there is a communication error. As you've already tried to reconnect the device agent and it did not work out, you could restart the agent-manager on the ACC. You need command line (root) for that as well:

    # /etc/init.d/command-server stop
    # /etc/init.d/agent-manager restart
    # /etc/init.d/command-server start

    If you can afford the downtime, it's easier to just reboot the whole ACC.

    What happened at 2 PM? Did the respective ASGs reboot? How many ASGs are monitored with your ACC altogether? And how many have not been affected and are still shown as ONLINE?

    Thanks and regards,
    megaposer
  • Hi megaposer,

    thank you for quick and valuable response.
    Not in the office until tomorrow night.
    Will post you more detailed information asap.
Reply Children
No Data