This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

[1.201] All firewalls OFFLINE

Today at about 2 PM within  one hour, seven of my ACC controlled system suddenly appeared as OFFLINE.

By manually controlling them via WebAdmin, everything was correct.
Systems were up and working fine.

All i can see in the remote system is something like this in DeviceAgentLog

*snip*
2006:07:31-17:09:04 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:14:12 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:19:21 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:24:30 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:29:39 (none) device-agent[4695]: trying to fetch 'webadmin_port' from ewc/settings->global
2006:07:31-17:34:50 (none) device-agent[4695]: connecting to 'My.ACC.IP.Adress' (SSL: 1)
*snip*

Tried to disable and re-enable ACC on the remote system.
After enabling it, WebAdmin hung aand was not reachable anymore

Anyone any idea ??


This thread was automatically locked due to age.
Parents
  • Hi Karsten,

    could you please post a snippet of /var/log/agent-manager.log from your ACC. You need to go command line for this at the moment as there is no logfile retrieval in ACC yet.

    You can test reachability and functionality of the agent-manager process on ACC with openssl from a remote system:

    $ openssl s_client -connect www.xxx.yyy.zzz:4433

    You should see some certificate chain information and a POST request at the end. After 10 seconds, the connection will be closed from the ACC. In the logfile mentioned above, you should see a line similiar to this one:

    2006:08:01-09:01:21 (none) agent-manager: CAgentSession::initialize() basic_ios::clear(iostate) caused exception ...

    If you get something like

    2006:08:01-09:01:21 (none) agent-manager: CAgentSession::start() SSL handshake error ...

    there is a communication error. As you've already tried to reconnect the device agent and it did not work out, you could restart the agent-manager on the ACC. You need command line (root) for that as well:

    # /etc/init.d/command-server stop
    # /etc/init.d/agent-manager restart
    # /etc/init.d/command-server start

    If you can afford the downtime, it's easier to just reboot the whole ACC.

    What happened at 2 PM? Did the respective ASGs reboot? How many ASGs are monitored with your ACC altogether? And how many have not been affected and are still shown as ONLINE?

    Thanks and regards,
    megaposer
  • Hi megaposer,

    at the moment monitoring 12 ASLs, 7 were disconnected.
    Internet was available.

    strange thing, 
    log file from 2006-07-30 is empty
    log file from 2006-07-31 has nothing before 3PM [:S]

    2006:07:31-15:35:19 (none) agent-manager: CCommandSession::receive() device is offline because of a disconnect, cannot execute (device.setSystemCmUserSso/client RPC request) (10410) on dispatching request 
    2006:07:31-17:12:20 (none) agent-manager: CAgentSessionRpcHandler::getConfigurationDevice() basic_ios::clear(iostate) caused exception on device.getConfigurationDevice 
    2006:07:31-17:12:20 (none) agent-manager: CAgentSession::refresh() agent has disconnected 
    2006:07:31-17:15:09 (none) agent-manager: CAgentSessionRpcHandler::getConfigurationDevice() basic_ios::clear(iostate) caused exception on device.getConfigurationDevice 
    2006:07:31-17:15:09 (none) agent-manager: CAgentSession::refresh() agent has disconnected 
    2006:07:31-17:19:58 (none) agent-manager: CAgentSessionRpcHandler::getConfigurationDevice() basic_ios::clear(iostate) caused exception on device.getConfigurationDevice 
    2006:07:31-17:19:58 (none) agent-manager: CAgentSession::refresh() agent has disconnected 
    2006:07:31-17:33:02 (none) agent-manager: CAgentSessionMonitoringMethod::getMonitoringCapabilityRefresh() basic_ios::clear(iostate) caused exception on request device guid (1/7)
    2006:07:31-17:33:02 (none) agent-manager: CAgentSessionMonitoringMethod::getMonitoringRefresh() agent has disconnected (10410) on checking shared capability monitoring data for 90123456-677a-464f-8e37-5606173b4c78
    2006:07:31-17:33:02 (none) agent-manager: CAgentSession::refresh() agent has disconnected 
    2006:07:31-17:38:53 (none) agent-manager: CAgentSessionRpcHandler::getConfigurationDevice() basic_ios::clear(iostate) caused exception on device.getConfigurationDevice 
    2006:07:31-17:38:53 (none) agent-manager: CAgentSession::refresh() agent has disconnected 

    Restart next day brought the systems back.

    Another thin i mentioned was this:
    I logged in to one of the OFFLINE systems and disabled ACC.
    Then re-enabled and selected proper device....
    ... WebAdmin hung and was no more accessible !!
    Firewall was still up and fine, but WebAdmin needed restart.
    After restarting our ACC and re-enabling in the firewall, everything worked fine.
  • Hi Karsten,

    thanks for posting the logfile dump. I have a suspicion regarding the cause of this issue but we need to reproduce it first which could be a bit difficult.

    Some more questions:

    Are the 7 devices which turned offline in ACC ...
    - connected via dynamic IPs and have a periodic DSL reconnect?
    - of version ASL V5.2 instead of ASG V6.3?

    Thanks and have a nice weekend.

    Cheers and regards,
    Henning
  • Hi megaposer,

    Hi Karsten,

    thanks for posting the logfile dump. I have a suspicion regarding the cause of this issue but we need to reproduce it first which could be a bit difficult.

    Some more questions:

    Are the 7 devices which turned offline in ACC ...
    - connected via dynamic IPs and have a periodic DSL reconnect?
    nope, all with static IPs, and at least ADSL 1,5MBit/160kBit
    - of version ASL V5.2 instead of ASG V6.3?
    all are version 6.3xx, despite two which are on 6.106/6.203 at the moment

    Thanks and have a nice weekend.

    Cheers and regards,
    Henning


    I'm in the office today, so will keep it open today all day and see what's going on.
Reply
  • Hi megaposer,

    Hi Karsten,

    thanks for posting the logfile dump. I have a suspicion regarding the cause of this issue but we need to reproduce it first which could be a bit difficult.

    Some more questions:

    Are the 7 devices which turned offline in ACC ...
    - connected via dynamic IPs and have a periodic DSL reconnect?
    nope, all with static IPs, and at least ADSL 1,5MBit/160kBit
    - of version ASL V5.2 instead of ASG V6.3?
    all are version 6.3xx, despite two which are on 6.106/6.203 at the moment

    Thanks and have a nice weekend.

    Cheers and regards,
    Henning


    I'm in the office today, so will keep it open today all day and see what's going on.
Children
No Data