This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

SG135 not connecting to SUM anymore

Hello Guys,

we are using SUM 4.300-4 with 9 Sophos SG Devices. The Setup was working like a treat and fine till 23th June. Only one Device now (SG135 - 9.312008) has problems and is not able to connect to the sum anymore. There was nothing changed in the setup.

Of course i tried the usual stuff, rebooting the SG135, rebooting the SUM, checking DNAT and FW Rules but nothing helped and everything is still fine regarding the setup and the other SGs. Also did an Update  to 9.313-3  but this didnt helped too.

Checking the Log File i found the following entries, the problem started 15:10:46 

2015:06:23-15:05:33 SWHFW01 device-agent[5513]:   Reporting 19 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:06:03 SWHFW01 device-agent[5513]:   Reporting 19 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:06:33 SWHFW01 device-agent[5513]:   Reporting 20 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:07:03 SWHFW01 device-agent[5513]:   Reporting 19 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:07:33 SWHFW01 device-agent[5513]:   Reporting 20 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:08:03 SWHFW01 device-agent[5513]:   Reporting 15 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:08:33 SWHFW01 device-agent[5513]:   Reporting 19 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:09:03 SWHFW01 device-agent[5513]:   Reporting 16 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:09:33 SWHFW01 device-agent[5513]:   Reporting 16 changes to accd (inotify: /etc/sysmond.ph).
2015:06:23-15:09:44 SWHFW01 device-agent[5513]:   Creating 'monthly' reporting data
2015:06:23-15:09:44 SWHFW01 device-agent[5513]:   reporting.change': monthly
2015:06:23-15:09:44 SWHFW01 device-agent[5513]:   /var/log/reporting/meta/0//memswap_monthly.ph does not exist. Continuing without it. (harmless)
2015:06:23-15:09:44 SWHFW01 device-agent[5513]:   /var/log/reporting/meta/0//disk_usage_monthly.ph does not exist. Continuing without it. (harmless)
2015:06:23-15:10:46 SWHFW01 device-agent[5513]:   [1] Write failed after 430000 retries. Could not send data for over 1 Minute.
2015:06:23-15:11:47 SWHFW01 device-agent[5513]:   [1] Write failed after 850000 retries. Could not send data for over 2 Minutes.
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   [1] Write failed after 1280000 retries. Could not send data for over 3 Minutes. Giving up.

2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Syswrite has returned an undefined result: "No such file or directory" writing data to socket.
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   out_buffer not empty. flushing...
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Creating 'weekly' reporting data
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   reporting.change': weekly
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   /var/log/reporting/meta/0//memswap_weekly.ph does not exist. Continuing without it. (harmless)
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   /var/log/reporting/meta/0//disk_usage_weekly.ph does not exist. Continuing without it. (harmless)
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Creating 'daily' reporting data
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   reporting.change': daily
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   /var/log/reporting/meta/0//memswap_daily.ph does not exist. Continuing without it. (harmless)
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   /var/log/reporting/meta/0//disk_usage_daily.ph does not exist. Continuing without it. (harmless)
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Not reporting inotify: no role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   timer2 -> module 1 not executing: denied by role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   timer2 -> module 2 not executing: denied by role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   timer2 -> module 3 not executing: denied by role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   timer2 -> module 4 not executing: denied by role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   timer2 -> module 5 not executing: denied by role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   timer2 -> module 6 not executing: denied by role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   timer2 -> module 7 not executing: denied by role
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   1 is not connected. Trying to connect
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   Updating SUM IP address for path: acc/server1/server
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   [1] Connecting to SUM (ip=***.***.***.***, port=4433).
2015:06:23-15:12:48 SWHFW01 device-agent[5513]:   [1] Using SUM SSL connection.
2015:06:23-15:12:53 SWHFW01 device-agent[5513]:   [1] SUM connection failure, retrying (ip=***.***.***.***, port=4433). SSL-connect: 'IO::Socket::INET6 configuration failed'
2015:06:23-15:12:59 SWHFW01 device-agent[5513]:   [1] SUM connection failure, retrying (ip=***.***.***.***, port=4433). SSL-connect: 'IO::Socket::INET6 configuration failed'
2015:06:23-15:13:00 SWHFW01 device-agent[5513]:   [1] Connection failed (ip=***.***.***.***, port=4433).



Do you have any ideas, what the problem could be?

Thanks a lot in advance.

Regards

Peter


This thread was automatically locked due to age.
  • Have you tried removing objects and disabling Central Management on the UTM, then deleting any entry for this UTM on the SUM?  Then try re-enabling Central Management on the UTM.  

    Check that the SUM Host information on the UTM is correct.  Anything upstream of the UTM that may be blocking the connection?

    Check the thread at https://community.sophos.com/products/unified-threat-management/astaroorg/f/54/t/40875, a couple of possible solutions related to host definitions.
    __________________
    ACE v8/SCA v9.3

    ...still have a v5 install disk in a box somewhere.

    http://xkcd.com
    http://www.tedgoff.com/mb
    http://www.projectcartoon.com/cartoon/1
  • removing objects is the only thing which i didnt try so far. but yes i disabled central managemnt rebooted, and activated it again, but same problem.

    nothing blocked, neither on the sg135 nor on our sg315 where the sum is behind. i can see the connection attempts and the matched dnat rule in the firewall log on our sg315.

    yes i read the thread already, but as i said, all other 8 utms are working like a treat and the setup of SUM Host defintion using a DNS Host is correct. i really dont understand why it worked for month and now there is a big issue.

    since the sg135 isnt already in productive use, maybe i will do a reset and restore the backup, if the deleting object procedure is not working too.
  • Anything in the SUM log for connections from that UTM?  It can be found from the shell at /var/log/accd.log

    maybe i will do a reset and restore the backup, if the deleting object procedure is not working too
    Please let us know how it goes.
    __________________
    ACE v8/SCA v9.3

    ...still have a v5 install disk in a box somewhere.

    http://xkcd.com
    http://www.tedgoff.com/mb
    http://www.projectcartoon.com/cartoon/1
  • 1. i deleted all objects everywhere, and tried again - same error
    2. then i did a reset of our sg135 and restored a backup before the issue started. same error.
    3. then i did a restore on the sum-manager with a backup before the issue started, the sg135 connected once, but then got disconnected again (last contact 10:18:59)

    in the accd.log there no hints too [:(]

    also changed the dns host object of the sum on the sg135 to a static host object, interface  also with the wan uplink interface happens the same.
  • Now i restored the entire SUM VM from our backup, same issue.

    After using the PING tools from the SG135, i cant ping the external IP Adress of the SUM. From any other 8 SGs we have outside, it is possible.

    This drives me crazy!
  • Have you inlucded all local networks (interfaces) in masquerading?
  • yes i did

    i can ping 8.8.8.8 but not our external mx-server and not the sum server
  • i think i should check again on our main SG310, it seems i have an idea.

    keeping you posted...
  • any ideas why the firewall log from our main SG310 gots flodded with this nat matches?

    again only this SG135 with 188.x.x.x.x which trys to connect to the sum but is not successful, but for me the nat rule looks correct, and it still works with the other SGs and it also worked one week ago
  • now i found the issue, when i disconnect our secound wan uplink (KDG100) it works without any problems:

    Main SG315 has 2 Uplink Interfaces:
    1 x MNet 10 (static IP) - SUM through 2nd static IP
    1 x KDG100 - Cable (dynamic IP)  188.x.x.x.  For Internet Only

    SG135 has 1 Uplink Interface:
    1 x KDG100 - Cable (dynamic IP)  188.x.x.x

    But since the KDG100 on the Main SG315 gots a new IP Adress which is now in the same subnet and also using the same remotegateway as the KDG100 Connection on the SG135, they always want to connect this way, because it is the shortest. Thats why my Multipath Rules (Sophos Web Admin and SNMP) are not working anymore too just for this device.