This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

UTM restarting randomly, reason unknown

Our school has a Sophos UTM 320 that has been rock-solid up until about a month ago.

Starting that time, the system began rebooting randomly.
System was restarted
Reason: (unknown)

I notified our reseller, and their technicians (and Sophos technicians) have supposedly connected to the unit and not found any issues. We swapped our the hardware a week ago to see if it was hardware related, but the issue persists. They said that they can't find anything in the logs that indicate a problem.

The UTM is connected to a UPS that is shared with other equipment, and we aren't having issues with anything else.

The issue seems to be happening more often (2-3 times a day sometimes).

Can anyone point me in the right direction? Are there particular log files I should be looking at.

Incidentally, I've also noticed that some of our application control rules seem to stop taking effect, and then I have to toggle them off and back on in the web interface for them to start working again. I don't know if this is at all related.

Any help/direction is greatly appreciated!


This thread was automatically locked due to age.
  • Isolate the power if at all possible.  Make sure all grounding and other connections are good.  (Isolate all problems if at all possible.)

    Pour over the logs.  Attempt to establish a pattern.

    Attach a monitor and keyboard to the UTM and watch (or record).

    Consider ask support for assistance in disabling automatic reboots for kernel panics.  If the system is panicking and rebooting then it should panic and halt giving you a chance to see the error on screen.  Intervention (reboot/powercycle) will be required to restart the UTM.

    Did you test the old unit prior to returning it?  Did you test the new unit prior to installing it?  I know the timeline for receiving, replacing and returning units can be hasty.
  • I had an sg210 doing this right after my upgrade to 9.2x33.  Once i unplugged the wisp cable it settled down.  I had the wisp reset their gear and the rebooting stopped.

    Owner:  Emmanuel Technology Consulting

    http://etc-md.com

    Former Sophos SG(Astaro) advocate/researcher/Silver Partner

    PfSense w/Suricata, ntopng, 

    Other addons to follow

  • I would also look here: /var/storage/cores
    And the logs in /var/logs/
    I'd be tempted to look at all logs for that timeframe, but system.log and fallback.log first.
  • Same problem. Log files system and fallback was helpfull.
    system.log:
    2015:09:10-20:18:00 fw01 [daemon:info] cssd[25659]:  [     (nil)] saviscanner_init (saviscanner.c:35) ERROR: Failed to initialise SAVI engine: One of the files in a split-virus data set could not be located [0x8004022d]
    
    2015:09:10-20:18:00 fw01 [daemon:info] cssd[25659]:  [     (nil)] main (cssd.c:354) unable to initialize Sophos virus scanner, exiting
    2015:09:10-20:18:30 fw01 [daemon:info] cssd[25892]:  [     (nil)] main (cssd.c:335) starting up...
    2015:09:10-20:18:30 fw01 [daemon:info] cssd[25892]:  [     (nil)] read_config (cssd.c:115) reading config
    2015:09:10-20:18:30 fw01 [daemon:info] cssd[25892]:  [     (nil)] main (cssd.c:352) initializing Sophos virus scanner engine


    fallback.log:
    2015:09:10-05:16:00 fw01 postgres[8429]: [3-1] ERROR:  could not find block containing chunk 0xb1e78d30Sep 10 05:16:00 postgres[8429]: [3-2] CONTEXT:  automatic analyze of table "reporting.public.accounting"
    
    2015:09:10-05:16:09 fw01 postgres[8429]: [4-1] ERROR:  compressed data is corrupt
    2015:09:10-05:16:09 fw01 postgres[8429]: [4-2] CONTEXT:  automatic analyze of table "reporting.public.websec_visits"


    Still restarting at morning at 6:43 and 7:33.
    email notifications:
    WebAdmin webserver not running - restarted
    System was restarted Reason: (unknown)

    New logs:
    SYSTEM.LOG:

    2015:09:11-07:20:01 fw01 /usr/sbin/cron[8993]: (root) CMD (   /usr/local/bin/reporter/system-reporter.pl)
    
    2015:09:11-07:20:01 fw01 /usr/sbin/cron[8994]: (root) CMD (/var/mdw/scripts/pmx-blocklist-update)
    2015:09:11-07:24:01 fw01 /usr/sbin/cron[9117]: (httpproxy) CMD (/var/chroot-http/usr/bin/virus_sample_uploader -p /var/chroot-http)
    2015:09:11-07:25:01 fw01 /usr/sbin/cron[9143]: (root) CMD (   /usr/local/bin/reporter/system-reporter.pl)
    2015:09:11-07:25:24 fw01 postgres[9188]: [3-1] ERROR:  could not find block containing chunk 0xb25a5b30Sep 11 07:25:24 postgres[9188]: [3-2] CONTEXT:  automatic analyze of table "reporting.public.accounting"
    2015:09:11-07:26:23 fw01 postgres[9197]: [3-1] ERROR:  could not find block containing chunk 0xb243cb70Sep 11 07:26:23 postgres[9197]: [3-2] CONTEXT:  automatic analyze of table "reporting.public.accounting"
    2015:09:11-07:27:24 fw01 postgres[9215]: [3-1] ERROR:  could not find block containing chunk 0xb1c79570Sep 11 07:27:24 postgres[9215]: [3-2] CONTEXT:  automatic analyze of table "reporting.public.accounting"
    2015:09:11-07:28:24 fw01 postgres[9241]: [3-1] ERROR:  could not find block containing chunk 0xb2fc3c70Sep 11 07:28:24 postgres[9241]: [3-2] CONTEXT:  automatic analyze of table "reporting.public.accounting"
    2015:09:11-07:29:23 fw01 postgres[9255]: [3-1] ERROR:  could not find block containing chunk 0xb1f2dd30Sep 11 07:29:23 postgres[9255]: [3-2] CONTEXT:  automatic analyze of table "reporting.public.accounting"
    2015:09:11-07:30:01 fw01 /usr/sbin/cron[9289]: (root) CMD (/var/mdw/scripts/pmx-blocklist-update)
    2015:09:11-07:30:01 fw01 /usr/sbin/cron[9291]: (root) CMD (   /usr/local/bin/reporter/system-reporter.pl)


    nothing interesting in FALLBACK.LOG


    Mato B.
  • this is most likely a power issue.  move the ups and utm to a dedicated circuit.  I had this issue as well.  The utm does not normally just restart unless there is a serious hardware problem or power problem.

    Owner:  Emmanuel Technology Consulting

    http://etc-md.com

    Former Sophos SG(Astaro) advocate/researcher/Silver Partner

    PfSense w/Suricata, ntopng, 

    Other addons to follow

  • I agree with William.  Move to another spot and get an electrician out there ASAP.  You might have a life-threatening problem with your wiring.  It may be OK, but it's not something to leave unchecked.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA