This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

catastrophic lock-out, how to extract backup/recover

Hello,
i've just had the most STRANGE total system failur i've ever seen on a UTM, whilst i was checking some stuff on the webadmin(nothing on the interaces) i lose connection.
customer calls me they lost all internet access:
no ping to internal LAN IP(2 IPs)
no ping to BOTH WANs(two different NICs)
system is rebooted(gacefulk shutdown and restart) multiple time, nothing.

what i see is that TWO of the nics are "dropping" link every 2~ seconds for some time and then linking back up again, but they NEVER answer pings.

i logon to local console but i can't ping anything outside the box(no idea if i had the "ping from firewall" set or not), not even wan gateways.

dmesg is not showing the usual problem with intel nics that get hardware resetted(i disabled gro/gso/tso just in case, nothing).

funny thing is that the 3 nics in the box are totally different to prevent one driver bug to nuke the box:
an intel e1000 onboard for LAN
a realtek gigabit pcie for PPPoE ISP1
a 3com cyclone (905b) PCI for ethernet ISP2

checking ifconfig shows the interfaces cycling running to down(dmesg also shows ethx link up and down), the eth0 which belongs to the pppoe config "disappears" from ifconfig and then reappear when the pppoe link is established(which does get established and do get a proper wan ip), then it drops

needless to say this is now a critical thing, i've exhausted my ideas on where to look as it is quite widespread(going to try booting an ubuntu live to see if the nic drops, also swapping PSU).

the box is a intel DC5800 minitower which is quite a sturdy and reliable platform usually

box was running 9.204 since last week.

another question would be how to generate/extract a backup when i can't access the webadmin at all, or how can i swap a NIC WITHOUT reinstalling


This thread was automatically locked due to age.
  • Anything in the logs? 

    How to create a new backup from the command Line on Sophos UTM
    Restoring a Backup from Command Line

    A new backup could be suspect as could be the hardware.  Is it an option to swap the hardware, at least temporarily, to perform an autopsy on the malfunctioning system?

    Backup files still in /var/confd/var/storage/snapshots/ for 9.2?  (cfg*) 

    Quick tested copying to USB with UTM 9.113 - follow at your own risk:

    (insert USB flash drive, FAT32, with a few files to help verify it is mounted)

    Check dmesg for new disk and parition:

    utm9:/root # dmesg
    (edited down to the last/relevent lines)
    [1234560.472296] usb 5-6: new high-speed USB device number 2 using ehci-pci
    [1234560.607385] usb 5-6: New USB device found, idVendor=090c, idProduct=1000
    [1234560.607393] usb 5-6: New USB device strings: Mfr=1, Product=2, SerialNumber=3
    [1234560.607399] usb 5-6: Product: Flash Disk
    [1234560.607404] usb 5-6: Manufacturer: USB 2.0
    [1234560.607409] usb 5-6: SerialNumber: AA32000645008937
    [1234560.634029] Initializing USB Mass Storage driver...
    [1234560.636505] scsi4 : usb-storage 5-6:1.0
    [1234560.636690] usbcore: registered new interface driver usb-storage
    [1234560.636694] USB Mass Storage support registered.
    [1234561.637779] scsi 4:0:0:0: Direct-Access     USB 2.0  Flash Disk       1100 PQ: 0 ANSI: 0 CCS
    [1234561.638090] sd 4:0:0:0: Attached scsi generic sg1 type 0
    [1234561.642279] sd 4:0:0:0: [sdb] 3963904 512-byte logical blocks: (2.02 GB/1.88 GiB)
    [1234561.643464] sd 4:0:0:0: [sdb] Write Protect is off
    [1234561.643473] sd 4:0:0:0: [sdb] Mode Sense: 43 00 00 00
    [1234561.645189] sd 4:0:0:0: [sdb] No Caching mode page found
    [1234561.645197] sd 4:0:0:0: [sdb] Assuming drive cache: write through
    [1234561.650374] sd 4:0:0:0: [sdb] No Caching mode page found
    [1234561.650381] sd 4:0:0:0: [sdb] Assuming drive cache: write through
    [1234561.714402]  sdb: sdb1
    [1234561.719378] sd 4:0:0:0: [sdb] No Caching mode page found
    [1234561.719385] sd 4:0:0:0: [sdb] Assuming drive cache: write through
    [1234561.719393] sd 4:0:0:0: [sdb] Attached SCSI removable disk

    Mount /dev/sdb1 (may vary see orange highlight, above) as /mnt

    utm9:/root # mount /dev/sdb1 /mnt

    Sucess is silent, check /mnt for expected files on the USB device

    utm9:/root # ls /mnt/
    teched  test.txt

    Copy snapshots to the mounted USB device (rsync is one of many ways to do this)
    utm9:/root # rsync -av /var/confd/var/storage/snapshots /mnt/
    sending incremental file list
    snapshots/
    (shortened)

    sent n bytes  received n bytes  23373107.33 bytes/sec
    total size is n  speedup is 1.00

    Check files are now on the mounted USB device:
    utm9:/root # ls -l /mnt/snapshots/

    (file listing is expected output)
    unmount the USB filesystem:
    utm9:/root # umount /dev/sdb1
  • well i tested the hardware and it's working ok.
    log showed absolutely nothing

    furthermore, now that the SG210 hardware has arrived i restored a previous backup(saturday backup) and what do you know, ethernet interfaces stopped working....
    (if i move the lan out of eth0 it works, move it to eth0 and stops responding to ping, webadmin, anything)