This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

IPSec site to site throughput

Situation - My group hosts 'private clouds' for a few clients. We are looking to migrate away from several Cisco devices for various reasons. The main one is bandwidth limitations. For this example we'll take two data centers where we have gigabit service. With no firewalls in place between two fully exposed VMs, we can obtain around 850Mb/s with reasonable stability over several hours. We stood up two virtual UTMs v9.315-2. Each UTM is on the same physical hardware where we achieve 850Mb/s. Hyper-V 2012R2 is the VM host. Each UTM is allocated 4.5GB mem, 150GB HDD, 4 cores of dual hex core 2.5Ghz Xeons.

Problem - Throughput of a tunnel between these two VMs achieves about 150Mb/s.

--Only the firewall is active, no other items such as IPS.
--Support path MTU discovery is on (both sides)
--Rulez have been reviewed and followed where applicable. This setup is fairly basic so most are not a factor.
--Nothing odd in logs
--Intel NICs on one end
--Broadcom NICs on other end
--CPU utilization is at 4% or so when we are hitting the 150Mb/s peak with about 80Mb/s stable.
--MTU between 1350-1500 tried in increments of 50. 1500 seems to give best performance.
--Testing with a 50GB file, CIFS and FTP

I called Sophos for some pre-sales tech support since we were considering becoming a reseller to our private cloud clients. They tell me their support is only for break-fix, no pre-sales.

Just for kicks, we stood up a couple TMG images and we acheived about 650Mb/s without any effort beyond a quick base config.

Our ideal target would be 800/Mbs but we are a long way from there at this point and may be on the wrong path. 

We are open to all input and have looked through many performance threads but most are for lower bandwidth allocations. 

Is it likely two SG 135's (or SG 210s) could achieve 800Mb/s in this given scenario? If we are fighting VM/NIC issues then we'll give that a try, however this doesn't fit as well into our all VM model and HA requires more hardware.


This thread was automatically locked due to age.
  • Hi, BMan, and welcome to the User BB!

    Did you see in Rule #7.h the recommendation NOT to use "an Intel 82574 based NIC due to bugs from Intel that aren't fixed - the 210 series is good?"  Since this is virtual, I don't think that should apply.  Which virtual NICs are you using?

    If disabling Intrusion Prevention seems to solve the problem, re-enable it and try an Exception in both UTM instances for traffic between the two subnets.  Any luck with that?

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Thanks for responding.

    --I did see/heed #7. We are using an Intel 82576 chipset NIC. 
    --I asked about the 210s in lieu of the VMs. If they could realistically achieve what we are trying to accomplish then we'd have to purchase quite a few and rethink our current HA plans. This would still keep Sophos in the mix.
    --Hyper-V is a little different than VMWare regarding NICs. You can't select a 'model' to expose. It's either external (bound to a physical NIC) and two other types providing intra-host communication which do not factor in. We are using external.
    --As mentioned we have absolutely nothing turned on such as IPS so it is not a factor.



    Hi, BMan, and welcome to the User BB!

    Did you see in Rule #7.h the recommendation NOT to use "an Intel 82574 based NIC due to bugs from Intel that aren't fixed - the 210 series is good?"  Since this is virtual, I don't think that should apply.  Which virtual NICs are you using?

    If disabling Intrusion Prevention seems to solve the problem, re-enable it and try an Exception in both UTM instances for traffic between the two subnets.  Any luck with that?

    Cheers - Bob
  • We were fairly focused on communication in one direction...
    Basically the primary DC to our secondary DC. We just tested the other direction (2nd DC to prim DC) across the UTM tunnel and it tops out at around 1Mbps, averaging 800Kbps. I should have mentioned, when testing our 1Gbps between DCs we were stable in both directions on this hardware at 850Mbs or so. We are at a loss.
  • If you've searched here, you know that this problem is always associated with a "hardware" issue of some sort, even if it's a VM issue.  I would urge you to contact Sophos sales directly, inform them that you're in a 30-day trial and ask for Pre-Sales Support.  There are some excellent engineers in that position.

    That said, there are other items recorded in the Intrusion Prevention log, so be sure to check there.  I assume from the precision of your starting post that you've already run ifconfig or some other tool to determine that there's no problem with the virtual NICs.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Bob - Your recommendation was my first course of action. I contacted Sophos looking for pre-sales tech support. A case number was assigned, then when I interacted with support, it was stated they do not offer pre-sales support. I was surprised and of course put off, but figured my group and I are fairly technical and have been at this for 19 yrs dealing with enterprise class firewalls and such that we could probably work it out.
    Yesterday afternoon my lead architect and I decided to see if the product could really meet our needs and see where throughput may be going wrong so we constructed a 'lab' on a dual hex core Xeon box with 192GB ram and is stuffed full of SSDs in RAID10. 
    --Hyper-V 2012 R2 host with latest KBs applied
    --2 Win 2012 R2 VMs created
    --2 Sophos UTM VMs created
    --Each machine 4GB, 4 cores, 150GB disk
    --3 internal NICs created - These are virtual NICs so type of NIC should not be a factor
    -- Tested transfer rates between two Win VMs on internal NICs. Sustained 550MB/s. Not hardware maximums but plenty of room for a 100MB/s transfer which is what our target is.
    -- Win1 --> Sop1  Sop2 
  • When looking for CPU bottlenecks look at each core individually.

    An observation from prior firewall testing (multiple brands, multiple models):

    Many throughput numbers are the sum of multiple simultaneous connections and not the maximum (or even typical) performance for a single connection.
  • teched - 
    No processor was above 25% with no encryption or AES 256. We didn't bother to look during other tests.

    In our application we are almost solely concerned about 'single connection' performance since we are replicating machines between data centers. When you want to transfer a large VM between DCs, it is going to be one large file from one machine/SAN.
    In our Cisco (ex: 5515-x stated 250Mbps and we get about 244 on a single connection) experience there was minimal degradation between single/multiple connections, however I agree we have seen this degradation with many other products. Our Cisco issue was the overall low cap so we started exploring other possibilities.
  • BMan, there's a vulnerability in AES 256.   I've moved all of my clients to AES 128 PFS.

    There's more than just Snort recorded in the Intrusion Prevention log - have you looked there?

    The way to get to pre-sales support is to go through Sophos Sales.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Thanks for input!
    We tend to use what our clients prefer/require. Most are on AES 128 PFS, but some with HIPAA think AES 256 is a requirement so we config for that as well.

    IPS is not active. Kept log open through our testing, nothing populated there on retest.

    I have had more interaction with sales but no support has occurred yet.
  • Did you ever find a solution to this performance concern? We are experiencing almost identical numbers. We've seen 400 Mbits/s across tunnels, but with minimal events, this number seems to drop to 1-20Mbits/s every time for us and stay there. 

     

    We noticed disabling compression was required to maintain any sort of reliable bandwidth. 

     

    The only observation I will add is; we appeared to see great numbers on naked instances before touching any of the IPS/ATP/Botnet protections. Enabling them even with exclude lists tanked performance. Disabling them and restarting instances did *not* restore performance.