This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Battling DNS Issues on UTM9

I have been fighting DNS issues on my UTM9 (SG310 on 9.315-2) for several weeks and it is driving me crazy.  I am hoping someone might be able to help since no one else that I've had look at the issue is able to figure this out.  We seem to be having DNS issues and the high latency on requests is slowing down internet traffic (particularly to google-based sites).  We are a school of about 1200 users and I have been testing and changing network, AD, and firewall configurations for weeks trying to get DNS responses to be faster.  I have found that during the times when students are in class and using their laptops then we have more inconsistent connectivity testing results with many DNS errors or high latency warnings.  I am referring to general network usage, not high bandwidth usage times.  Sophos resources are in the teens for CPU and memory during these times.  I have settled on the chrome extension called Connectivity Diagnostics as it seems to do a nice range of tests and specifically tests google sites.  I also have had a Fortinet firewall installed alongside the Sophos with test VLAN traffic running through the Fortinet.  Through my many many tests and configuration changes I have learned this – 

1. If a client runs through the Fortinet and uses an external DNS (google/opendns/etc) on their Ethernet adapter then the diagnostics do not fail. [Fortinet client + external DNS = OK]
2. If a client runs through the Fortinet but uses a local AD DNS server that runs through the Sophos then I will get inconsistent results with slow DNS resolution and HTTP latency test errors. [Fortinet client + local DNS on Sophos = slow]
3. If a client runs through Fortinet and the local AD DNS runs through Fortinet then the diagnostics do not fail. [Fortinet client + local DNS on Fortinet = OK]
4. If a client runs through the Sophos but uses local AD DNS that runs through Fortinet then results are mostly good. [Sophos client + local DNS on Fortinet = mostly OK]
5. If a client runs through the Sophos and uses local AD DNS on Sophos then slow DNS resolution and other latency errors.  Very slow at times particularly when network usage is high (not necessarily bandwidth usage).  [Sophos client + local DNS on Sophos = very slow]

I have used the Sophos best practice document for Sophos DNS config, tweaking guides DNS configs, and the recent suggestions by jalil1408 on this forum (https://community.sophos.com/products/unified-threat-management/astaroorg/f/53/t/34929) but nothing seems to give me the same result as when I run through the Fortinet.  I have a run Any -> DNS -> Any in place and have turned off as many services as I can.  We really only do Firewall, Intrusion Prevention, and Web Filtering right now.  I have even turned off the last two and still get slow response times.  I restarted the firewall last night with no success and have cleaned up AD and my local DNS servers.  The fact that they run fine when going out the Fortinet makes me feel pretty confident that internally I am running ok.  What else in the Sophos would be slowing down browsing so much?  I have a few test results from the diagnostics program added below in case they are helpful.  Please let me know what questions you have and thanks for any help!!

From - "Chrome Connectivity Diagnostics": 
https://chrome.google.com/webstore/detail/chrome-connectivity-diagn/eemlkeanncmjljgehlbplemhmdmalhdc?utm_source=gmail

SUMMARY
Test Name: Resolver Latency Test       Test ID: 8         Test result: Problem detected
CRITERIA
Average DNS resolution time (ms) benchmark above which a problem verdict is rendered: 500
DETAILS
Thu Sep 24 2015 14:50:46 GMT-0400 (Eastern Daylight Time) - Attempting to resolve hostname #: 0 ruhtcpoz-ccd-testing-v4.metric.gstatic.com
Thu Sep 24 2015 14:51:15 GMT-0400 (Eastern Daylight Time) - Total DNS resolution time for all tests (ms): 26913
Thu Sep 24 2015 14:51:15 GMT-0400 (Eastern Daylight Time) - Total DNS hosts resolved: 3
Thu Sep 24 2015 14:51:15 GMT-0400 (Eastern Daylight Time) - Average DNS resolution time (ms): 8971


This thread was automatically locked due to age.
  • Not much help but I've seen similar weirdness with DNS on the older models.  Specifically, the UTM 220.  Mainly, those units were not powerful enough to deal with the amount of traffic there was advertised as being able to handle (not with 2GB of RAM...no sir).

    Buy "runs through" I assume you mean you are using the Sophos UTM as a DNS proxy, i.e. internal hosts, including AD uses the Sophos UTM for DNS resolution to the Internet and the Sophos UTM uses external public DNS servers (i.e. Google or OpenDNS)?

    You can try configuring a small subset of user/computers to use the Sophos UTM DNS proxy and see how it works.  If it works well, just as using the Fortigate, you can try adding more and see were the tipping point is.  That could indicate resources issues on the SG310, i.e. it may be unable to handle what's being thrown at it.
  • Not much help but I've seen similar weirdness with DNS on the older models.  Specifically, the UTM 220.  Mainly, those units were not powerful enough to deal with the amount of traffic there was advertised as being able to handle (not with 2GB of RAM...no sir).


    Sophos support and my Fortinet guy both thought the same at first, but on paper the device seems sized for my number of users.  As well, the CPU and memory never seem to indicate the device is stressed although I know that's not the only measure.  One other item that makes me think it's not hardware is that when 30-40% of my traffic is redirected through the Fortinet then I still see the same slowness when kids are in class.  The fact that I am seeing any difference between in-class time and when kids change classes does make me wonder why the additional network usage makes things slow down.

    Buy "runs through" I assume you mean you are using the Sophos UTM as a DNS proxy, i.e. internal hosts, including AD uses the Sophos UTM for DNS resolution to the Internet and the Sophos UTM uses external public DNS servers (i.e. Google or OpenDNS)?


    I have tried using UTM as DNS proxy for my AD users and internal DNS and I've tried pointing clients to AD DNS then AD DNS to public DNS, but it doesn't seem to matter.  I've run things like namebench to test a variety of public DNS options but none change the results.  Certain recommended DNS configs (Sophos best practice vs forum post1 vs forum post2) seem to suggest a variety of DNS routes as "best", but none seem to work for me. (BTW, I was using the term "runs through" to mean my internet gateway is either the Sophos or Fortinet rather than referring to runs through DNS.  Fortinet seems to handle DNS differently and is less dependent on it for good performance.)

    You can try configuring a small subset of user/computers to use the Sophos UTM DNS proxy and see how it works.  If it works well, just as using the Fortigate, you can try adding more and see were the tipping point is.  That could indicate resources issues on the SG310, i.e. it may be unable to handle what's being thrown at it.


    At this point I have run subsets of users in a ton of different configs and not found anything that is consistent except not using the Sophos.  The Sophos is so clearly a problem that I can test with a subset of one client and immediately see the difference (unless overall network usage is low and then all seems mostly fine).

    Thanks for the comments!
  • Hi, Jason, and welcome to the User BB!

    You may be referring to the DNS Best Practice document on the KnowledgeBase that someone copied from my post of the same name that I maintain here.  I just added #7 to that yesterday:

    If you consistently have "connection to server timed out" issues and ECN is not selected ('Advanced' tab of 'QoS'), empty 'Allowed networks' in #1 and in #6, configure the internal DNS server to bypass the UTM. I suspect this is caused by a problem at the ISP.


    Please let us know if that's successful.

    What are the WAN up/downlink speeds connected to the 310?  Can you tie these difficulties to times when the pipe either way might be full?

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • Thanks BAlfson.  Yes, I have tried your suggestions from your thread and also the Sophos Best Practice guide (https://www.sophos.com/en-us/support/knowledgebase/120283.aspx) from their KB.  I am currently running with #1 (referencing your post order) empty and #5 no longer points to the UTM.  I have not noticed much difference when pointing internal DNS to the UTM or not and have also tried allowing only DNS servers and then the whole network on #1 with no luck.

    As for down/up speeds, we are currently 100Mbps/20Mbps and there is no correlation to slow DNS resolution and bandwidth for down or up.  We rarely hit the limits on either lately.  I also monitor the LAN switches and don't seem to see anything unusual.  My Fortinet goes between the same core switch then to the same ISP switch as my Sophos so I feel like I would not be able to have such clean results with the Fortinet if LAN or ISP traffic issues were occurring.

    I talked to Sophos today and they are running a script now which is supposed to monitor the hardware activity during the school day Monday and make sure my device is sized correctly for what we are doing.  I have to think that it is since the Fortinet is quite a bit older and seems fine and also because offloading a good portion of my traffic to the Fortinet does not seem to help the problem much.

    I hope there is a log file somewhere that can give their tech support some insight into the issue.  I will update this thread if I learn anything new on Tuesday when I talk to Sophos again.    Thanks!
  • From your description, Jason, it sounds like Support won't find anything with atop, but it doesn't hurt to try.  At least you will learn whether you need to try using QoS.

    The one thing I would suggest is avoiding speed/duplex negotiation between the 310 and your ISP's equipment.  Ask them to set their device to 100BaseT/Full.  You do the same for that NIC on the 'Hardware' tab of 'Interfaces'.

    I just realized that it was #6, not #5 that it was important to change.  I've corrected the posts.

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • From your description, Jason, it sounds like Support won't find anything with atop, but it doesn't hurt to try.  At least you will learn whether you need to try using QoS.

    The one thing I would suggest is avoiding speed/duplex negotiation between the 310 and your ISP's equipment.  Ask them to set their device to 100BaseT/Full.  You do the same for that NIC on the 'Hardware' tab of 'Interfaces'.

    I just realized that it was #6, not #5 that it was important to change.  I've corrected the posts.

    Cheers - Bob


    Thanks for the tip on the port speed - I've emailed my ISP and learned a new trick with the ethtool command to see what speed I am connected at (100 Full rather than 1000 unfortunately).

    For others, to find the current connection speed of your port > SSH to the firewall, login as loginuser, enter "su" (no quotes), enter the root password, type "ethtool eth#" (no quotes and # should be replaced with the number of the port you want to check e.g. eth1)
  • Sophos tech support just emailed and said the SG310 is sized incorrectly and they only recommend around 250 users on this device.  Looking at the specs compared to a Fortigate 300D that I ran at my last school with 1500+ users, the SG310 seems totally capable.  Other techs also looked during previous support calls and said I was fine. I did do a firmware update a few weeks back and that seems to be close to a time when things were getting slower, but I can't imagine what other processes they are trying to add that would make using the firewall so painful.  Anyone have experience with the sizing recommendations being on target?  I worry Sophos support will stop trying to help since I have an "undersized device".
  • What does your reseller say about this situation, Jason?  Have they been involved with your tech support issues?

    Cheers - Bob
     
    Sophos UTM Community Moderator
    Sophos Certified Architect - UTM
    Sophos Certified Engineer - XG
    Gold Solution Partner since 2005
    MediaSoft, Inc. USA
  • What does your reseller say about this situation, Jason?  Have they been involved with your tech support issues?


    I am contacting the reseller today because, as I feared, Sophos support has closed the case and said they cannot help with the issue since my device is incorrectly sized.  The tech suggested I MIGHT have better performance if I went back to 9.2 firmware, but warned there were many bug fixes that I would miss out on.  Rolling back the firmware is not an option for me anyhow since I am not going to be stuck on old firmware for the remaining two years of my support contract.  I will see what the reseller says and go from there.  I'll update if new hardware fixes the issue or if the reseller has an amazing configuration solution. Thanks!
  • In my opinion, SG310 is definitely undersized.

    Fortinet has ASIC (Application-Specific Integrated Circuit) implemented, it is not that easy to compare this two products based on plain hardware specifications.