This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Battling DNS Issues on UTM9

I have been fighting DNS issues on my UTM9 (SG310 on 9.315-2) for several weeks and it is driving me crazy.  I am hoping someone might be able to help since no one else that I've had look at the issue is able to figure this out.  We seem to be having DNS issues and the high latency on requests is slowing down internet traffic (particularly to google-based sites).  We are a school of about 1200 users and I have been testing and changing network, AD, and firewall configurations for weeks trying to get DNS responses to be faster.  I have found that during the times when students are in class and using their laptops then we have more inconsistent connectivity testing results with many DNS errors or high latency warnings.  I am referring to general network usage, not high bandwidth usage times.  Sophos resources are in the teens for CPU and memory during these times.  I have settled on the chrome extension called Connectivity Diagnostics as it seems to do a nice range of tests and specifically tests google sites.  I also have had a Fortinet firewall installed alongside the Sophos with test VLAN traffic running through the Fortinet.  Through my many many tests and configuration changes I have learned this – 

1. If a client runs through the Fortinet and uses an external DNS (google/opendns/etc) on their Ethernet adapter then the diagnostics do not fail. [Fortinet client + external DNS = OK]
2. If a client runs through the Fortinet but uses a local AD DNS server that runs through the Sophos then I will get inconsistent results with slow DNS resolution and HTTP latency test errors. [Fortinet client + local DNS on Sophos = slow]
3. If a client runs through Fortinet and the local AD DNS runs through Fortinet then the diagnostics do not fail. [Fortinet client + local DNS on Fortinet = OK]
4. If a client runs through the Sophos but uses local AD DNS that runs through Fortinet then results are mostly good. [Sophos client + local DNS on Fortinet = mostly OK]
5. If a client runs through the Sophos and uses local AD DNS on Sophos then slow DNS resolution and other latency errors.  Very slow at times particularly when network usage is high (not necessarily bandwidth usage).  [Sophos client + local DNS on Sophos = very slow]

I have used the Sophos best practice document for Sophos DNS config, tweaking guides DNS configs, and the recent suggestions by jalil1408 on this forum (https://community.sophos.com/products/unified-threat-management/astaroorg/f/53/t/34929) but nothing seems to give me the same result as when I run through the Fortinet.  I have a run Any -> DNS -> Any in place and have turned off as many services as I can.  We really only do Firewall, Intrusion Prevention, and Web Filtering right now.  I have even turned off the last two and still get slow response times.  I restarted the firewall last night with no success and have cleaned up AD and my local DNS servers.  The fact that they run fine when going out the Fortinet makes me feel pretty confident that internally I am running ok.  What else in the Sophos would be slowing down browsing so much?  I have a few test results from the diagnostics program added below in case they are helpful.  Please let me know what questions you have and thanks for any help!!

From - "Chrome Connectivity Diagnostics": 
https://chrome.google.com/webstore/detail/chrome-connectivity-diagn/eemlkeanncmjljgehlbplemhmdmalhdc?utm_source=gmail

SUMMARY
Test Name: Resolver Latency Test       Test ID: 8         Test result: Problem detected
CRITERIA
Average DNS resolution time (ms) benchmark above which a problem verdict is rendered: 500
DETAILS
Thu Sep 24 2015 14:50:46 GMT-0400 (Eastern Daylight Time) - Attempting to resolve hostname #: 0 ruhtcpoz-ccd-testing-v4.metric.gstatic.com
Thu Sep 24 2015 14:51:15 GMT-0400 (Eastern Daylight Time) - Total DNS resolution time for all tests (ms): 26913
Thu Sep 24 2015 14:51:15 GMT-0400 (Eastern Daylight Time) - Total DNS hosts resolved: 3
Thu Sep 24 2015 14:51:15 GMT-0400 (Eastern Daylight Time) - Average DNS resolution time (ms): 8971


This thread was automatically locked due to age.
Parents
  • Not much help but I've seen similar weirdness with DNS on the older models.  Specifically, the UTM 220.  Mainly, those units were not powerful enough to deal with the amount of traffic there was advertised as being able to handle (not with 2GB of RAM...no sir).

    Buy "runs through" I assume you mean you are using the Sophos UTM as a DNS proxy, i.e. internal hosts, including AD uses the Sophos UTM for DNS resolution to the Internet and the Sophos UTM uses external public DNS servers (i.e. Google or OpenDNS)?

    You can try configuring a small subset of user/computers to use the Sophos UTM DNS proxy and see how it works.  If it works well, just as using the Fortigate, you can try adding more and see were the tipping point is.  That could indicate resources issues on the SG310, i.e. it may be unable to handle what's being thrown at it.
Reply
  • Not much help but I've seen similar weirdness with DNS on the older models.  Specifically, the UTM 220.  Mainly, those units were not powerful enough to deal with the amount of traffic there was advertised as being able to handle (not with 2GB of RAM...no sir).

    Buy "runs through" I assume you mean you are using the Sophos UTM as a DNS proxy, i.e. internal hosts, including AD uses the Sophos UTM for DNS resolution to the Internet and the Sophos UTM uses external public DNS servers (i.e. Google or OpenDNS)?

    You can try configuring a small subset of user/computers to use the Sophos UTM DNS proxy and see how it works.  If it works well, just as using the Fortigate, you can try adding more and see were the tipping point is.  That could indicate resources issues on the SG310, i.e. it may be unable to handle what's being thrown at it.
Children
  • Not much help but I've seen similar weirdness with DNS on the older models.  Specifically, the UTM 220.  Mainly, those units were not powerful enough to deal with the amount of traffic there was advertised as being able to handle (not with 2GB of RAM...no sir).


    Sophos support and my Fortinet guy both thought the same at first, but on paper the device seems sized for my number of users.  As well, the CPU and memory never seem to indicate the device is stressed although I know that's not the only measure.  One other item that makes me think it's not hardware is that when 30-40% of my traffic is redirected through the Fortinet then I still see the same slowness when kids are in class.  The fact that I am seeing any difference between in-class time and when kids change classes does make me wonder why the additional network usage makes things slow down.

    Buy "runs through" I assume you mean you are using the Sophos UTM as a DNS proxy, i.e. internal hosts, including AD uses the Sophos UTM for DNS resolution to the Internet and the Sophos UTM uses external public DNS servers (i.e. Google or OpenDNS)?


    I have tried using UTM as DNS proxy for my AD users and internal DNS and I've tried pointing clients to AD DNS then AD DNS to public DNS, but it doesn't seem to matter.  I've run things like namebench to test a variety of public DNS options but none change the results.  Certain recommended DNS configs (Sophos best practice vs forum post1 vs forum post2) seem to suggest a variety of DNS routes as "best", but none seem to work for me. (BTW, I was using the term "runs through" to mean my internet gateway is either the Sophos or Fortinet rather than referring to runs through DNS.  Fortinet seems to handle DNS differently and is less dependent on it for good performance.)

    You can try configuring a small subset of user/computers to use the Sophos UTM DNS proxy and see how it works.  If it works well, just as using the Fortigate, you can try adding more and see were the tipping point is.  That could indicate resources issues on the SG310, i.e. it may be unable to handle what's being thrown at it.


    At this point I have run subsets of users in a ton of different configs and not found anything that is consistent except not using the Sophos.  The Sophos is so clearly a problem that I can test with a subset of one client and immediately see the difference (unless overall network usage is low and then all seems mostly fine).

    Thanks for the comments!