666 Notification Mails (The number of the beast)

Hello

this night I get 666 Notification Mails in the time from 00:32 - 00:34:

Device went offline                             68
Connection to device has been lost    41
Device came online                            553
IPSec tunnel went down                      2
IPSec tunnel came up                          2

When I look in the emailheader then there are mails form 04.07.2011.
Why they need so long and witch logfile  is used?
Is the same relay server used as for the acc notification in webadmin?

ACC is 2.840


Cheers 
Chris
  • Hi

    We will investigate, why there are so many 'device connected' messages.
    Do you think that the other numbers ('device went offline', 'device
    disconnected') messages are correct for your setup? We are very interested in
    reports about how accurate and usefull the feature is (for 'device connected'
    we are obviously not very accurate, yet).

    It seems strange that messages are delayed that much. We use the email
    framework from the ASG. The smarthost/relay that you have configured in
    WebAdmin is used for ACC notifications as well. Do you get other notifications
    directly? You can check that by perfoming a failing WebAdmin login. This
    should trigger a notification.

    You can also check the logs

    •  /var/log/smtp.log
    •  /var/log/notifier.log
  • Hi

    the ACC notification is working fine.
    I am not able to get device notifications. When I reboot a device nothing happens.
    I also can't find anything about this in the logfiles.
    How long must a device being offline to trigger a notification?

    Cheers 
    Chris
  • Intersting question!

    Short answer:
    If the device is gone for more than 90 seconds it is regarded as offline.

    slightly longer answer:
    The ASGs send 'ping' notifications to the ACC in 30second intervals. If we
    miss three pings in a row, the ACC considers the device as offline. This
    happens somewhere between 90s and 120s after the device actually 'went away'.
    So if you reboot your ASG, but it appears again within this period. The ASG
    was never regarded as offline.

    It is built like that exactly for that case. A machine loses connection
    because it reboots, a router on the way went down, etc. 
    These are all 'normal' conditions and ACC does not worry about them. If it
    takes longer than the above period, this may be a problem, and the device is
    considered offline.
  • I get notifications from the acc like failed logins, but I did not get any notifications when devices going offline or comming up again. In the Log i found this, when a device is going offline:
    acc accd: 535163868 [0xf1a78b70] ERROR server.notification.Notifier null - Failed to write to notifier socket: Connection refused

    Could this be the problem?

    Cheers 
    Chris
  • after restarting the notifier (/etc/init.d/notifier restart) I also get device notifications.

    I have a second ACC where the device notification did not work.
    So when you have the need to lock at it I can send you an login.

    Cheers
    Chris
  • Thank you, we actually found a bug in the underlying ASG notifier, it will be fixed in one of the upcoming minor releases of the ASG and so it will be available in the corresponding ACC beta release.

    To get rid of the issue the notifier needs to be restarted as you did:
    /etc/init.d/notifier restart


    Cheers
    Stefan
  • On last saturday I get between 1:45 and 10:45 every 60 minutes the notification "[INFO-132] ACC core daemon not running - restarted"

    After each of this notifications I get 350 - 450 notifications with "[INFO-903] Device came online". But I have only 30 devices in my ACC.

    So on Monday morning I have 5000 emails in my inbox. This is to much!!
    Why I get this notification so often without a "Device came offline"?

    Cheers
    Chris
  • Your devices didn't get offline. They came online when the ACC core daemon was restarted. So this behavior is normal.

    However, in the next beta release we'll change this behavior such that the state from the database is used, so that only if this state changes, a notification will be sent. Then notifications won't be sent when the ACC daemon restarts as the state did not change in the database.

    You got that amount of mails because your accd was restarted so often. So the question is why there were so many restarts. It looks as if the accd crashed and was restarted by the selfmon. Could you please either send us a larger portion of your /var/log/accd.log around the line with the content:

    accd started successfully


    or provide us with ssh login access.