]> git.sur5r.net Git - bacula/bacula/blobdiff - bacula/src/lib/watchdog.c
Remove new bnet_sig
[bacula/bacula] / bacula / src / lib / watchdog.c
index ec6bc848a5ea8c25491470774f80ea3554afdc36..7784681161a38674df41d2f92b0edd7820458aec 100755 (executable)
@@ -1,14 +1,13 @@
 /*
- * Bacula thread watchdog routine. General routine that monitors
- *  the daemon and signals a thread if it is blocked on a BSOCK
- *  too long. This prevents catastropic long waits -- generally
- *  due to Windows "hanging" the app.
+ * Bacula thread watchdog routine. General routine that 
+ *  allows setting a watchdog timer with a callback that is
+ *  called when the timer goes off.
  *
  *  Kern Sibbald, January MMII
  *
  */
 /*
-   Copyright (C) 2000-2004 Kern Sibbald and John Walker
+   Copyright (C) 2000-2005 Kern Sibbald
 
    This program is free software; you can redistribute it and/or
    modify it under the terms of the GNU General Public License as
@@ -31,7 +30,7 @@
 #include "jcr.h"
 
 /* Exported globals */
-time_t watchdog_time = 0;            /* this has granularity of SLEEP_TIME */
+time_t watchdog_time = 0;             /* this has granularity of SLEEP_TIME */
 time_t watchdog_sleep_time = 60;      /* examine things every 60 seconds */
 
 /* Locals */
@@ -47,7 +46,7 @@ static void wd_unlock();
 /* Static globals */
 static bool quit = false;;
 static bool wd_is_init = false;
-static brwlock_t lock;               /* watchdog lock */
+static brwlock_t lock;                /* watchdog lock */
 
 static pthread_t wd_tid;
 static dlist *wd_queue;
@@ -57,7 +56,7 @@ static dlist *wd_inactive;
  * Start watchdog thread
  *
  *  Returns: 0 on success
- *          errno on failure
+ *           errno on failure
  */
 int start_watchdog(void)
 {
@@ -68,12 +67,12 @@ int start_watchdog(void)
    if (wd_is_init) {
       return 0;
    }
-   Dmsg0(400, "Initialising NicB-hacked watchdog thread\n");
+   Dmsg0(800, "Initialising NicB-hacked watchdog thread\n");
    watchdog_time = time(NULL);
 
    if ((errstat=rwl_init(&lock)) != 0) {
       Emsg1(M_ABORT, 0, _("Unable to initialize watchdog lock. ERR=%s\n"),
-           strerror(errstat));
+            strerror(errstat));
    }
    wd_queue = New(dlist(dummy, &dummy->link));
    wd_inactive = New(dlist(dummy, &dummy->link));
@@ -100,7 +99,7 @@ static void ping_watchdog()
  * Terminate the watchdog thread
  *
  * Returns: 0 on success
- *         errno on failure
+ *          errno on failure
  */
 int stop_watchdog(void)
 {
@@ -111,7 +110,7 @@ int stop_watchdog(void)
       return 0;
    }
 
-   quit = true;                      /* notify watchdog thread to stop */
+   quit = true;                       /* notify watchdog thread to stop */
    wd_is_init = false;
 
    ping_watchdog();
@@ -122,7 +121,7 @@ int stop_watchdog(void)
       wd_queue->remove(item);
       p = (watchdog_t *)item;
       if (p->destructor != NULL) {
-        p->destructor(p);
+         p->destructor(p);
       }
       free(p);
    }
@@ -134,7 +133,7 @@ int stop_watchdog(void)
       wd_inactive->remove(item);
       p = (watchdog_t *)item;
       if (p->destructor != NULL) {
-        p->destructor(p);
+         p->destructor(p);
       }
       free(p);
    }
@@ -168,20 +167,20 @@ watchdog_t *new_watchdog(void)
 bool register_watchdog(watchdog_t *wd)
 {
    if (!wd_is_init) {
-      Emsg0(M_ABORT, 0, "BUG! register_watchdog called before start_watchdog\n");
+      Emsg0(M_ABORT, 0, _("BUG! register_watchdog called before start_watchdog\n"));
    }
    if (wd->callback == NULL) {
-      Emsg1(M_ABORT, 0, "BUG! Watchdog %p has NULL callback\n", wd);
+      Emsg1(M_ABORT, 0, _("BUG! Watchdog %p has NULL callback\n"), wd);
    }
    if (wd->interval == 0) {
-      Emsg1(M_ABORT, 0, "BUG! Watchdog %p has zero interval\n", wd);
+      Emsg1(M_ABORT, 0, _("BUG! Watchdog %p has zero interval\n"), wd);
    }
 
    wd_lock();
    wd->next_fire = watchdog_time + wd->interval;
    wd_queue->append(wd);
-   Dmsg3(400, "Registered watchdog %p, interval %d%s\n",
-        wd, wd->interval, wd->one_shot ? " one shot" : "");
+   Dmsg3(800, "Registered watchdog %p, interval %d%s\n",
+         wd, wd->interval, wd->one_shot ? " one shot" : "");
    wd_unlock();
    ping_watchdog();
 
@@ -194,29 +193,29 @@ bool unregister_watchdog(watchdog_t *wd)
    bool ok = false;
 
    if (!wd_is_init) {
-      Emsg0(M_ABORT, 0, "BUG! unregister_watchdog_unlocked called before start_watchdog\n");
+      Emsg0(M_ABORT, 0, _("BUG! unregister_watchdog_unlocked called before start_watchdog\n"));
    }
 
    wd_lock();
    foreach_dlist(p, wd_queue) {
       if (wd == p) {
-        wd_queue->remove(wd);
-        Dmsg1(400, "Unregistered watchdog %p\n", wd);
-        ok = true;
-        goto get_out;
+         wd_queue->remove(wd);
+         Dmsg1(800, "Unregistered watchdog %p\n", wd);
+         ok = true;
+         goto get_out;
       }
    }
 
    foreach_dlist(p, wd_inactive) {
       if (wd == p) {
-        wd_inactive->remove(wd);
-        Dmsg1(400, "Unregistered inactive watchdog %p\n", wd);
-        ok = true;
-        goto get_out;
+         wd_inactive->remove(wd);
+         Dmsg1(800, "Unregistered inactive watchdog %p\n", wd);
+         ok = true;
+         goto get_out;
       }
    }
 
-   Dmsg1(400, "Failed to unregister watchdog %p\n", wd);
+   Dmsg1(800, "Failed to unregister watchdog %p\n", wd);
 
 get_out:
    wd_unlock();
@@ -224,6 +223,12 @@ get_out:
    return ok;
 }
 
+/*
+ * This is the thread that walks the watchdog queue
+ *  and when a queue item fires, the callback is
+ *  invoked.  If it is a one shot, the queue item
+ *  is moved to the inactive queue.
+ */
 extern "C" void *watchdog_thread(void *arg)
 {
    struct timespec timeout;
@@ -231,12 +236,16 @@ extern "C" void *watchdog_thread(void *arg)
    struct timezone tz;
    time_t next_time;
 
-   Dmsg0(400, "NicB-reworked watchdog thread entered\n");
+   Dmsg0(800, "NicB-reworked watchdog thread entered\n");
 
    while (!quit) {
       watchdog_t *p;
 
       /*
+       *
+       *  NOTE. lock_jcr_chain removed, but the message below
+       *   was left until we are sure there are no deadlocks.
+       *  
        * We lock the jcr chain here because a good number of the
        *   callback routines lock the jcr chain. We need to lock
        *   it here *before* the watchdog lock because the SD message
@@ -245,32 +254,30 @@ extern "C" void *watchdog_thread(void *arg)
        *   lock in the same order, we get a deadlock -- each holds
        *   the other's needed lock.
        */
-      lock_jcr_chain();
       wd_lock();
 
 walk_list:
       watchdog_time = time(NULL);
       next_time = watchdog_time + watchdog_sleep_time;
       foreach_dlist(p, wd_queue) {
-        if (p->next_fire <= watchdog_time) {
-           /* Run the callback */
-           p->callback(p);
-
-           /* Reschedule (or move to inactive list if it's a one-shot timer) */
-           if (p->one_shot) {
-              wd_queue->remove(p);
-              wd_inactive->append(p);
-              goto walk_list;
-           } else {
-              p->next_fire = watchdog_time + p->interval;
-           }
-        }
-        if (p->next_fire < next_time) {
-           next_time = p->next_fire;
-        }
+         if (p->next_fire <= watchdog_time) {
+            /* Run the callback */
+            p->callback(p);
+
+            /* Reschedule (or move to inactive list if it's a one-shot timer) */
+            if (p->one_shot) {
+               wd_queue->remove(p);
+               wd_inactive->append(p);
+               goto walk_list;
+            } else {
+               p->next_fire = watchdog_time + p->interval;
+            }
+         }
+         if (p->next_fire < next_time) {
+            next_time = p->next_fire;
+         }
       }
       wd_unlock();
-      unlock_jcr_chain();
 
       /*
        * Wait sleep time or until someone wakes us
@@ -279,18 +286,18 @@ walk_list:
       timeout.tv_nsec = tv.tv_usec * 1000;
       timeout.tv_sec = tv.tv_sec + next_time - time(NULL);
       while (timeout.tv_nsec >= 1000000000) {
-        timeout.tv_nsec -= 1000000000;
-        timeout.tv_sec++;
+         timeout.tv_nsec -= 1000000000;
+         timeout.tv_sec++;
       }
 
-      Dmsg1(900, "pthread_cond_timedwait %d\n", timeout.tv_sec - tv.tv_sec);
+      Dmsg1(1900, "pthread_cond_timedwait %d\n", timeout.tv_sec - tv.tv_sec);
       /* Note, this unlocks mutex during the sleep */
       P(timer_mutex);
       pthread_cond_timedwait(&timer, &timer_mutex, &timeout);
       V(timer_mutex);
    }
 
-   Dmsg0(400, "NicB-reworked watchdog thread exited\n");
+   Dmsg0(800, "NicB-reworked watchdog thread exited\n");
    return NULL;
 }
 
@@ -303,8 +310,8 @@ static void wd_lock()
 {
    int errstat;
    if ((errstat=rwl_writelock(&lock)) != 0) {
-      Emsg1(M_ABORT, 0, "rwl_writelock failure. ERR=%s\n",
-          strerror(errstat));
+      Emsg1(M_ABORT, 0, _("rwl_writelock failure. ERR=%s\n"),
+           strerror(errstat));
    }
 }
 
@@ -317,7 +324,7 @@ static void wd_unlock()
 {
    int errstat;
    if ((errstat=rwl_writeunlock(&lock)) != 0) {
-      Emsg1(M_ABORT, 0, "rwl_writeunlock failure. ERR=%s\n",
-          strerror(errstat));
+      Emsg1(M_ABORT, 0, _("rwl_writeunlock failure. ERR=%s\n"),
+           strerror(errstat));
    }
 }