]> git.sur5r.net Git - bacula/bacula/blobdiff - bacula/src/dird/dird.c
Add heap stats to Dir and SD -- eliminate #ifdefs
[bacula/bacula] / bacula / src / dird / dird.c
index 8842bc62677abd99767c82b57b15c6959b17cec3..38a6678a6efa18fec3bbe52c38460a197e6bbd9a 100644 (file)
 /* Forward referenced subroutines */
 static void terminate_dird(int sig);
 static int check_resources();
-static void reload_config(int sig);
 
 /* Exported subroutines */
 
+extern "C" void reload_config(int sig);
+
 
 /* Imported subroutines */
 JCR *wait_for_next_job(char *runjob);
@@ -45,13 +46,14 @@ int do_backup(JCR *jcr);
 void backup_cleanup(void);
 void start_UA_server(char *addr, int port);
 void init_job_server(int max_workers);
-void store_jobtype(LEX *lc, struct res_items *item, int index, int pass);
-void store_level(LEX *lc, struct res_items *item, int index, int pass);
-void store_replace(LEX *lc, struct res_items *item, int index, int pass);
+void store_jobtype(LEX *lc, RES_ITEM *item, int index, int pass);
+void store_level(LEX *lc, RES_ITEM *item, int index, int pass);
+void store_replace(LEX *lc, RES_ITEM *item, int index, int pass);
 
 static char *configfile = NULL;
 static char *runjob = NULL;
 static int background = 1;
+static void init_reload(void);
 
 /* Globals Exported */
 DIRRES *director;                    /* Director resource */
@@ -60,7 +62,9 @@ int SDConnectTimeout;
 
 /* Globals Imported */
 extern int r_first, r_last;          /* first and last resources */
-extern struct res_items job_items[];
+extern RES_TABLE resources[];
+extern RES **res_head;
+extern RES_ITEM job_items[];
 extern URES res_all;
 
 
@@ -103,8 +107,9 @@ int main (int argc, char *argv[])
 
    init_stack_dump();
    my_name_is(argc, argv, "bacula-dir");
-   textdomain("bacula-dir");
+   textdomain("bacula");
    init_msg(NULL, NULL);             /* initialize message handler */
+   init_reload();
    daemon_start_time = time(NULL);
 
    while ((ch = getopt(argc, argv, "c:d:fg:r:stu:v?")) != -1) {
@@ -208,10 +213,11 @@ int main (int argc, char *argv[])
 
    /* Create pid must come after we are a daemon -- so we have our final pid */
    create_pid_file(director->pid_directory, "bacula-dir", director->DIRport);
+   read_state_file(director->working_directory, "bacula-dir", director->DIRport);
 
    drop(uid, gid);                   /* reduce priveleges if requested */
 
-/* signal(SIGHUP, reload_config); */
+   signal(SIGHUP, reload_config);
 
    init_console_msg(working_directory);
 
@@ -249,8 +255,8 @@ static void terminate_dird(int sig)
       exit(1);
    }
    already_here = TRUE;
-   delete_pid_file(director->pid_directory, "bacula-dir",  
-                  director->DIRport);
+   write_state_file(director->working_directory, "bacula-dir", director->DIRport);
+   delete_pid_file(director->pid_directory, "bacula-dir", director->DIRport);
 // signal(SIGCHLD, SIG_IGN);          /* don't worry about children now */
    term_scheduler();
    if (runjob) {
@@ -267,47 +273,176 @@ static void terminate_dird(int sig)
    term_msg();                       /* terminate message handler */
    stop_watchdog();
    close_memory_pool();              /* release free memory in pool */
-   sm_dump(False);
-   exit(sig != 0);
+   sm_dump(false);  
+   exit(sig);
+}
+
+struct RELOAD_TABLE {
+   int job_count;
+   RES **res_table;
+};
+
+static const int max_reloads = 10;
+static RELOAD_TABLE reload_table[max_reloads];
+
+static void init_reload(void) 
+{
+   for (int i=0; i < max_reloads; i++) {
+      reload_table[i].job_count = 0;
+      reload_table[i].res_table = NULL;
+   }
+}
+
+static void free_saved_resources(int table)
+{
+   int num = r_last - r_first + 1;
+   RES **res_tab = reload_table[table].res_table;
+   if (!res_tab) {
+      Dmsg1(100, "res_tab for table %d already released.\n", table);
+      return;
+   }
+   Dmsg1(100, "Freeing resources for table %d\n", table);
+   for (int j=0; j<num; j++) {
+      free_resource(res_tab[j], r_first + j);
+   }
+   free(res_tab);
+   reload_table[table].job_count = 0;
+   reload_table[table].res_table = NULL;
+}
+
+/*
+ * Called here at the end of every job that was
+ * hooked decrementing the active job_count. When
+ * it goes to zero, no one is using the associated
+ * resource table, so free it.
+ */
+static void reload_job_end_cb(JCR *jcr, void *ctx)
+{
+   int reload_id = (int)ctx;
+   Dmsg3(100, "reload job_end JobId=%d table=%d cnt=%d\n", jcr->JobId,
+      reload_id, reload_table[reload_id].job_count);
+   lock_jcr_chain();
+   LockRes();
+   if (--reload_table[reload_id].job_count <= 0) {
+      free_saved_resources(reload_id);
+   }
+   UnlockRes();
+   unlock_jcr_chain();
+}
+
+static int find_free_reload_table_entry()
+{
+   int table = -1;
+   for (int i=0; i < max_reloads; i++) {
+      if (reload_table[i].res_table == NULL) {
+        table = i;
+        break;
+      }
+   }
+   return table;
 }
 
 /*
  * If we get here, we have received a SIGHUP, which means to
- * reread our configuration file. 
+ *    reread our configuration file. 
  *
- *  ***FIXME***  Check that there are no jobs running before
- *              doing this. 
+ * The algorithm used is as follows: we count how many jobs are
+ *   running and mark the running jobs to make a callback on 
+ *   exiting. The old config is saved with the reload table
+ *   id in a reload table. The new config file is read. Now, as
+ *   each job exits, it calls back to the reload_job_end_cb(), which
+ *   decrements the count of open jobs for the given reload table.
+ *   When the count goes to zero, we release those resources.
+ *   This allows us to have pointers into the resource table (from
+ *   jobs), and once they exit and all the pointers are released, we
+ *   release the old table. Note, if no new jobs are running since the
+ *   last reload, then the old resources will be immediately release.
+ *   A console is considered a job because it may have pointers to
+ *   resources, but a SYSTEM job is not since it *should* not have any
+ *   permanent pointers to jobs.
  */
-static void reload_config(int sig)
+extern "C"
+void reload_config(int sig)
 {
-   static int already_here = FALSE;
+   static bool already_here = false;
    sigset_t set;       
+   JCR *jcr;
+   int njobs = 0;                    /* number of running jobs */
+   int table, rtable;
 
    if (already_here) {
       abort();                       /* Oops, recursion -> die */
    }
-   already_here = TRUE;
-   sigfillset(&set);
+   already_here = true;
+   sigemptyset(&set);
+   sigaddset(&set, SIGHUP);
    sigprocmask(SIG_BLOCK, &set, NULL);
 
-   free_config_resources();
+// Jmsg(NULL, M_INFO, 0, "Entering experimental reload config code. Bug reports will not be accepted.\n");
+
+   lock_jcr_chain();
+   LockRes();
+
+   table = find_free_reload_table_entry();
+   if (table < 0) {
+      Jmsg(NULL, M_ERROR, 0, _("Too many open reload requests. Request ignored.\n"));
+      goto bail_out;
+   }
+
+   Dmsg1(100, "Reload_config njobs=%d\n", njobs);
+   reload_table[table].res_table = save_config_resources();
+   Dmsg1(100, "Saved old config in table %d\n", table);
 
    parse_config(configfile);
 
-   Dmsg0(200, "check_resources()\n");
+   Dmsg0(100, "Reloaded config file\n");
    if (!check_resources()) {
-      Jmsg(NULL, M_ERROR_TERM, 0, _("Please correct configuration file: %s\n"), configfile);
+      rtable = find_free_reload_table_entry();   /* save new, bad table */
+      if (rtable < 0) {
+         Jmsg(NULL, M_ERROR, 0, _("Please correct configuration file: %s\n"), configfile);
+         Jmsg(NULL, M_ERROR_TERM, 0, _("Out of reload table entries. Giving up.\n"));
+      } else {
+         Jmsg(NULL, M_ERROR, 0, _("Please correct configuration file: %s\n"), configfile);
+      }
+      reload_table[rtable].res_table = save_config_resources();
+      /* Now restore old resoure values */
+      int num = r_last - r_first + 1;
+      RES **res_tab = reload_table[table].res_table;
+      for (int i=0; i<num; i++) {
+        res_head[i] = res_tab[i];
+      }
+      table = rtable;                /* release new, bad, saved table below */
+   } else {
+      /*
+       * Hook all active jobs so that they release this table 
+       */
+      foreach_jcr(jcr) {
+        if (jcr->JobType != JT_SYSTEM) {
+           reload_table[table].job_count++;
+           job_end_push(jcr, reload_job_end_cb, (void *)table);
+           njobs++;
+        }
+        free_locked_jcr(jcr);
+      }
    }
 
    /* Reset globals */
    set_working_directory(director->working_directory);
    FDConnectTimeout = director->FDConnectTimeout;
    SDConnectTimeout = director->SDConnectTimeout;
+   Dmsg0(0, "Director's configuration file reread.\n");
+       
+   /* Now release saved resources, if no jobs using the resources */
+   if (njobs == 0) {
+      free_saved_resources(table);
+   }
+
+bail_out:
+   UnlockRes();
+   unlock_jcr_chain();
    sigprocmask(SIG_UNBLOCK, &set, NULL);
    signal(SIGHUP, reload_config);
-   already_here = FALSE;
-   Dmsg0(0, "Director's configuration file reread.\n");
+   already_here = false;
 }
 
 /*
@@ -381,7 +516,7 @@ Without that I don't know who I am :-(\n"), configfile);
                       job->hdr.name, job_items[i].name, *def_svalue, i, offset);
                  svalue = (char **)((char *)job + offset);
                  if (*svalue) {
-                     Dmsg1(000, "Hey something is wrong. p=0x%u\n", (unsigned)*svalue);
+                     Pmsg1(000, "Hey something is wrong. p=0x%lu\n", *svalue);
                  }
                  *svalue = bstrdup(*def_svalue);
                  set_bit(i, job->hdr.item_present);
@@ -391,7 +526,7 @@ Without that I don't know who I am :-(\n"), configfile);
                       job->hdr.name, job_items[i].name, i, offset);
                  svalue = (char **)((char *)job + offset);
                  if (*svalue) {
-                     Dmsg1(000, "Hey something is wrong. p=0x%u\n", (unsigned)*svalue);
+                     Pmsg1(000, "Hey something is wrong. p=0x%lu\n", *svalue);
                  }
                  *svalue = *def_svalue;
                  set_bit(i, job->hdr.item_present);