]> git.sur5r.net Git - bacula/bacula/blobdiff - bacula/src/dird/job.c
- Convert more atoi to str_to_int64() for DB.
[bacula/bacula] / bacula / src / dird / job.c
index c41af8325b6c5bb95dbd80980c8d1f20678a72fc..8175a89258ed14634fcf97cbe1076add0cfb25ee 100644 (file)
@@ -7,7 +7,7 @@
  *    Version $Id$
  */
 /*
-   Copyright (C) 2000-2003 Kern Sibbald and John Walker
+   Copyright (C) 2000-2005 Kern Sibbald
 
    This program is free software; you can redistribute it and/or
    modify it under the terms of the GNU General Public License as
 
 /* Forward referenced subroutines */
 static void *job_thread(void *arg);
-static char *edit_run_codes(JCR *jcr, char *omsg, char *imsg);
-static void release_resource_locks(JCR *jcr);
-static int acquire_resource_locks(JCR *jcr);
-#ifdef USE_SEMAPHORE
-static void backoff_resource_locks(JCR *jcr, int count);
-#endif
-
-/* Exported subroutines */
-void run_job(JCR *jcr);
-
+static void job_monitor_watchdog(watchdog_t *self);
+static void job_monitor_destructor(watchdog_t *self);
+static bool job_check_maxwaittime(JCR *control_jcr, JCR *jcr);
+static bool job_check_maxruntime(JCR *control_jcr, JCR *jcr);
 
 /* Imported subroutines */
 extern void term_scheduler();
 extern void term_ua_server();
-extern int do_backup(JCR *jcr);
-extern int do_admin(JCR *jcr);
-extern int do_restore(JCR *jcr);
-extern int do_verify(JCR *jcr);
-
-#ifdef USE_SEMAPHORE
-static semlock_t job_lock;
-static pthread_mutex_t mutex;
-static pthread_cond_t  resource_wait;
-static int waiting = 0;              /* count of waiting threads */
-#else
-#ifdef JOB_QUEUE  
-jobq_t job_queue;
-#else
-/* Queue of jobs to be run */
-workq_t job_wq;                  /* our job work queue */
-#endif
-#endif
+
+/* Imported variables */
+extern time_t watchdog_time;
+
+jobq_t job_queue;
 
 void init_job_server(int max_workers)
 {
    int stat;
-#ifdef USE_SEMAPHORE
-   if ((stat = sem_init(&job_lock, max_workers)) != 0) {
-      Emsg1(M_ABORT, 0, _("Could not init job lock: ERR=%s\n"), strerror(stat));
-   }
-   if ((stat = pthread_mutex_init(&mutex, NULL)) != 0) {
-      Emsg1(M_ABORT, 0, _("Could not init resource mutex: ERR=%s\n"), strerror(stat));
-   }
-   if ((stat = pthread_cond_init(&resource_wait, NULL)) != 0) {
-      Emsg1(M_ABORT, 0, _("Could not init resource wait: ERR=%s\n"), strerror(stat));
-   }
+   watchdog_t *wd;
+
+   if ((stat = jobq_init(&job_queue, max_workers, job_thread)) != 0) {
+      berrno be;
+      Emsg1(M_ABORT, 0, _("Could not init job queue: ERR=%s\n"), be.strerror(stat));
+   }
+   wd = new_watchdog();
+   wd->callback = job_monitor_watchdog;
+   wd->destructor = job_monitor_destructor;
+   wd->one_shot = false;
+   wd->interval = 60;
+   wd->data = new_control_jcr("*JobMonitor*", JT_SYSTEM);
+   register_watchdog(wd);
+}
 
-#else
-#ifdef JOB_QUEUE
-   if ((stat = job_init(&job_queue, max_workers, job_thread)) != 0) {
-      Emsg1(M_ABORT, 0, _("Could not init job queue: ERR=%s\n"), strerror(stat));
-   }
-#else
-   /* This is the OLD work queue code to go away */
-   if ((stat = workq_init(&job_wq, max_workers, job_thread)) != 0) {
-      Emsg1(M_ABORT, 0, _("Could not init job work queue: ERR=%s\n"), strerror(stat));
-   }
-#endif
-#endif
-   return;
+void term_job_server()
+{
+   jobq_destroy(&job_queue);         /* ignore any errors */
 }
 
 /*
  * Run a job -- typically called by the scheduler, but may also
  *             be called by the UA (Console program).
  *
+ *  Returns: 0 on failure
+ *          JobId on success
+ *
  */
-void run_job(JCR *jcr)
+JobId_t run_job(JCR *jcr)
 {
    int stat, errstat;
-#ifdef USE_SEMAPHORE
-   pthread_t tid;
-#else
-#ifndef JOB_QUEUE
-   workq_ele_t *work_item;
-#endif
-#endif
-
-   sm_check(__FILE__, __LINE__, True);
+   JobId_t JobId = 0;
+
+   P(jcr->mutex);
+   sm_check(__FILE__, __LINE__, true);
    init_msg(jcr, jcr->messages);
-   create_unique_job_name(jcr, jcr->job->hdr.name);
-   set_jcr_job_status(jcr, JS_Created);
-   jcr->jr.SchedTime = jcr->sched_time;
-   jcr->jr.StartTime = jcr->start_time;
-   jcr->jr.Type = jcr->JobType;
-   jcr->jr.Level = jcr->JobLevel;
-   jcr->jr.JobStatus = jcr->JobStatus;
-   bstrncpy(jcr->jr.Name, jcr->job->hdr.name, sizeof(jcr->jr.Name));
-   bstrncpy(jcr->jr.Job, jcr->Job, sizeof(jcr->jr.Job));
 
    /* Initialize termination condition variable */
    if ((errstat = pthread_cond_init(&jcr->term_wait, NULL)) != 0) {
-      Jmsg1(jcr, M_FATAL, 0, _("Unable to init job cond variable: ERR=%s\n"), strerror(errstat));
-      set_jcr_job_status(jcr, JS_ErrorTerminated);
-      free_jcr(jcr);
-      return;
+      berrno be;
+      Jmsg1(jcr, M_FATAL, 0, _("Unable to init job cond variable: ERR=%s\n"), be.strerror(errstat));
+      goto bail_out;
    }
+   jcr->term_wait_inited = true;
 
    /*
     * Open database
@@ -135,73 +99,126 @@ void run_job(JCR *jcr)
    Dmsg0(50, "Open database\n");
    jcr->db=db_init_database(jcr, jcr->catalog->db_name, jcr->catalog->db_user,
                            jcr->catalog->db_password, jcr->catalog->db_address,
-                           jcr->catalog->db_port, jcr->catalog->db_socket);
-   if (!db_open_database(jcr, jcr->db)) {
-      Jmsg(jcr, M_FATAL, 0, "%s", db_strerror(jcr->db));
-      set_jcr_job_status(jcr, JS_ErrorTerminated);
-      free_jcr(jcr);
-      return;
+                           jcr->catalog->db_port, jcr->catalog->db_socket,
+                           jcr->catalog->mult_db_connections);
+   if (!jcr->db || !db_open_database(jcr, jcr->db)) {
+      Jmsg(jcr, M_FATAL, 0, _("Could not open database \"%s\".\n"),
+                jcr->catalog->db_name);
+      if (jcr->db) {
+         Jmsg(jcr, M_FATAL, 0, "%s", db_strerror(jcr->db));
+      }
+      goto bail_out;
    }
    Dmsg0(50, "DB opened\n");
 
    /*
-    * Create Job record  
+    * Create Job record
     */
-   jcr->jr.JobStatus = jcr->JobStatus;
+   create_unique_job_name(jcr, jcr->job->hdr.name);
+   set_jcr_job_status(jcr, JS_Created);
+   init_jcr_job_record(jcr);
    if (!db_create_job_record(jcr, jcr->db, &jcr->jr)) {
       Jmsg(jcr, M_FATAL, 0, "%s", db_strerror(jcr->db));
+      goto bail_out;
+   }
+   JobId = jcr->JobId = jcr->jr.JobId;
+
+   Dmsg4(100, "Created job record JobId=%d Name=%s Type=%c Level=%c\n",
+       jcr->JobId, jcr->Job, jcr->jr.JobType, jcr->jr.JobLevel);
+
+   if (!get_or_create_client_record(jcr)) {
+      goto bail_out;
+   }
+
+   if (!jcr->fname) {
+      jcr->fname = get_pool_memory(PM_FNAME);
+   }
+
+   /* Now, do pre-run stuff, like setting job level (Inc/diff, ...) */
+   switch (jcr->JobType) {
+   case JT_BACKUP:
+      if (!do_backup_init(jcr)) {
+        backup_cleanup(jcr, JS_ErrorTerminated);
+      }
+      break;
+   case JT_VERIFY:
+      if (!do_verify_init(jcr)) {
+        verify_cleanup(jcr, JS_ErrorTerminated);
+      }
+      break;
+   case JT_RESTORE:
+      if (!do_restore_init(jcr)) {
+        restore_cleanup(jcr, JS_ErrorTerminated);
+      }
+      break;
+   case JT_ADMIN:
+      if (!do_admin_init(jcr)) {
+        admin_cleanup(jcr, JS_ErrorTerminated);
+      }
+      break;
+   case JT_MIGRATION:
+   case JT_COPY:
+   case JT_ARCHIVE:
+      if (!do_mac_init(jcr)) {            /* migration, archive, copy */
+        mac_cleanup(jcr, JS_ErrorTerminated);
+      }
+      break;
+   default:
+      Pmsg1(0, "Unimplemented job type: %d\n", jcr->JobType);
       set_jcr_job_status(jcr, JS_ErrorTerminated);
-      free_jcr(jcr);
-      return;
+      break;
+   }
+   if (job_canceled(jcr)) {
+      goto bail_out;
    }
-   jcr->JobId = jcr->jr.JobId;
-   ASSERT(jcr->jr.JobId > 0);
 
-   Dmsg4(30, "Created job record JobId=%d Name=%s Type=%c Level=%c\n", 
-       jcr->JobId, jcr->Job, jcr->jr.Type, jcr->jr.Level);
    Dmsg0(200, "Add jrc to work queue\n");
 
-#ifdef USE_SEMAPHORE
-  if ((stat = pthread_create(&tid, NULL, job_thread, (void *)jcr)) != 0) {
-      Emsg1(M_ABORT, 0, _("Unable to create job thread: ERR=%s\n"), strerror(stat));
-   }
-#else
-#ifdef JOB_QUEUE
    /* Queue the job to be run */
    if ((stat = jobq_add(&job_queue, jcr)) != 0) {
-      Emsg1(M_ABORT, 0, _("Could not add job queue: ERR=%s\n"), strerror(stat));
+      berrno be;
+      Jmsg(jcr, M_FATAL, 0, _("Could not add job queue: ERR=%s\n"), be.strerror(stat));
+      JobId = 0;
+      goto bail_out;
    }
-#else
-   /* Queue the job to be run */
-   if ((stat = workq_add(&job_wq, (void *)jcr, &work_item, 0)) != 0) {
-      Emsg1(M_ABORT, 0, _("Could not add job to work queue: ERR=%s\n"), strerror(stat));
+   Dmsg0(100, "Done run_job()\n");
+
+   V(jcr->mutex);
+   return JobId;
+
+bail_out:
+   if (jcr->fname) {
+      free_memory(jcr->fname);
+      jcr->fname = NULL;
    }
-   jcr->work_item = work_item;
-#endif
-#endif
-   Dmsg0(200, "Done run_job()\n");
+   V(jcr->mutex);
+   return JobId;
+
 }
 
-/* 
- * This is the engine called by workq_add() when we were pulled               
+
+/*
+ * This is the engine called by jobq.c:jobq_add() when we were pulled
  *  from the work queue.
- *  At this point, we are running in our own thread 
+ *  At this point, we are running in our own thread and all
+ *    necessary resources are allocated -- see jobq.c
  */
 static void *job_thread(void *arg)
 {
    JCR *jcr = (JCR *)arg;
 
-   pthread_detach(pthread_self());
-   sm_check(__FILE__, __LINE__, True);
+   jcr->my_thread_id = pthread_self();
+   pthread_detach(jcr->my_thread_id);
+   sm_check(__FILE__, __LINE__, true);
 
    for ( ;; ) {
-      if (!acquire_resource_locks(jcr)) {
-        set_jcr_job_status(jcr, JS_Canceled);
-      }
-
       Dmsg0(200, "=====Start Job=========\n");
       jcr->start_time = time(NULL);     /* set the real start time */
+      jcr->jr.StartTime = jcr->start_time;
       set_jcr_job_status(jcr, JS_Running);
+      if (!db_update_job_start_record(jcr, jcr->db, &jcr->jr)) {
+         Jmsg(jcr, M_FATAL, 0, "%s", db_strerror(jcr->db));
+      }
 
       if (job_canceled(jcr)) {
         update_job_end_record(jcr);
@@ -213,13 +230,14 @@ static void *job_thread(void *arg)
       } else {
 
         /* Run Job */
+         generate_event(jcr, "StartJob");
         if (jcr->job->RunBeforeJob) {
            POOLMEM *before = get_pool_memory(PM_FNAME);
            int status;
            BPIPE *bpipe;
            char line[MAXSTRING];
-           
-           before = edit_run_codes(jcr, before, jcr->job->RunBeforeJob);
+
+            before = edit_job_codes(jcr, before, jcr->job->RunBeforeJob, "");
             bpipe = open_bpipe(before, 0, "r");
            free_pool_memory(before);
            while (fgets(line, sizeof(line), bpipe->rfd)) {
@@ -227,8 +245,8 @@ static void *job_thread(void *arg)
            }
            status = close_bpipe(bpipe);
            if (status != 0) {
-               Jmsg(jcr, M_FATAL, 0, _("RunBeforeJob returned non-zero status=%d\n"),
-                 status);
+              berrno be;
+               Jmsg(jcr, M_FATAL, 0, _("RunBeforeJob error: ERR=%s\n"), be.strerror(status));
               set_jcr_job_status(jcr, JS_FatalError);
               update_job_end_record(jcr);
               goto bail_out;
@@ -236,271 +254,349 @@ static void *job_thread(void *arg)
         }
         switch (jcr->JobType) {
         case JT_BACKUP:
-           do_backup(jcr);
-           if (jcr->JobStatus == JS_Terminated) {
+           if (do_backup(jcr)) {
               do_autoprune(jcr);
+           } else {
+              backup_cleanup(jcr, JS_ErrorTerminated);
            }
            break;
         case JT_VERIFY:
-           do_verify(jcr);
-           if (jcr->JobStatus == JS_Terminated) {
+           if (do_verify(jcr)) {
               do_autoprune(jcr);
+           } else {
+              verify_cleanup(jcr, JS_ErrorTerminated);
            }
            break;
         case JT_RESTORE:
-           do_restore(jcr);
-           if (jcr->JobStatus == JS_Terminated) {
+           if (do_restore(jcr)) {
               do_autoprune(jcr);
+           } else {
+              restore_cleanup(jcr, JS_ErrorTerminated);
            }
            break;
         case JT_ADMIN:
-           do_admin(jcr);
-           if (jcr->JobStatus == JS_Terminated) {
+           if (do_admin(jcr)) {
               do_autoprune(jcr);
+           } else {
+              admin_cleanup(jcr, JS_ErrorTerminated);
+           }
+           break;
+        case JT_MIGRATION:
+        case JT_COPY:
+        case JT_ARCHIVE:
+           if (do_mac(jcr)) {              /* migration, archive, copy */
+              do_autoprune(jcr);
+           } else {
+              mac_cleanup(jcr, JS_ErrorTerminated);
            }
            break;
         default:
             Pmsg1(0, "Unimplemented job type: %d\n", jcr->JobType);
            break;
         }
-        if (jcr->job->RunAfterJob) {
+        if ((jcr->job->RunAfterJob && jcr->JobStatus == JS_Terminated) ||
+            (jcr->job->RunAfterFailedJob && jcr->JobStatus != JS_Terminated)) {
            POOLMEM *after = get_pool_memory(PM_FNAME);
            int status;
            BPIPE *bpipe;
            char line[MAXSTRING];
-           
-           after = edit_run_codes(jcr, after, jcr->job->RunAfterJob);
+
+           if (jcr->JobStatus == JS_Terminated) {
+               after = edit_job_codes(jcr, after, jcr->job->RunAfterJob, "");
+           } else {
+               after = edit_job_codes(jcr, after, jcr->job->RunAfterFailedJob, "");
+           }
             bpipe = open_bpipe(after, 0, "r");
            free_pool_memory(after);
            while (fgets(line, sizeof(line), bpipe->rfd)) {
                Jmsg(jcr, M_INFO, 0, _("RunAfter: %s"), line);
            }
            status = close_bpipe(bpipe);
+           /*
+            * Note, if we get an error here, do not mark the
+            *  job in error, simply report the error condition.
+            */
            if (status != 0) {
-               Jmsg(jcr, M_FATAL, 0, _("RunAfterJob returned non-zero status=%d\n"),
-                 status);
-              set_jcr_job_status(jcr, JS_FatalError);
-              update_job_end_record(jcr);
+              berrno be;
+              if (jcr->JobStatus == JS_Terminated) {
+                  Jmsg(jcr, M_WARNING, 0, _("RunAfterJob error: ERR=%s\n"), be.strerror(status));
+              } else {
+                  Jmsg(jcr, M_FATAL, 0, _("RunAfterFailedJob error: ERR=%s\n"), be.strerror(status));
+              }
            }
         }
-      }
-bail_out:
-      release_resource_locks(jcr);
-      if (jcr->job->RescheduleOnError && 
-         jcr->JobStatus != JS_Terminated &&
-         jcr->JobStatus != JS_Canceled && 
-         jcr->job->RescheduleTimes > 0 && 
-         jcr->reschedule_count < jcr->job->RescheduleTimes) {
-
-         /*
-          * Reschedule this job by cleaning it up, but
-          *  reuse the same JobId if possible.
-          */
-        jcr->reschedule_count++;
-        jcr->sched_time = time(NULL) + jcr->job->RescheduleInterval;
-         Dmsg2(100, "Rescheduled Job %s to re-run in %d seconds.\n", jcr->Job,
-           (int)jcr->job->RescheduleInterval);
-        jcr->JobStatus = JS_Created; /* force new status */
-        dird_free_jcr(jcr);          /* partial cleanup old stuff */
-        if (jcr->JobBytes == 0) {
-           continue;                    /* reschedule the job */
+         generate_event(jcr, "EndJob");
+        /* Send off any queued messages */
+        if (jcr->msg_queue->size() > 0) {
+           dequeue_messages(jcr);
         }
-        /* 
-         * Something was actually backed up, so we cannot reuse
-         *   the old JobId or there will be database record
-         *   conflicts.  We now create a new job, copying the
-         *   appropriate fields.
-         */
-        JCR *njcr = new_jcr(sizeof(JCR), dird_free_jcr);
-        set_jcr_defaults(njcr, jcr->job);
-        njcr->reschedule_count = jcr->reschedule_count;
-        njcr->JobLevel = jcr->JobLevel;
-        njcr->JobStatus = jcr->JobStatus;
-        njcr->pool = jcr->pool;
-        njcr->store = jcr->store;
-        njcr->messages = jcr->messages;
-        run_job(njcr);
       }
+bail_out:
       break;
    }
 
-   if (jcr->db) {
-      Dmsg0(200, "Close DB\n");
-      db_close_database(jcr, jcr->db);
-      jcr->db = NULL;
-   }
-   free_jcr(jcr);
-   Dmsg0(50, "======== End Job ==========\n");
-   sm_check(__FILE__, __LINE__, True);
+   Dmsg1(50, "======== End Job stat=%c ==========\n", jcr->JobStatus);
+   sm_check(__FILE__, __LINE__, true);
    return NULL;
 }
 
+
 /*
- * Acquire the resources needed. These locks limit the
- *  number of jobs by each resource. We have limits on
- *  Jobs, Clients, Storage, and total jobs.
+ * Cancel a job -- typically called by the UA (Console program), but may also
+ *             be called by the job watchdog.
+ *
+ *  Returns: 1 if cancel appears to be successful
+ *          0 on failure. Message sent to ua->jcr.
  */
-static int acquire_resource_locks(JCR *jcr)
+int cancel_job(UAContext *ua, JCR *jcr)
 {
-   time_t now = time(NULL);
-   time_t wtime = jcr->sched_time - now;
-
-   /* Wait until scheduled time arrives */
-   if (wtime > 0 && verbose) {
-      Jmsg(jcr, M_INFO, 0, _("Job %s waiting %d seconds for scheduled start time.\n"), 
-        jcr->Job, wtime);
-      set_jcr_job_status(jcr, JS_WaitStartTime);
-   }
-   /* Check every 30 seconds if canceled */ 
-   while (wtime > 0) {
-      Dmsg2(100, "Waiting on sched time, jobid=%d secs=%d\n", jcr->JobId, wtime);
-      if (wtime > 30) {
-        wtime = 30;
+   BSOCK *sd, *fd;
+
+   switch (jcr->JobStatus) {
+   case JS_Created:
+   case JS_WaitJobRes:
+   case JS_WaitClientRes:
+   case JS_WaitStoreRes:
+   case JS_WaitPriority:
+   case JS_WaitMaxJobs:
+   case JS_WaitStartTime:
+      set_jcr_job_status(jcr, JS_Canceled);
+      bsendmsg(ua, _("JobId %d, Job %s marked to be canceled.\n"),
+             jcr->JobId, jcr->Job);
+      jobq_remove(&job_queue, jcr); /* attempt to remove it from queue */
+      return 1;
+
+   default:
+      set_jcr_job_status(jcr, JS_Canceled);
+
+      /* Cancel File daemon */
+      if (jcr->file_bsock) {
+        ua->jcr->client = jcr->client;
+        if (!connect_to_file_daemon(ua->jcr, 10, FDConnectTimeout, 1)) {
+            bsendmsg(ua, _("Failed to connect to File daemon.\n"));
+           return 0;
+        }
+         Dmsg0(200, "Connected to file daemon\n");
+        fd = ua->jcr->file_bsock;
+         bnet_fsend(fd, "cancel Job=%s\n", jcr->Job);
+        while (bnet_recv(fd) >= 0) {
+            bsendmsg(ua, "%s", fd->msg);
+        }
+        bnet_sig(fd, BNET_TERMINATE);
+        bnet_close(fd);
+        ua->jcr->file_bsock = NULL;
       }
-      bmicrosleep(wtime, 0);
-      if (job_canceled(jcr)) {
-        return 0;
+
+      /* Cancel Storage daemon */
+      if (jcr->store_bsock) {
+        if (!ua->jcr->storage) {
+           copy_storage(ua->jcr, jcr);
+        } else {
+           set_storage(ua->jcr, jcr->store);
+        }
+        if (!connect_to_storage_daemon(ua->jcr, 10, SDConnectTimeout, 1)) {
+            bsendmsg(ua, _("Failed to connect to Storage daemon.\n"));
+           return 0;
+        }
+         Dmsg0(200, "Connected to storage daemon\n");
+        sd = ua->jcr->store_bsock;
+         bnet_fsend(sd, "cancel Job=%s\n", jcr->Job);
+        while (bnet_recv(sd) >= 0) {
+            bsendmsg(ua, "%s", sd->msg);
+        }
+        bnet_sig(sd, BNET_TERMINATE);
+        bnet_close(sd);
+        ua->jcr->store_bsock = NULL;
       }
-      wtime = jcr->sched_time - time(NULL);
    }
 
+   return 1;
+}
 
-#ifdef USE_SEMAPHORE
-   int stat;
 
-   /* Initialize semaphores */
-   if (jcr->store->sem.valid != SEMLOCK_VALID) {
-      if ((stat = sem_init(&jcr->store->sem, jcr->store->MaxConcurrentJobs)) != 0) {
-         Emsg1(M_ABORT, 0, _("Could not init Storage semaphore: ERR=%s\n"), strerror(stat));
-      }
-   }
-   if (jcr->client->sem.valid != SEMLOCK_VALID) {
-      if ((stat = sem_init(&jcr->client->sem, jcr->client->MaxConcurrentJobs)) != 0) {
-         Emsg1(M_ABORT, 0, _("Could not init Client semaphore: ERR=%s\n"), strerror(stat));
-      }
-   }
-   if (jcr->job->sem.valid != SEMLOCK_VALID) {
-      if ((stat = sem_init(&jcr->job->sem, jcr->job->MaxConcurrentJobs)) != 0) {
-         Emsg1(M_ABORT, 0, _("Could not init Job semaphore: ERR=%s\n"), strerror(stat));
-      }
-   }
+static void job_monitor_destructor(watchdog_t *self)
+{
+   JCR *control_jcr = (JCR *) self->data;
 
-   for ( ;; ) {
-      /* Acquire semaphore */
-      set_jcr_job_status(jcr, JS_WaitJobRes);
-      if ((stat = sem_lock(&jcr->job->sem)) != 0) {
-         Emsg1(M_ABORT, 0, _("Could not acquire Job max jobs lock: ERR=%s\n"), strerror(stat));
-      }
-      set_jcr_job_status(jcr, JS_WaitClientRes);
-      if ((stat = sem_trylock(&jcr->client->sem)) != 0) {
-        if (stat == EBUSY) {
-           backoff_resource_locks(jcr, 1);
-           goto wait;
-        } else {
-            Emsg1(M_ABORT, 0, _("Could not acquire Client max jobs lock: ERR=%s\n"), strerror(stat));
-        }
-      }
-      set_jcr_job_status(jcr, JS_WaitStoreRes);
-      if ((stat = sem_trylock(&jcr->store->sem)) != 0) {
-        if (stat == EBUSY) {
-           backoff_resource_locks(jcr, 2);
-           goto wait;
-        } else {
-            Emsg1(M_ABORT, 0, _("Could not acquire Storage max jobs lock: ERR=%s\n"), strerror(stat));
-        }
-      }
-      set_jcr_job_status(jcr, JS_WaitMaxJobs);
-      if ((stat = sem_trylock(&job_lock)) != 0) {
-        if (stat == EBUSY) {
-           backoff_resource_locks(jcr, 3);
-           goto wait;
-        } else {
-            Emsg1(M_ABORT, 0, _("Could not acquire max jobs lock: ERR=%s\n"), strerror(stat));
-        }
+   free_jcr(control_jcr);
+}
+
+static void job_monitor_watchdog(watchdog_t *self)
+{
+   JCR *control_jcr, *jcr;
+
+   control_jcr = (JCR *)self->data;
+
+   Dmsg1(800, "job_monitor_watchdog %p called\n", self);
+
+   lock_jcr_chain();
+
+   foreach_jcr(jcr) {
+      bool cancel;
+
+      if (jcr->JobId == 0) {
+         Dmsg2(800, "Skipping JCR %p (%s) with JobId 0\n",
+              jcr, jcr->Job);
+        /* Keep reference counts correct */
+        free_locked_jcr(jcr);
+        continue;
       }
-      break;
 
-wait:
-      if (job_canceled(jcr)) {
-        return 0;
+      /* check MaxWaitTime */
+      cancel = job_check_maxwaittime(control_jcr, jcr);
+
+      /* check MaxRunTime */
+      cancel |= job_check_maxruntime(control_jcr, jcr);
+
+      if (cancel) {
+         Dmsg3(800, "Cancelling JCR %p jobid %d (%s)\n",
+              jcr, jcr->JobId, jcr->Job);
+
+        UAContext *ua = new_ua_context(jcr);
+        ua->jcr = control_jcr;
+        cancel_job(ua, jcr);
+        free_ua_context(ua);
+
+         Dmsg1(800, "Have cancelled JCR %p\n", jcr);
       }
-      P(mutex);
-      /*
-       * Wait for a resource to be released either by backoff or
-       *  by a job terminating.
-       */
-      waiting++;
-      pthread_cond_wait(&resource_wait, &mutex);
-      waiting--;
-      V(mutex);
-      /* Try again */
-   }
-   jcr->acquired_resource_locks = true;
-#endif
-   return 1;
+
+      /* Keep reference counts correct */
+      free_locked_jcr(jcr);
+   }
+   unlock_jcr_chain();
 }
 
-#ifdef USE_SEMAPHORE
 /*
- * We could not get all the resource locks because 
- *  too many jobs are running, so release any locks
- *  we did acquire, giving others a chance to use them
- *  while we wait.
+ * Check if the maxwaittime has expired and it is possible
+ *  to cancel the job.
  */
-static void backoff_resource_locks(JCR *jcr, int count)
+static bool job_check_maxwaittime(JCR *control_jcr, JCR *jcr)
 {
-   P(mutex);
-   switch (count) {
-   case 3:
-      sem_unlock(&jcr->store->sem);
-      /* Fall through wanted */
-   case 2:
-      sem_unlock(&jcr->client->sem);
-      /* Fall through wanted */
-   case 1:
-      sem_unlock(&jcr->job->sem);
+   bool cancel = false;
+   bool ok_to_cancel = false;
+   JOB *job = jcr->job;
+
+   if (job->MaxWaitTime == 0 && job->FullMaxWaitTime == 0 &&
+       job->IncMaxWaitTime == 0 && job->DiffMaxWaitTime == 0) {
+      return false;
+   } 
+   if (jcr->JobLevel == L_FULL && job->FullMaxWaitTime != 0 &&
+        (watchdog_time - jcr->start_time) >= job->FullMaxWaitTime) {
+      ok_to_cancel = true;
+   } else if (jcr->JobLevel == L_DIFFERENTIAL && job->DiffMaxWaitTime != 0 &&
+        (watchdog_time - jcr->start_time) >= job->DiffMaxWaitTime) {
+      ok_to_cancel = true;
+   } else if (jcr->JobLevel == L_INCREMENTAL && job->IncMaxWaitTime != 0 &&
+        (watchdog_time - jcr->start_time) >= job->IncMaxWaitTime) {
+      ok_to_cancel = true;
+   } else if (job->MaxWaitTime != 0 &&
+        (watchdog_time - jcr->start_time) >= job->MaxWaitTime) {
+      ok_to_cancel = true;
+   }
+   if (!ok_to_cancel) {
+      return false;
+   }
+   Dmsg3(800, "Job %d (%s): MaxWaitTime of %d seconds exceeded, "
+         "checking status\n",
+        jcr->JobId, jcr->Job, job->MaxWaitTime);
+   switch (jcr->JobStatus) {
+   case JS_Created:
+   case JS_Blocked:
+   case JS_WaitFD:
+   case JS_WaitSD:
+   case JS_WaitStoreRes:
+   case JS_WaitClientRes:
+   case JS_WaitJobRes:
+   case JS_WaitPriority:
+   case JS_WaitMaxJobs:
+   case JS_WaitStartTime:
+      cancel = true;
+      Dmsg0(200, "JCR blocked in #1\n");
       break;
+   case JS_Running:
+      Dmsg0(800, "JCR running, checking SD status\n");
+      switch (jcr->SDJobStatus) {
+      case JS_WaitMount:
+      case JS_WaitMedia:
+      case JS_WaitFD:
+        cancel = true;
+         Dmsg0(800, "JCR blocked in #2\n");
+        break;
+      default:
+         Dmsg0(800, "JCR not blocked in #2\n");
+        break;
+      }
+      break;
+   case JS_Terminated:
+   case JS_ErrorTerminated:
+   case JS_Canceled:
+   case JS_FatalError:
+      Dmsg0(800, "JCR already dead in #3\n");
+      break;
+   default:
+      Jmsg1(jcr, M_ERROR, 0, _("Unhandled job status code %d\n"),
+           jcr->JobStatus);
    }
-   /*
-    * Since we released a lock, if there are any threads
-    *  waiting, wake them up so that they can try again.
-    */
-   if (waiting > 0) {
-      pthread_cond_broadcast(&resource_wait);
-   }
-   V(mutex);
+   Dmsg3(800, "MaxWaitTime result: %scancel JCR %p (%s)\n",
+         cancel ? "" : "do not ", jcr, jcr->job);
+
+   return cancel;
 }
-#endif
 
 /*
- * This is called at the end of the job to release
- *   any resource limits on the number of jobs. If
- *   there are any other jobs waiting, we wake them
- *   up so that they can try again.
+ * Check if maxruntime has expired and if the job can be
+ *   canceled.
  */
-static void release_resource_locks(JCR *jcr)
+static bool job_check_maxruntime(JCR *control_jcr, JCR *jcr)
 {
-   if (!jcr->acquired_resource_locks) {
-      return;                        /* Job canceled, no locks acquired */
-   }
-#ifdef USE_SEMAPHORE
-   P(mutex);
-   sem_unlock(&jcr->store->sem);
-   sem_unlock(&jcr->client->sem);
-   sem_unlock(&jcr->job->sem);
-   sem_unlock(&job_lock);
-   if (waiting > 0) {
-      pthread_cond_broadcast(&resource_wait);
-   }
-   jcr->acquired_resource_locks = false;
-   V(mutex);
-#endif
+   bool cancel = false;
+
+   if (jcr->job->MaxRunTime == 0) {
+      return false;
+   }
+   if ((watchdog_time - jcr->start_time) < jcr->job->MaxRunTime) {
+      Dmsg3(200, "Job %p (%s) with MaxRunTime %d not expired\n",
+           jcr, jcr->Job, jcr->job->MaxRunTime);
+      return false;
+   }
+
+   switch (jcr->JobStatus) {
+   case JS_Created:
+   case JS_Running:
+   case JS_Blocked:
+   case JS_WaitFD:
+   case JS_WaitSD:
+   case JS_WaitStoreRes:
+   case JS_WaitClientRes:
+   case JS_WaitJobRes:
+   case JS_WaitPriority:
+   case JS_WaitMaxJobs:
+   case JS_WaitStartTime:
+   case JS_Differences:
+      cancel = true;
+      break;
+   case JS_Terminated:
+   case JS_ErrorTerminated:
+   case JS_Canceled:
+   case JS_FatalError:
+      cancel = false;
+      break;
+   default:
+      Jmsg1(jcr, M_ERROR, 0, _("Unhandled job status code %d\n"),
+           jcr->JobStatus);
+   }
+
+   Dmsg3(200, "MaxRunTime result: %scancel JCR %p (%s)\n",
+         cancel ? "" : "do not ", jcr, jcr->job);
+
+   return cancel;
 }
 
+
 /*
  * Get or create a Client record for this Job
  */
-int get_or_create_client_record(JCR *jcr)
+bool get_or_create_client_record(JCR *jcr)
 {
    CLIENT_DBR cr;
 
@@ -512,33 +608,78 @@ int get_or_create_client_record(JCR *jcr)
    if (!jcr->client_name) {
       jcr->client_name = get_pool_memory(PM_NAME);
    }
-   pm_strcpy(&jcr->client_name, jcr->client->hdr.name);
+   pm_strcpy(jcr->client_name, jcr->client->hdr.name);
    if (!db_create_client_record(jcr, jcr->db, &cr)) {
-      Jmsg(jcr, M_FATAL, 0, _("Could not create Client record. ERR=%s\n"), 
+      Jmsg(jcr, M_FATAL, 0, _("Could not create Client record. ERR=%s\n"),
         db_strerror(jcr->db));
-      return 0;
+      return false;
    }
    jcr->jr.ClientId = cr.ClientId;
    if (cr.Uname[0]) {
       if (!jcr->client_uname) {
         jcr->client_uname = get_pool_memory(PM_NAME);
       }
-      pm_strcpy(&jcr->client_uname, cr.Uname);
+      pm_strcpy(jcr->client_uname, cr.Uname);
    }
-   Dmsg2(100, "Created Client %s record %d\n", jcr->client->hdr.name, 
+   Dmsg2(100, "Created Client %s record %d\n", jcr->client->hdr.name,
       jcr->jr.ClientId);
-   return 1;
+   return true;
+}
+
+bool get_or_create_fileset_record(JCR *jcr, FILESET_DBR *fsr)
+{
+   /*
+    * Get or Create FileSet record
+    */
+   memset(fsr, 0, sizeof(FILESET_DBR));
+   bstrncpy(fsr->FileSet, jcr->fileset->hdr.name, sizeof(fsr->FileSet));
+   if (jcr->fileset->have_MD5) {
+      struct MD5Context md5c;
+      unsigned char signature[16];
+      memcpy(&md5c, &jcr->fileset->md5c, sizeof(md5c));
+      MD5Final(signature, &md5c);
+      bin_to_base64(fsr->MD5, (char *)signature, 16); /* encode 16 bytes */
+      bstrncpy(jcr->fileset->MD5, fsr->MD5, sizeof(jcr->fileset->MD5));
+   } else {
+      Jmsg(jcr, M_WARNING, 0, _("FileSet MD5 signature not found.\n"));
+   }
+   if (!jcr->fileset->ignore_fs_changes ||
+       !db_get_fileset_record(jcr, jcr->db, fsr)) {
+      if (!db_create_fileset_record(jcr, jcr->db, fsr)) {
+         Jmsg(jcr, M_ERROR, 0, _("Could not create FileSet \"%s\" record. ERR=%s\n"),
+           fsr->FileSet, db_strerror(jcr->db));
+        return false;
+      }
+   }
+   jcr->jr.FileSetId = fsr->FileSetId;
+   if (fsr->created) {
+      Jmsg(jcr, M_INFO, 0, _("Created new FileSet record \"%s\" %s\n"),
+        fsr->FileSet, fsr->cCreateTime);
+   }
+   Dmsg2(119, "Created FileSet %s record %u\n", jcr->fileset->hdr.name,
+      jcr->jr.FileSetId);
+   return true;
 }
 
+void init_jcr_job_record(JCR *jcr)
+{
+   jcr->jr.SchedTime = jcr->sched_time;
+   jcr->jr.StartTime = jcr->start_time;
+   jcr->jr.EndTime = 0;              /* perhaps rescheduled, clear it */
+   jcr->jr.JobType = jcr->JobType;
+   jcr->jr.JobLevel = jcr->JobLevel;
+   jcr->jr.JobStatus = jcr->JobStatus;
+   jcr->jr.JobId = jcr->JobId;
+   bstrncpy(jcr->jr.Name, jcr->job->hdr.name, sizeof(jcr->jr.Name));
+   bstrncpy(jcr->jr.Job, jcr->Job, sizeof(jcr->jr.Job));
+}
 
 /*
  * Write status and such in DB
  */
 void update_job_end_record(JCR *jcr)
 {
-   if (jcr->jr.EndTime == 0) {
-      jcr->jr.EndTime = time(NULL);
-   }
+   jcr->jr.EndTime = time(NULL);
    jcr->end_time = jcr->jr.EndTime;
    jcr->jr.JobId = jcr->JobId;
    jcr->jr.JobStatus = jcr->JobStatus;
@@ -547,7 +688,7 @@ void update_job_end_record(JCR *jcr)
    jcr->jr.VolSessionId = jcr->VolSessionId;
    jcr->jr.VolSessionTime = jcr->VolSessionTime;
    if (!db_update_job_end_record(jcr, jcr->db, &jcr->jr)) {
-      Jmsg(jcr, M_WARNING, 0, _("Error updating job record. %s"), 
+      Jmsg(jcr, M_WARNING, 0, _("Error updating job record. %s"),
         db_strerror(jcr->db));
    }
 }
@@ -559,7 +700,7 @@ void update_job_end_record(JCR *jcr)
  *  Returns: unique job name in jcr->Job
  *    date/time in jcr->start_time
  */
-void create_unique_job_name(JCR *jcr, char *base_name)
+void create_unique_job_name(JCR *jcr, const char *base_name)
 {
    /* Job start mutex */
    static pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER;
@@ -571,7 +712,7 @@ void create_unique_job_name(JCR *jcr, char *base_name)
    char *p;
 
    /* Guarantee unique start time -- maximum one per second, and
-    * thus unique Job Name 
+    * thus unique Job Name
     */
    P(mutex);                         /* lock creation of jobs */
    now = time(NULL);
@@ -585,7 +726,7 @@ void create_unique_job_name(JCR *jcr, char *base_name)
    /* Form Unique JobName */
    localtime_r(&now, &tm);
    /* Use only characters that are permitted in Windows filenames */
-   strftime(dt, sizeof(dt), "%Y-%m-%d_%H.%M.%S", &tm); 
+   strftime(dt, sizeof(dt), "%Y-%m-%d_%H.%M.%S", &tm);
    bstrncpy(name, base_name, sizeof(name));
    name[sizeof(name)-22] = 0;         /* truncate if too long */
    bsnprintf(jcr->Job, sizeof(jcr->Job), "%s.%s", name, dt); /* add date & time */
@@ -597,15 +738,9 @@ void create_unique_job_name(JCR *jcr, char *base_name)
    }
 }
 
-/*
- * Free the Job Control Record if no one is still using it.
- *  Called from main free_jcr() routine in src/lib/jcr.c so
- *  that we can do our Director specific cleanup of the jcr.
- */
-void dird_free_jcr(JCR *jcr)
+/* Called directly from job rescheduling */
+void dird_free_jcr_pointers(JCR *jcr)
 {
-   Dmsg0(200, "Start dird free_jcr\n");
-
    if (jcr->sd_auth_key) {
       free(jcr->sd_auth_key);
       jcr->sd_auth_key = NULL;
@@ -624,7 +759,7 @@ void dird_free_jcr(JCR *jcr)
       bnet_close(jcr->store_bsock);
       jcr->store_bsock = NULL;
    }
-   if (jcr->fname) {  
+   if (jcr->fname) {
       Dmsg0(200, "Free JCR fname\n");
       free_pool_memory(jcr->fname);
       jcr->fname = NULL;
@@ -642,6 +777,28 @@ void dird_free_jcr(JCR *jcr)
       free_pool_memory(jcr->client_uname);
       jcr->client_uname = NULL;
    }
+   if (jcr->term_wait_inited) {
+      pthread_cond_destroy(&jcr->term_wait);
+      jcr->term_wait_inited = false;
+   }
+}
+
+/*
+ * Free the Job Control Record if no one is still using it.
+ *  Called from main free_jcr() routine in src/lib/jcr.c so
+ *  that we can do our Director specific cleanup of the jcr.
+ */
+void dird_free_jcr(JCR *jcr)
+{
+   Dmsg0(200, "Start dird free_jcr\n");
+
+   dird_free_jcr_pointers(jcr);
+
+   /* Delete lists setup to hold storage pointers */
+   if (jcr->storage) {
+      delete jcr->storage;
+   }
+   jcr->job_end_push.destroy();
    Dmsg0(200, "End dird free_jcr\n");
 }
 
@@ -654,26 +811,56 @@ void dird_free_jcr(JCR *jcr)
  */
 void set_jcr_defaults(JCR *jcr, JOB *job)
 {
+   STORE *st;
    jcr->job = job;
    jcr->JobType = job->JobType;
-   jcr->JobLevel = job->level;
-   jcr->store = job->storage;
+   switch (jcr->JobType) {
+   case JT_ADMIN:
+   case JT_RESTORE:
+      jcr->JobLevel = L_NONE;
+      break;
+   default:
+      jcr->JobLevel = job->JobLevel;
+      break;
+   }
+   jcr->JobPriority = job->Priority;
+   /* Copy storage definitions -- deleted in dir_free_jcr above */
+   if (job->storage) {
+      if (jcr->storage) {
+        delete jcr->storage;
+      }
+      jcr->storage = New(alist(10, not_owned_by_alist));
+      foreach_alist(st, job->storage) {
+        jcr->storage->append(st);
+      }
+   }
+   if (jcr->storage) {
+      jcr->store = (STORE *)jcr->storage->first();
+   }
    jcr->client = job->client;
    if (!jcr->client_name) {
       jcr->client_name = get_pool_memory(PM_NAME);
    }
-   pm_strcpy(&jcr->client_name, jcr->client->hdr.name);
+   pm_strcpy(jcr->client_name, jcr->client->hdr.name);
    jcr->pool = job->pool;
+   jcr->full_pool = job->full_pool;
+   jcr->inc_pool = job->inc_pool;
+   jcr->dif_pool = job->dif_pool;
    jcr->catalog = job->client->catalog;
    jcr->fileset = job->fileset;
-   jcr->messages = job->messages; 
+   jcr->messages = job->messages;
+   jcr->spool_data = job->spool_data;
+   jcr->write_part_after_job = job->write_part_after_job;
    if (jcr->RestoreBootstrap) {
       free(jcr->RestoreBootstrap);
+      jcr->RestoreBootstrap = NULL;
    }
    /* This can be overridden by Console program */
    if (job->RestoreBootstrap) {
       jcr->RestoreBootstrap = bstrdup(job->RestoreBootstrap);
    }
+   /* This can be overridden by Console program */
+   jcr->verify_job = job->verify_job;
    /* If no default level given, set one */
    if (jcr->JobLevel == 0) {
       switch (jcr->JobType) {
@@ -685,7 +872,7 @@ void set_jcr_defaults(JCR *jcr, JOB *job)
         break;
       case JT_RESTORE:
       case JT_ADMIN:
-        jcr->JobLevel = L_FULL;
+        jcr->JobLevel = L_NONE;
         break;
       default:
         break;
@@ -694,78 +881,38 @@ void set_jcr_defaults(JCR *jcr, JOB *job)
 }
 
 /*
- * Edit codes into Run command
- *  %% = %
- *  %c = Client's name
- *  %d = Director's name
- *  %i = JobId
- *  %e = Job Exit
- *  %j = Job
- *  %l = Job Level
- *  %n = Job name
- *  %t = Job type
- *
- *  omsg = edited output message
- *  imsg = input string containing edit codes (%x)
- *
+ * copy the storage definitions from an old JCR to a new one
  */
-static char *edit_run_codes(JCR *jcr, char *omsg, char *imsg) 
+void copy_storage(JCR *new_jcr, JCR *old_jcr)
 {
-   char *p;
-   const char *str;
-   char add[20];
-
-   *omsg = 0;
-   Dmsg1(200, "edit_run_codes: %s\n", imsg);
-   for (p=imsg; *p; p++) {
-      if (*p == '%') {
-        switch (*++p) {
-         case '%':
-            str = "%";
-           break;
-         case 'c':
-           str = jcr->client_name;
-           if (!str) {
-               str = "";
-           }
-           break;
-         case 'd':
-           str = my_name;
-           break;
-         case 'e':
-           str = job_status_to_str(jcr->JobStatus);
-           break;
-         case 'i':
-            sprintf(add, "%d", jcr->JobId);
-           str = add;
-           break;
-         case 'j':                    /* Job */
-           str = jcr->Job;
-           break;
-         case 'l':
-           str = job_level_to_str(jcr->JobLevel);
-           break;
-         case 'n':
-           str = jcr->job->hdr.name;
-           break;
-         case 't':
-           str = job_type_to_str(jcr->JobType);
-           break;
-        default:
-            add[0] = '%';
-           add[1] = *p;
-           add[2] = 0;
-           str = add;
-           break;
-        }
-      } else {
-        add[0] = *p;
-        add[1] = 0;
-        str = add;
+   if (old_jcr->storage) {
+      STORE *st;
+      if (old_jcr->storage) {
+        delete old_jcr->storage;
+      }
+      new_jcr->storage = New(alist(10, not_owned_by_alist));
+      foreach_alist(st, old_jcr->storage) {
+        new_jcr->storage->append(st);
+      }
+   }
+   if (old_jcr->store) {
+      new_jcr->store = old_jcr->store;
+   } else if (new_jcr->storage) {
+      new_jcr->store = (STORE *)new_jcr->storage->first();
+   }
+}
+
+/* Set storage override */
+void set_storage(JCR *jcr, STORE *store)
+{
+   STORE *storage;
+
+   jcr->store = store;
+   foreach_alist(storage, jcr->storage) {
+      if (store == storage) {
+        return;
       }
-      Dmsg1(200, "add_str %s\n", str);
-      pm_strcat(&omsg, (char *)str);
-      Dmsg1(200, "omsg=%s\n", omsg);
    }
-   return omsg;
+   /* Store not in list, so add it */
+   jcr->storage->prepend(store);
 }