]> git.sur5r.net Git - bacula/bacula/blobdiff - bacula/src/stored/askdir.c
Add SD heartbeat
[bacula/bacula] / bacula / src / stored / askdir.c
index 00e66120845f5e1323bb28b5bb97dc6c23bfaefc..2283834f929479eb821645dc6a63f708e0a841da 100644 (file)
@@ -7,7 +7,7 @@
  *   Version $Id$
  */
 /*
-   Copyright (C) 2000, 2001, 2002 Kern Sibbald and John Walker
+   Copyright (C) 2000-2003 Kern Sibbald and John Walker
 
    This program is free software; you can redistribute it and/or
    modify it under the terms of the GNU General Public License as
 #include "stored.h"                   /* pull in Storage Deamon headers */
 
 /* Requests sent to the Director */
-static char Find_media[]    = "CatReq Job=%s FindMedia=%d\n";
+static char Find_media[]   = "CatReq Job=%s FindMedia=%d\n";
 static char Get_Vol_Info[] = "CatReq Job=%s GetVolInfo VolName=%s write=%d\n";
-
 static char Update_media[] = "CatReq Job=%s UpdateMedia VolName=%s\
- VolJobs=%d VolFiles=%d VolBlocks=%d VolBytes=%" lld " VolMounts=%d\
- VolErrors=%d VolWrites=%d VolMaxBytes=%" lld " EndTime=%d VolStatus=%s\
+ VolJobs=%u VolFiles=%u VolBlocks=%u VolBytes=%s VolMounts=%u\
+ VolErrors=%u VolWrites=%u MaxVolBytes=%s EndTime=%d VolStatus=%s\
  Slot=%d relabel=%d\n";
 
 static char Create_job_media[] = "CatReq Job=%s CreateJobMedia \
- FirstIndex=%d LastIndex=%d StartFile=%d EndFile=%d \
- StartBlock=%d EndBlock=%d\n";
-
-
+ FirstIndex=%u LastIndex=%u StartFile=%u EndFile=%u \
+ StartBlock=%u EndBlock=%u\n";
 static char FileAttributes[] = "UpdCat Job=%s FileAttributes ";
-
-static char Job_status[]   = "3012 Job %s jobstatus %d\n";
+static char Job_status[]     = "3012 Job %s jobstatus %d\n";
 
 
 /* Responses received from the Director */
-static char OK_media[] = "1000 OK VolName=%127s VolJobs=%d VolFiles=%d\
- VolBlocks=%d VolBytes=%" lld " VolMounts=%d VolErrors=%d VolWrites=%d\
- VolMaxBytes=%" lld " VolCapacityBytes=%" lld " VolStatus=%20s\
- Slot=%d\n";
-
+static char OK_media[] = "1000 OK VolName=%127s VolJobs=%u VolFiles=%u\
+ VolBlocks=%u VolBytes=%" lld " VolMounts=%u VolErrors=%u VolWrites=%u\
+ MaxVolBytes=%" lld " VolCapacityBytes=%" lld " VolStatus=%20s\
+ Slot=%d MaxVolJobs=%u MaxVolFiles=%u\n";
 static char OK_update[] = "1000 OK UpdateMedia\n";
 
+/* Forward referenced functions */
+static int device_wait(JCR *jcr, DEVICE *dev, int wait_sec);
 
 /*
  * Send current JobStatus to Director
@@ -79,23 +76,26 @@ static int do_request_volume_info(JCR *jcr)
     jcr->VolumeName[0] = 0;          /* No volume */
     if (bnet_recv(dir) <= 0) {
        Dmsg0(200, "getvolname error bnet_recv\n");
+       Mmsg(&jcr->errmsg, _("Network error on bnet_recv in req_vol_info.\n"));
        return 0;
     }
     if (sscanf(dir->msg, OK_media, vol->VolCatName, 
               &vol->VolCatJobs, &vol->VolCatFiles,
-              &vol->VolCatBlocks, &vol->VolCatBytes, 
+              &vol->VolCatBlocks, &vol->VolCatBytes,
               &vol->VolCatMounts, &vol->VolCatErrors,
-              &vol->VolCatWrites, &vol->VolCatMaxBytes, 
+              &vol->VolCatWrites, &vol->VolCatMaxBytes,
               &vol->VolCatCapacityBytes, vol->VolCatStatus,
-              &vol->Slot) != 12) {
+              &vol->Slot, &vol->VolCatMaxJobs, &vol->VolCatMaxFiles) != 14) {
+
        Dmsg1(200, "Bad response from Dir: %s\n", dir->msg);
+       Mmsg(&jcr->errmsg, _("Error scanning Dir response: %s\n"), dir->msg);
        return 0;
     }
     unbash_spaces(vol->VolCatName);
-    strcpy(jcr->VolumeName, vol->VolCatName); /* set desired VolumeName */
+    pm_strcpy(&jcr->VolumeName, vol->VolCatName); /* set desired VolumeName */
     
     Dmsg2(200, "do_reqest_vol_info got slot=%d Volume=%s\n", 
-       vol->Slot, vol->VolCatName);
+         vol->Slot, vol->VolCatName);
     return 1;
 }
 
@@ -149,20 +149,25 @@ int dir_update_volume_info(JCR *jcr, VOLUME_CAT_INFO *vol, int relabel)
 {
    BSOCK *dir = jcr->dir_bsock;
    time_t EndTime = time(NULL);
+   char ed1[50], ed2[50];
 
    if (vol->VolCatName[0] == 0) {
       Jmsg0(jcr, M_ERROR, 0, _("NULL Volume name. This shouldn't happen!!!\n"));
       return 0;
    }
+   bash_spaces(vol->VolCatName);
    bnet_fsend(dir, Update_media, jcr->Job, 
       vol->VolCatName, vol->VolCatJobs, vol->VolCatFiles,
-      vol->VolCatBlocks, vol->VolCatBytes, 
+      vol->VolCatBlocks, edit_uint64(vol->VolCatBytes, ed1),
       vol->VolCatMounts, vol->VolCatErrors,
-      vol->VolCatWrites, vol->VolCatMaxBytes, EndTime
-      vol->VolCatStatus, vol->Slot, relabel);
+      vol->VolCatWrites, edit_uint64(vol->VolCatMaxBytes, ed2)
+      EndTime, vol->VolCatStatus, vol->Slot, relabel);
    Dmsg1(120, "update_volume_data(): %s", dir->msg);
+   unbash_spaces(vol->VolCatName);
    if (bnet_recv(dir) <= 0) {
       Dmsg0(190, "updateVolCatInfo error bnet_recv\n");
+      Jmsg(jcr, M_ERROR, 0, _("Error updating Volume Info: %s\n"), 
+          bnet_strerror(dir));
       return 0;
    }
    Dmsg1(120, "Updatevol: %s", dir->msg);
@@ -188,6 +193,8 @@ int dir_create_jobmedia_record(JCR *jcr)
    Dmsg1(100, "create_jobmedia(): %s", dir->msg);
    if (bnet_recv(dir) <= 0) {
       Dmsg0(190, "create_jobmedia error bnet_recv\n");
+      Jmsg(jcr, M_ERROR, 0, _("Error creating JobMedia record: %s\n"), 
+          bnet_strerror(dir));
       return 0;
    }
    Dmsg1(120, "Create_jobmedia: %s", dir->msg);
@@ -242,9 +249,6 @@ int dir_update_file_attributes(JCR *jcr, DEV_RECORD *rec)
  */
 int dir_ask_sysop_to_mount_next_volume(JCR *jcr, DEVICE *dev)
 {
-   struct timeval tv;
-   struct timezone tz;
-   struct timespec timeout;
    int stat = 0, jstat;
    /* ******FIXME******* put these on config variable */
    int min_wait = 60 * 60;
@@ -253,14 +257,13 @@ int dir_ask_sysop_to_mount_next_volume(JCR *jcr, DEVICE *dev)
 
    int wait_sec;
    int num_wait = 0;
-   int dev_blocked;
 
    Dmsg0(130, "enter dir_ask_sysop_to_mount_next_volume\n");
    ASSERT(dev->dev_blocked);
    wait_sec = min_wait;
    for ( ;; ) {
-      if (job_cancelled(jcr)) {
-         Mmsg(&dev->errmsg, _("Job %s cancelled while waiting for mount on Storage Device \"%s\".\n"), 
+      if (job_canceled(jcr)) {
+         Mmsg(&dev->errmsg, _("Job %s canceled while waiting for mount on Storage Device \"%s\".\n"), 
              jcr->Job, jcr->dev_name);
          Jmsg(jcr, M_FATAL, 0, "%s", dev->errmsg);
         return 0;
@@ -272,8 +275,7 @@ int dir_ask_sysop_to_mount_next_volume(JCR *jcr, DEVICE *dev)
          * removable media, return now, otherwise wait
          * for the operator to mount the media.
          */
-        if (jcr->VolumeName[0] && !(dev->capabilities & CAP_REM) &&      
-             dev->capabilities & CAP_LABEL) {
+        if (jcr->VolumeName[0] && !dev_cap(dev, CAP_REM) && dev_cap(dev, CAP_LABEL)) {
             Dmsg0(190, "Return 1 from mount without wait.\n");
            return 1;
         }
@@ -296,36 +298,11 @@ Please use the \"label\"  command to create a new Volume for:\n\
              jcr->media_type,
              jcr->pool_name);
       }
-      /*
-       * Wait then send message again
-       */
-      gettimeofday(&tv, &tz);
-      timeout.tv_nsec = tv.tv_usec * 1000;
-      timeout.tv_sec = tv.tv_sec + wait_sec;
 
-      P(dev->mutex);
-      dev_blocked = dev->dev_blocked;
-      dev->dev_blocked = BST_WAITING_FOR_SYSOP; /* indicate waiting for mount */
       jcr->JobStatus = jstat;
       dir_send_job_status(jcr);
 
-      for ( ;!job_cancelled(jcr); ) {
-         Dmsg1(190, "I'm going to sleep on device %s\n", dev->dev_name);
-        stat = pthread_cond_timedwait(&dev->wait_next_vol, &dev->mutex, &timeout);
-        if (dev->dev_blocked == BST_WAITING_FOR_SYSOP) {
-           break;
-        }
-        /*         
-         * Someone other than us blocked the device (probably the
-         *  user via the Console program.   
-         * So, we continue waiting.
-         */
-        gettimeofday(&tv, &tz);
-        timeout.tv_nsec = 0;
-        timeout.tv_sec = tv.tv_sec + 10; /* wait 10 seconds */
-      }
-      dev->dev_blocked = dev_blocked;
-      V(dev->mutex);
+      stat = device_wait(jcr, dev, wait_sec);
 
       if (stat == ETIMEDOUT) {
         wait_sec *= 2;               /* double wait time */
@@ -367,7 +344,7 @@ volumes for Job=%s.\n"), jcr->Job);
       }       
       break;
    }
-   jcr->JobStatus = JS_Running;
+   set_jcr_job_status(jcr, JS_Running);
    dir_send_job_status(jcr);
    Dmsg0(130, "leave dir_ask_sysop_to_mount_next_volume\n");
    return 1;
@@ -393,11 +370,7 @@ int dir_ask_sysop_to_mount_volume(JCR *jcr, DEVICE *dev)
    int max_num_wait = 9;             /* 5 waits =~ 1 day, then 1 day at a time */
    int wait_sec;
    int num_wait = 0;
-   int dev_blocked;
    char *msg;
-   struct timeval tv;
-   struct timezone tz;
-   struct timespec timeout;
 
    Dmsg0(130, "enter dir_ask_sysop_to_mount_next_volume\n");
    if (!jcr->VolumeName[0]) {
@@ -407,8 +380,8 @@ int dir_ask_sysop_to_mount_volume(JCR *jcr, DEVICE *dev)
    ASSERT(dev->dev_blocked);
    wait_sec = min_wait;
    for ( ;; ) {
-      if (job_cancelled(jcr)) {
-         Mmsg(&dev->errmsg, _("Job %s cancelled while waiting for mount on Storage Device \"%s\".\n"), 
+      if (job_canceled(jcr)) {
+         Mmsg(&dev->errmsg, _("Job %s canceled while waiting for mount on Storage Device \"%s\".\n"), 
              jcr->Job, jcr->dev_name);
         return 0;
       }
@@ -418,36 +391,10 @@ int dir_ask_sysop_to_mount_volume(JCR *jcr, DEVICE *dev)
       Dmsg3(190, "Mount %s on %s for Job %s\n",
            jcr->VolumeName, jcr->dev_name, jcr->Job);
 
-      /*
-       * Wait then send message again
-       */
-      gettimeofday(&tv, &tz);
-      timeout.tv_nsec = tv.tv_usec * 1000;
-      timeout.tv_sec = tv.tv_sec + wait_sec;
-
-      P(dev->mutex);
-      dev_blocked = dev->dev_blocked;
-      dev->dev_blocked = BST_WAITING_FOR_SYSOP; /* indicate waiting for mount */
       jcr->JobStatus = JS_WaitMount;
       dir_send_job_status(jcr);
 
-      for ( ;!job_cancelled(jcr); ) {
-         Dmsg1(190, "I'm going to sleep on device %s\n", dev->dev_name);
-        stat = pthread_cond_timedwait(&dev->wait_next_vol, &dev->mutex, &timeout);
-        if (dev->dev_blocked == BST_WAITING_FOR_SYSOP) {
-           break;
-        }
-        /*         
-         * Someone other than us blocked the device (probably the
-         *  user via the Console program.   
-         * So, we continue waiting.
-         */
-        gettimeofday(&tv, &tz);
-        timeout.tv_nsec = 0;
-        timeout.tv_sec = tv.tv_sec + 10; /* wait 10 seconds */
-      }
-      dev->dev_blocked = dev_blocked;
-      V(dev->mutex);
+      stat = device_wait(jcr, dev, wait_sec); /* wait on device */
 
       if (stat == ETIMEDOUT) {
         wait_sec *= 2;               /* double wait time */
@@ -481,8 +428,84 @@ int dir_ask_sysop_to_mount_volume(JCR *jcr, DEVICE *dev)
       num_wait = 0;
       break;
    }
-   jcr->JobStatus = JS_Running;
+   set_jcr_job_status(jcr, JS_Running);
    dir_send_job_status(jcr);
    Dmsg0(130, "leave dir_ask_sysop_to_mount_next_volume\n");
    return 1;
 }
+
+#define HB_TIME 20*60  /* send a heatbeat once every 20 minutes while waiting */
+
+static int device_wait(JCR *jcr, DEVICE *dev, int wait_sec)
+{
+   struct timeval tv;
+   struct timezone tz;
+   struct timespec timeout;
+   int dev_blocked;
+   time_t start = time(NULL);
+   time_t last_heartbeat = 0;
+   int stat = 0;
+   
+   /*
+    * Wait requested time (wait_sec).  However, we also wake up every
+    *   HB_TIME seconds and send a heartbeat to the FD and the Director
+    *   to keep stateful firewalls from closing them down while waiting
+    *   for the operator.
+    */
+   gettimeofday(&tv, &tz);
+   timeout.tv_nsec = tv.tv_usec * 1000;
+   timeout.tv_sec = tv.tv_sec + (wait_sec > HB_TIME ? HB_TIME: wait_sec);
+
+   P(dev->mutex);
+   dev_blocked = dev->dev_blocked;
+   dev->dev_blocked = BST_WAITING_FOR_SYSOP; /* indicate waiting for mount */
+
+   for ( ; !job_canceled(jcr); ) {
+      int add_wait;
+
+      Dmsg1(190, "I'm going to sleep on device %s\n", dev->dev_name);
+      stat = pthread_cond_timedwait(&dev->wait_next_vol, &dev->mutex, &timeout);
+
+      /* Note, this always triggers the first time. We want that. */
+      time_t now = time(NULL);
+      if (now - last_heartbeat >= HB_TIME) {
+        /* send heartbeats */
+        if (jcr->file_bsock) {
+           bnet_sig(jcr->file_bsock, BNET_HEARTBEAT);
+        }
+        if (jcr->dir_bsock) {
+           bnet_sig(jcr->dir_bsock, BNET_HEARTBEAT);
+        }
+        last_heartbeat = now;
+      }
+
+      /* Check if we blocked the device */
+      if (dev->dev_blocked == BST_WAITING_FOR_SYSOP) {
+        if (stat != ETIMEDOUT) {     /* we blocked the device */
+           break;                    /* on error return */
+        }
+        if (now - start >= wait_sec) {  /* on exceeding wait time return */
+           break;
+        }
+        add_wait = wait_sec - (now - start);
+        if (add_wait > HB_TIME) {
+           add_wait = HB_TIME;
+        }
+      } else {                       /* Oops someone else has it blocked now */
+        add_wait = 10;               /* hang around until he releases it */
+      }
+      /*        
+       * Note, if dev_blocked is not BST_WAITING FOR_SYSOP,
+       *  someone other than us has blocked the device (probably the
+       *  user via the Console program), so we continue waiting
+       *  until he releases the device back to us.
+       */
+      gettimeofday(&tv, &tz);
+      timeout.tv_nsec = tv.tv_usec * 1000;
+      timeout.tv_sec = tv.tv_sec + add_wait; /* additional wait */
+   }
+
+   dev->dev_blocked = dev_blocked;
+   V(dev->mutex);
+   return stat;
+}