]> git.sur5r.net Git - openldap/blobdiff - libraries/liblmdb/mdb.c
Simpler mdb_txn_commit().
[openldap] / libraries / liblmdb / mdb.c
index 67e0e19165bc9cf8d004acca903e1b7d33b81824..80a6eb977f0d47c9059f3ac13c5907c59264330c 100644 (file)
@@ -121,7 +121,14 @@ extern int cacheflush(char *addr, int nbytes, int cache);
 #ifdef MDB_USE_POSIX_SEM
 # define MDB_USE_HASH          1
 #include <semaphore.h>
+#else
+#define MDB_USE_POSIX_MUTEX    1
+#endif
 #endif
+
+#if defined(_WIN32) + defined(MDB_USE_POSIX_SEM) \
+       + defined(MDB_USE_POSIX_MUTEX) != 1
+# error "Ambiguous shared-lock implementation"
 #endif
 
 #ifdef USE_VALGRIND
@@ -217,6 +224,18 @@ extern int cacheflush(char *addr, int nbytes, int cache);
 # define mdb_func_     "<mdb_unknown>"
 #endif
 
+/* Internal error codes, not exposed outside liblmdb */
+#define        MDB_NO_ROOT             (MDB_LAST_ERRCODE + 10)
+#ifdef _WIN32
+#define MDB_OWNERDEAD  ((int) WAIT_ABANDONED)
+#elif defined(MDB_USE_POSIX_MUTEX) && defined(EOWNERDEAD)
+#define MDB_OWNERDEAD  EOWNERDEAD      /**< #LOCK_MUTEX0() result if dead owner */
+#endif
+
+#ifdef MDB_OWNERDEAD
+#define MDB_ROBUST_SUPPORTED   1
+#endif
+
 #ifdef _WIN32
 #define MDB_USE_HASH   1
 #define MDB_PIDLOCK    0
@@ -224,6 +243,7 @@ extern int cacheflush(char *addr, int nbytes, int cache);
 #define pthread_t      HANDLE
 #define pthread_mutex_t        HANDLE
 #define pthread_cond_t HANDLE
+typedef HANDLE mdb_mutex_t, mdb_mutexref_t;
 #define pthread_key_t  DWORD
 #define pthread_self() GetCurrentThreadId()
 #define pthread_key_create(x,y)        \
@@ -237,10 +257,9 @@ extern int cacheflush(char *addr, int nbytes, int cache);
 #define pthread_cond_wait(cond,mutex)  do{SignalObjectAndWait(*mutex, *cond, INFINITE, FALSE); WaitForSingleObject(*mutex, INFINITE);}while(0)
 #define THREAD_CREATE(thr,start,arg)   thr=CreateThread(NULL,0,start,arg,0,NULL)
 #define THREAD_FINISH(thr)     WaitForSingleObject(thr, INFINITE)
-#define LOCK_MUTEX_R(env)      pthread_mutex_lock(&(env)->me_rmutex)
-#define UNLOCK_MUTEX_R(env)    pthread_mutex_unlock(&(env)->me_rmutex)
-#define LOCK_MUTEX_W(env)      pthread_mutex_lock(&(env)->me_wmutex)
-#define UNLOCK_MUTEX_W(env)    pthread_mutex_unlock(&(env)->me_wmutex)
+#define LOCK_MUTEX0(mutex)             WaitForSingleObject(mutex, INFINITE)
+#define UNLOCK_MUTEX(mutex)            ReleaseMutex(mutex)
+#define mdb_mutex_consistent(mutex)    0
 #define getpid()       GetCurrentProcessId()
 #define        MDB_FDATASYNC(fd)       (!FlushFileBuffers(fd))
 #define        MDB_MSYNC(addr,len,flags)       (!FlushViewOfFile(addr,len))
@@ -265,10 +284,9 @@ extern int cacheflush(char *addr, int nbytes, int cache);
 
 #ifdef MDB_USE_POSIX_SEM
 
-#define LOCK_MUTEX_R(env)      mdb_sem_wait((env)->me_rmutex)
-#define UNLOCK_MUTEX_R(env)    sem_post((env)->me_rmutex)
-#define LOCK_MUTEX_W(env)      mdb_sem_wait((env)->me_wmutex)
-#define UNLOCK_MUTEX_W(env)    sem_post((env)->me_wmutex)
+typedef sem_t *mdb_mutex_t, *mdb_mutexref_t;
+#define LOCK_MUTEX0(mutex)             mdb_sem_wait(mutex)
+#define UNLOCK_MUTEX(mutex)            sem_post(mutex)
 
 static int
 mdb_sem_wait(sem_t *sem)
@@ -278,22 +296,26 @@ mdb_sem_wait(sem_t *sem)
    return rc;
 }
 
-#else
-       /** Lock the reader mutex.
+#else  /* MDB_USE_POSIX_MUTEX: */
+       /** Shared mutex/semaphore as it is stored (mdb_mutex_t), and as
+        *      local variables keep it (mdb_mutexref_t).
+        *
+        *      When #mdb_mutexref_t is a pointer declaration and #mdb_mutex_t is
+        *      not, then it is array[size 1] so it can be assigned to a pointer.
+        *      @{
         */
-#define LOCK_MUTEX_R(env)      pthread_mutex_lock(&(env)->me_txns->mti_mutex)
-       /** Unlock the reader mutex.
+typedef pthread_mutex_t mdb_mutex_t[1], *mdb_mutexref_t;
+       /*      @} */
+       /** Lock the reader or writer mutex.
+        *      Returns 0 or a code to give #mdb_mutex_failed(), as in #LOCK_MUTEX().
         */
-#define UNLOCK_MUTEX_R(env)    pthread_mutex_unlock(&(env)->me_txns->mti_mutex)
-
-       /** Lock the writer mutex.
-        *      Only a single write transaction is allowed at a time. Other writers
-        *      will block waiting for this mutex.
+#define LOCK_MUTEX0(mutex)     pthread_mutex_lock(mutex)
+       /** Unlock the reader or writer mutex.
         */
-#define LOCK_MUTEX_W(env)      pthread_mutex_lock(&(env)->me_txns->mti_wmutex)
-       /** Unlock the writer mutex.
+#define UNLOCK_MUTEX(mutex)    pthread_mutex_unlock(mutex)
+       /** Mark mutex-protected data as repaired, after death of previous owner.
         */
-#define UNLOCK_MUTEX_W(env)    pthread_mutex_unlock(&(env)->me_txns->mti_wmutex)
+#define mdb_mutex_consistent(mutex)    pthread_mutex_consistent(mutex)
 #endif /* MDB_USE_POSIX_SEM */
 
        /** Get the error code for the last failed system function.
@@ -327,6 +349,19 @@ mdb_sem_wait(sem_t *sem)
 
 /** @} */
 
+#ifdef MDB_ROBUST_SUPPORTED
+       /** Lock mutex, handle any error, set rc = result.
+        *      Return 0 on success, nonzero (not rc) on error.
+        */
+#define LOCK_MUTEX(rc, env, mutex) \
+       (((rc) = LOCK_MUTEX0(mutex)) && \
+        ((rc) = mdb_mutex_failed(env, mutex, rc)))
+static int mdb_mutex_failed(MDB_env *env, mdb_mutexref_t mutex, int rc);
+#else
+#define LOCK_MUTEX(rc, env, mutex) ((rc) = LOCK_MUTEX0(mutex))
+#define mdb_mutex_failed(env, mutex, rc) (rc)
+#endif
+
 #ifndef _WIN32
 /**    A flag for opening a file and requesting synchronous data writes.
  *     This is only used when writing a meta page. It's not strictly needed;
@@ -643,9 +678,9 @@ typedef struct MDB_txbody {
        char    mtb_rmname[MNAME_LEN];
 #else
                /** Mutex protecting access to this table.
-                *      This is the reader lock that #LOCK_MUTEX_R acquires.
+                *      This is the reader table lock used with LOCK_MUTEX().
                 */
-       pthread_mutex_t mtb_mutex;
+       mdb_mutex_t     mtb_rmutex;
 #endif
                /**     The ID of the last transaction committed to the database.
                 *      This is recorded here only for convenience; the value can always
@@ -665,7 +700,7 @@ typedef struct MDB_txninfo {
                MDB_txbody mtb;
 #define mti_magic      mt1.mtb.mtb_magic
 #define mti_format     mt1.mtb.mtb_format
-#define mti_mutex      mt1.mtb.mtb_mutex
+#define mti_rmutex     mt1.mtb.mtb_rmutex
 #define mti_rmname     mt1.mtb.mtb_rmname
 #define mti_txnid      mt1.mtb.mtb_txnid
 #define mti_numreaders mt1.mtb.mtb_numreaders
@@ -676,7 +711,7 @@ typedef struct MDB_txninfo {
                char mt2_wmname[MNAME_LEN];
 #define        mti_wmname      mt2.mt2_wmname
 #else
-               pthread_mutex_t mt2_wmutex;
+               mdb_mutex_t     mt2_wmutex;
 #define mti_wmutex     mt2.mt2_wmutex
 #endif
                char pad[(MNAME_LEN+CACHELINE-1) & ~(CACHELINE-1)];
@@ -1016,7 +1051,11 @@ struct MDB_txn {
  *     @ingroup internal
  *     @{
  */
-#define MDB_TXN_RDONLY         0x01            /**< read-only transaction */
+       /** #mdb_txn_begin() flags */
+#define MDB_TXN_BEGIN_FLAGS    MDB_RDONLY
+#define MDB_TXN_RDONLY         MDB_RDONLY      /**< read-only transaction */
+       /* internal txn flags */
+#define MDB_TXN_WRITEMAP       MDB_WRITEMAP    /**< copy of #MDB_env flag in writers */
 #define MDB_TXN_ERROR          0x02            /**< txn is unusable after an error */
 #define MDB_TXN_DIRTY          0x04            /**< must write, even if dirty list is empty */
 #define MDB_TXN_SPILLS         0x08            /**< txn or a parent has spilled pages */
@@ -1159,11 +1198,13 @@ struct MDB_env {
        int             me_live_reader;         /**< have liveness lock in reader table */
 #ifdef _WIN32
        int             me_pidquery;            /**< Used in OpenProcess */
-       HANDLE          me_rmutex;              /* Windows mutexes don't reside in shared mem */
-       HANDLE          me_wmutex;
-#elif defined(MDB_USE_POSIX_SEM)
-       sem_t           *me_rmutex;             /* Shared mutexes are not supported */
-       sem_t           *me_wmutex;
+#endif
+#ifdef MDB_USE_POSIX_MUTEX     /* Posix mutexes reside in shared mem */
+#      define          me_rmutex       me_txns->mti_rmutex /**< Shared reader lock */
+#      define          me_wmutex       me_txns->mti_wmutex /**< Shared writer lock */
+#else
+       mdb_mutex_t     me_rmutex;
+       mdb_mutex_t     me_wmutex;
 #endif
        void            *me_userctx;     /**< User-settable context */
        MDB_assert_func *me_assert_func; /**< Callback for assertion failures */
@@ -1215,7 +1256,7 @@ static int        mdb_page_split(MDB_cursor *mc, MDB_val *newkey, MDB_val *newdata,
 static int  mdb_env_read_header(MDB_env *env, MDB_meta *meta);
 static int  mdb_env_pick_meta(const MDB_env *env);
 static int  mdb_env_write_meta(MDB_txn *txn);
-#if !(defined(_WIN32) || defined(MDB_USE_POSIX_SEM)) /* Drop unused excl arg */
+#ifdef MDB_USE_POSIX_MUTEX /* Drop unused excl arg */
 # define mdb_env_close0(env, excl) mdb_env_close1(env)
 #endif
 static void mdb_env_close0(MDB_env *env, int excl);
@@ -1253,6 +1294,7 @@ static void       mdb_xcursor_init2(MDB_cursor *mc, MDB_xcursor *src_mx, int force);
 
 static int     mdb_drop0(MDB_cursor *mc, int subs);
 static void mdb_default_cmp(MDB_txn *txn, MDB_dbi dbi);
+static int mdb_reader_check0(MDB_env *env, int rlocked, int *dead);
 
 /** @cond */
 static MDB_cmp_func    mdb_cmp_memn, mdb_cmp_memnr, mdb_cmp_int, mdb_cmp_cint, mdb_cmp_long;
@@ -1287,7 +1329,7 @@ static char *const mdb_errstr[] = {
        "MDB_NOTFOUND: No matching key/data pair found",
        "MDB_PAGE_NOTFOUND: Requested page not found",
        "MDB_CORRUPTED: Located page was wrong type",
-       "MDB_PANIC: Update of meta page failed",
+       "MDB_PANIC: Update of meta page failed or environment had fatal error",
        "MDB_VERSION_MISMATCH: Database environment version mismatch",
        "MDB_INVALID: File is not an LMDB file",
        "MDB_MAP_FULL: Environment mapsize limit reached",
@@ -1942,7 +1984,7 @@ mdb_page_dirty(MDB_txn *txn, MDB_page *mp)
        MDB_ID2 mid;
        int rc, (*insert)(MDB_ID2L, MDB_ID2 *);
 
-       if (txn->mt_env->me_flags & MDB_WRITEMAP) {
+       if (txn->mt_flags & MDB_TXN_WRITEMAP) {
                insert = mdb_mid2l_append;
        } else {
                insert = mdb_mid2l_insert;
@@ -2529,6 +2571,7 @@ mdb_txn_renew0(MDB_txn *txn)
                        } else {
                                MDB_PID_T pid = env->me_pid;
                                MDB_THR_T tid = pthread_self();
+                               mdb_mutexref_t rmutex = env->me_rmutex;
 
                                if (!env->me_live_reader) {
                                        rc = mdb_reader_pid(env, Pidset, pid);
@@ -2537,13 +2580,14 @@ mdb_txn_renew0(MDB_txn *txn)
                                        env->me_live_reader = 1;
                                }
 
-                               LOCK_MUTEX_R(env);
+                               if (LOCK_MUTEX(rc, env, rmutex))
+                                       return rc;
                                nr = ti->mti_numreaders;
                                for (i=0; i<nr; i++)
                                        if (ti->mti_readers[i].mr_pid == 0)
                                                break;
                                if (i == env->me_maxreaders) {
-                                       UNLOCK_MUTEX_R(env);
+                                       UNLOCK_MUTEX(rmutex);
                                        return MDB_READERS_FULL;
                                }
                                r = &ti->mti_readers[i];
@@ -2560,7 +2604,7 @@ mdb_txn_renew0(MDB_txn *txn)
                                        ti->mti_numreaders = ++nr;
                                env->me_close_readers = nr;
                                r->mr_pid = pid;
-                               UNLOCK_MUTEX_R(env);
+                               UNLOCK_MUTEX(rmutex);
 
                                new_notls = (env->me_flags & MDB_NOTLS);
                                if (!new_notls && (rc=pthread_setspecific(env->me_txkey, r))) {
@@ -2577,9 +2621,10 @@ mdb_txn_renew0(MDB_txn *txn)
                }
                txn->mt_dbxs = env->me_dbxs;    /* mostly static anyway */
        } else {
+               /* Not yet touching txn == env->me_txn0, it may be active */
                if (ti) {
-                       LOCK_MUTEX_W(env);
-
+                       if (LOCK_MUTEX(rc, env, env->me_wmutex))
+                               return rc;
                        txn->mt_txnid = ti->mti_txnid;
                        meta = env->me_metas[txn->mt_txnid & 1];
                } else {
@@ -2660,60 +2705,52 @@ mdb_txn_begin(MDB_env *env, MDB_txn *parent, unsigned int flags, MDB_txn **ret)
 {
        MDB_txn *txn;
        MDB_ntxn *ntxn;
-       int rc, size, tsize = sizeof(MDB_txn);
+       int rc, size, tsize;
+
+       flags &= MDB_TXN_BEGIN_FLAGS;
+       flags |= env->me_flags & MDB_WRITEMAP;
 
        if (env->me_flags & MDB_FATAL_ERROR) {
                DPUTS("environment had fatal error, must shutdown!");
                return MDB_PANIC;
        }
-       if ((env->me_flags & MDB_RDONLY) && !(flags & MDB_RDONLY))
+       if (env->me_flags & MDB_RDONLY & ~flags) /* write txn in RDONLY env */
                return EACCES;
+
        if (parent) {
                /* Nested transactions: Max 1 child, write txns only, no writemap */
+               flags |= parent->mt_flags;
                if (parent->mt_child ||
-                       (flags & MDB_RDONLY) ||
-                       (parent->mt_flags & (MDB_TXN_RDONLY|MDB_TXN_ERROR)) ||
-                       (env->me_flags & MDB_WRITEMAP))
+                       (flags & (MDB_RDONLY|MDB_WRITEMAP|MDB_TXN_ERROR)))
                {
                        return (parent->mt_flags & MDB_TXN_RDONLY) ? EINVAL : MDB_BAD_TXN;
                }
-               tsize = sizeof(MDB_ntxn);
-       }
-       size = tsize;
-       if (!(flags & MDB_RDONLY)) {
-               if (!parent) {
-                       txn = env->me_txn0;     /* just reuse preallocated write txn */
-                       goto ok;
-               }
-               /* child txns use own copy of cursors */
-               size += env->me_maxdbs * sizeof(MDB_cursor *);
+               /* Child txns save MDB_pgstate and use own copy of cursors */
+               size = env->me_maxdbs * (sizeof(MDB_db)+sizeof(MDB_cursor *)+1);
+               size += tsize = sizeof(MDB_ntxn);
+       } else if (flags & MDB_RDONLY) {
+               size = env->me_maxdbs * (sizeof(MDB_db)+1);
+               size += tsize = sizeof(MDB_txn);
+       } else {
+               /* Reuse preallocated write txn. However, do not touch it until
+                * mdb_txn_renew0() succeeds, since it currently may be active.
+                */
+               txn = env->me_txn0;
+               goto renew;
        }
-       size += env->me_maxdbs * (sizeof(MDB_db)+1);
-
        if ((txn = calloc(1, size)) == NULL) {
                DPRINTF(("calloc: %s", strerror(errno)));
                return ENOMEM;
        }
        txn->mt_dbs = (MDB_db *) ((char *)txn + tsize);
-       if (flags & MDB_RDONLY) {
-               txn->mt_flags |= MDB_TXN_RDONLY;
-               txn->mt_dbflags = (unsigned char *)(txn->mt_dbs + env->me_maxdbs);
-               txn->mt_dbiseqs = env->me_dbiseqs;
-       } else {
-               txn->mt_cursors = (MDB_cursor **)(txn->mt_dbs + env->me_maxdbs);
-               if (parent) {
-                       txn->mt_dbiseqs = parent->mt_dbiseqs;
-                       txn->mt_dbflags = (unsigned char *)(txn->mt_cursors + env->me_maxdbs);
-               } else {
-                       txn->mt_dbiseqs = (unsigned int *)(txn->mt_cursors + env->me_maxdbs);
-                       txn->mt_dbflags = (unsigned char *)(txn->mt_dbiseqs + env->me_maxdbs);
-               }
-       }
+       txn->mt_dbflags = (unsigned char *)txn + size - env->me_maxdbs;
+       txn->mt_flags = flags;
        txn->mt_env = env;
 
-ok:
        if (parent) {
                unsigned int i;
+               txn->mt_cursors = (MDB_cursor **)(txn->mt_dbs + env->me_maxdbs);
+               txn->mt_dbiseqs = parent->mt_dbiseqs;
                txn->mt_u.dirty_list = malloc(sizeof(MDB_ID2)*MDB_IDL_UM_SIZE);
                if (!txn->mt_u.dirty_list ||
                        !(txn->mt_free_pgs = mdb_midl_alloc(MDB_IDL_UM_MAX)))
@@ -2730,7 +2767,6 @@ ok:
                parent->mt_child = txn;
                txn->mt_parent = parent;
                txn->mt_numdbs = parent->mt_numdbs;
-               txn->mt_flags = parent->mt_flags;
                txn->mt_dbxs = parent->mt_dbxs;
                memcpy(txn->mt_dbs, parent->mt_dbs, txn->mt_numdbs * sizeof(MDB_db));
                /* Copy parent's mt_dbflags, but clear DB_NEW */
@@ -2751,16 +2787,19 @@ ok:
                        rc = mdb_cursor_shadow(parent, txn);
                if (rc)
                        mdb_txn_reset0(txn, "beginchild-fail");
-       } else {
+       } else { /* MDB_RDONLY */
+               txn->mt_dbiseqs = env->me_dbiseqs;
+renew:
                rc = mdb_txn_renew0(txn);
        }
        if (rc) {
                if (txn != env->me_txn0)
                        free(txn);
        } else {
+               txn->mt_flags |= flags; /* could not change txn=me_txn0 earlier */
                *ret = txn;
                DPRINTF(("begin txn %"Z"u%c %p on mdbenv %p, root page %"Z"u",
-                       txn->mt_txnid, (txn->mt_flags & MDB_TXN_RDONLY) ? 'r' : 'w',
+                       txn->mt_txnid, (flags & MDB_RDONLY) ? 'r' : 'w',
                        (void *) txn, (void *) env, txn->mt_dbs[MAIN_DBI].md_root));
        }
 
@@ -2853,7 +2892,7 @@ mdb_txn_reset0(MDB_txn *txn, const char *act)
                        env->me_txn = NULL;
                        /* The writer mutex was locked in mdb_txn_begin. */
                        if (env->me_txns)
-                               UNLOCK_MUTEX_W(env);
+                               UNLOCK_MUTEX(env->me_wmutex);
                } else {
                        txn->mt_parent->mt_child = NULL;
                        env->me_pgstate = ((MDB_ntxn *)txn)->mnt_pgstate;
@@ -3248,12 +3287,11 @@ mdb_txn_commit(MDB_txn *txn)
        unsigned int i;
        MDB_env *env;
 
-       if (txn == NULL || txn->mt_env == NULL)
+       if (txn == NULL)
                return EINVAL;
 
        if (txn->mt_child) {
                rc = mdb_txn_commit(txn->mt_child);
-               txn->mt_child = NULL;
                if (rc)
                        goto fail;
        }
@@ -3453,7 +3491,7 @@ done:
        mdb_dbis_update(txn, 1);
 
        if (env->me_txns)
-               UNLOCK_MUTEX_W(env);
+               UNLOCK_MUTEX(env->me_wmutex);
        if (txn != env->me_txn0)
                free(txn);
 
@@ -3606,6 +3644,7 @@ mdb_env_write_meta(MDB_txn *txn)
 {
        MDB_env *env;
        MDB_meta        meta, metab, *mp;
+       unsigned flags;
        size_t mapsize;
        off_t off;
        int rc, len, toggle;
@@ -3622,19 +3661,25 @@ mdb_env_write_meta(MDB_txn *txn)
                toggle, txn->mt_dbs[MAIN_DBI].md_root));
 
        env = txn->mt_env;
+       flags = env->me_flags;
        mp = env->me_metas[toggle];
        mapsize = env->me_metas[toggle ^ 1]->mm_mapsize;
        /* Persist any increases of mapsize config */
        if (mapsize < env->me_mapsize)
                mapsize = env->me_mapsize;
 
-       if (env->me_flags & MDB_WRITEMAP) {
+       if (flags & MDB_WRITEMAP) {
                mp->mm_mapsize = mapsize;
                mp->mm_dbs[0] = txn->mt_dbs[0];
                mp->mm_dbs[1] = txn->mt_dbs[1];
                mp->mm_last_pg = txn->mt_next_pgno - 1;
+#if (__GNUC__ * 100 + __GNUC_MINOR__ >= 404) && /* TODO: portability */        \
+       !(defined(__i386__) || defined(__x86_64__))
+               /* LY: issue a memory barrier, if not x86. ITS#7969 */
+               __sync_synchronize();
+#endif
                mp->mm_txnid = txn->mt_txnid;
-               if (!(env->me_flags & (MDB_NOMETASYNC|MDB_NOSYNC))) {
+               if (!(flags & (MDB_NOMETASYNC|MDB_NOSYNC))) {
                        unsigned meta_size = env->me_psize;
                        rc = (env->me_flags & MDB_MAPASYNC) ? MS_ASYNC : MS_SYNC;
                        ptr = env->me_map;
@@ -3670,8 +3715,7 @@ mdb_env_write_meta(MDB_txn *txn)
        off += PAGEHDRSZ;
 
        /* Write to the SYNC fd */
-       mfd = env->me_flags & (MDB_NOSYNC|MDB_NOMETASYNC) ?
-               env->me_fd : env->me_mfd;
+       mfd = (flags & (MDB_NOSYNC|MDB_NOMETASYNC)) ? env->me_fd : env->me_mfd;
 #ifdef _WIN32
        {
                memset(&ov, 0, sizeof(ov));
@@ -3946,6 +3990,7 @@ mdb_env_open2(MDB_env *env)
        else
                env->me_pidquery = PROCESS_QUERY_INFORMATION;
 #endif /* _WIN32 */
+
 #ifdef BROKEN_FDATASYNC
        /* ext3/ext4 fdatasync is broken on some older Linux kernels.
         * https://lkml.org/lkml/2012/9/3/83
@@ -4219,8 +4264,8 @@ mdb_env_excl_lock(MDB_env *env, int *excl)
        if (!rc) {
                *excl = 1;
        } else
-# ifdef MDB_USE_POSIX_SEM
-       if (*excl < 0) /* always true when !MDB_USE_POSIX_SEM */
+# ifndef MDB_USE_POSIX_MUTEX
+       if (*excl < 0) /* always true when MDB_USE_POSIX_MUTEX */
 # endif
        {
                lock_info.l_type = F_RDLCK;
@@ -4492,13 +4537,16 @@ mdb_env_setup_locks(MDB_env *env, char *lpath, int mode, int *excl)
                env->me_wmutex = sem_open(env->me_txns->mti_wmname,
                        O_CREAT|O_EXCL, mode, 1);
                if (env->me_wmutex == SEM_FAILED) goto fail_errno;
-#else  /* MDB_USE_POSIX_SEM */
+#else  /* MDB_USE_POSIX_MUTEX: */
                pthread_mutexattr_t mattr;
 
                if ((rc = pthread_mutexattr_init(&mattr))
                        || (rc = pthread_mutexattr_setpshared(&mattr, PTHREAD_PROCESS_SHARED))
-                       || (rc = pthread_mutex_init(&env->me_txns->mti_mutex, &mattr))
-                       || (rc = pthread_mutex_init(&env->me_txns->mti_wmutex, &mattr)))
+#ifdef MDB_ROBUST_SUPPORTED
+                       || (rc = pthread_mutexattr_setrobust(&mattr, PTHREAD_MUTEX_ROBUST))
+#endif
+                       || (rc = pthread_mutex_init(env->me_txns->mti_rmutex, &mattr))
+                       || (rc = pthread_mutex_init(env->me_txns->mti_wmutex, &mattr)))
                        goto fail;
                pthread_mutexattr_destroy(&mattr);
 #endif /* _WIN32 || MDB_USE_POSIX_SEM */
@@ -4555,8 +4603,8 @@ fail:
         *      environment and re-opening it with the new flags.
         */
 #define        CHANGEABLE      (MDB_NOSYNC|MDB_NOMETASYNC|MDB_MAPASYNC|MDB_NOMEMINIT)
-#define        CHANGELESS      (MDB_FIXEDMAP|MDB_NOSUBDIR|MDB_RDONLY|MDB_WRITEMAP| \
-       MDB_NOTLS|MDB_NOLOCK|MDB_NORDAHEAD)
+#define        CHANGELESS      (MDB_FIXEDMAP|MDB_NOSUBDIR|MDB_RDONLY| \
+       MDB_WRITEMAP|MDB_NOTLS|MDB_NOLOCK|MDB_NORDAHEAD)
 
 #if VALID_FLAGS & PERSISTENT_FLAGS & (CHANGEABLE|CHANGELESS)
 # error "Persistent DB flags & env flags overlap, but both go in mm_flags"
@@ -4612,6 +4660,7 @@ mdb_env_open(MDB_env *env, const char *path, unsigned int flags, mdb_mode_t mode
                rc = ENOMEM;
                goto leave;
        }
+       env->me_dbxs[FREE_DBI].md_cmp = mdb_cmp_long; /* aligned MDB_INTEGERKEY */
 
        /* For RDONLY, get lockfile after we know datafile exists */
        if (!(flags & (MDB_RDONLY|MDB_NOLOCK))) {
@@ -4677,15 +4726,13 @@ mdb_env_open(MDB_env *env, const char *path, unsigned int flags, mdb_mode_t mode
                        if (rc)
                                goto leave;
                }
-               if (!((flags & MDB_RDONLY) ||
-                         (env->me_pbuf = calloc(1, env->me_psize))))
-                       rc = ENOMEM;
                if (!(flags & MDB_RDONLY)) {
                        MDB_txn *txn;
                        int tsize = sizeof(MDB_txn), size = tsize + env->me_maxdbs *
                                (sizeof(MDB_db)+sizeof(MDB_cursor *)+sizeof(unsigned int)+1);
-                       txn = calloc(1, size);
-                       if (txn) {
+                       if ((env->me_pbuf = calloc(1, env->me_psize)) &&
+                               (txn = calloc(1, size)))
+                       {
                                txn->mt_dbs = (MDB_db *)((char *)txn + tsize);
                                txn->mt_cursors = (MDB_cursor **)(txn->mt_dbs + env->me_maxdbs);
                                txn->mt_dbiseqs = (unsigned int *)(txn->mt_cursors + env->me_maxdbs);
@@ -4804,7 +4851,6 @@ mdb_env_close0(MDB_env *env, int excl)
        env->me_flags &= ~(MDB_ENV_ACTIVE|MDB_ENV_TXKEY);
 }
 
-
 void ESECT
 mdb_env_close(MDB_env *env)
 {
@@ -5081,7 +5127,7 @@ mdb_page_get(MDB_txn *txn, pgno_t pgno, MDB_page **ret, int *lvl)
        MDB_page *p = NULL;
        int level;
 
-       if (!((txn->mt_flags & MDB_TXN_RDONLY) | (env->me_flags & MDB_WRITEMAP))) {
+       if (! (txn->mt_flags & (MDB_TXN_RDONLY|MDB_TXN_WRITEMAP))) {
                MDB_txn *tx2 = txn;
                level = 1;
                do {
@@ -6146,7 +6192,6 @@ int
 mdb_cursor_put(MDB_cursor *mc, MDB_val *key, MDB_val *data,
     unsigned int flags)
 {
-       enum { MDB_NO_ROOT = MDB_LAST_ERRCODE+10 }; /* internal code */
        MDB_env         *env;
        MDB_node        *leaf = NULL;
        MDB_page        *fp, *mp, *sub_root = NULL;
@@ -7150,7 +7195,7 @@ mdb_xcursor_init1(MDB_cursor *mc, MDB_node *node)
                mx->mx_cursor.mc_flags = C_SUB;
        } else {
                MDB_page *fp = NODEDATA(node);
-               mx->mx_db.md_pad = mc->mc_pg[mc->mc_top]->mp_pad;
+               mx->mx_db.md_pad = 0;
                mx->mx_db.md_flags = 0;
                mx->mx_db.md_depth = 1;
                mx->mx_db.md_branch_pages = 0;
@@ -8145,6 +8190,7 @@ mdb_page_split(MDB_cursor *mc, MDB_val *newkey, MDB_val *newdata, pgno_t newpgno
        /* Create a right sibling. */
        if ((rc = mdb_page_new(mc, mp->mp_flags, 1, &rp)))
                return rc;
+       rp->mp_pad = mp->mp_pad;
        DPRINTF(("new right sibling: page %"Z"u", rp->mp_pgno));
 
        if (mc->mc_snum < 2) {
@@ -8908,6 +8954,7 @@ static int ESECT
 mdb_env_copyfd0(MDB_env *env, HANDLE fd)
 {
        MDB_txn *txn = NULL;
+       mdb_mutexref_t wmutex = NULL;
        int rc;
        size_t wsize;
        char *ptr;
@@ -8932,11 +8979,13 @@ mdb_env_copyfd0(MDB_env *env, HANDLE fd)
                mdb_txn_reset0(txn, "reset-stage1");
 
                /* Temporarily block writers until we snapshot the meta pages */
-               LOCK_MUTEX_W(env);
+               wmutex = env->me_wmutex;
+               if (LOCK_MUTEX(rc, env, wmutex))
+                       goto leave;
 
                rc = mdb_txn_renew0(txn);
                if (rc) {
-                       UNLOCK_MUTEX_W(env);
+                       UNLOCK_MUTEX(wmutex);
                        goto leave;
                }
        }
@@ -8960,8 +9009,8 @@ mdb_env_copyfd0(MDB_env *env, HANDLE fd)
                        break;
                }
        }
-       if (env->me_txns)
-               UNLOCK_MUTEX_W(env);
+       if (wmutex)
+               UNLOCK_MUTEX(wmutex);
 
        if (rc)
                goto leave;
@@ -9099,7 +9148,7 @@ mdb_env_get_flags(MDB_env *env, unsigned int *arg)
        if (!env || !arg)
                return EINVAL;
 
-       *arg = env->me_flags;
+       *arg = env->me_flags & (CHANGEABLE|CHANGELESS);
        return MDB_SUCCESS;
 }
 
@@ -9233,10 +9282,6 @@ int mdb_dbi_open(MDB_txn *txn, const char *name, unsigned int flags, MDB_dbi *db
        unsigned int unused = 0, seq;
        size_t len;
 
-       if (txn->mt_dbxs[FREE_DBI].md_cmp == NULL) {
-               mdb_default_cmp(txn, FREE_DBI);
-       }
-
        if ((flags & VALID_FLAGS) != flags)
                return EINVAL;
        if (txn->mt_flags & MDB_TXN_ERROR)
@@ -9390,8 +9435,10 @@ mdb_drop0(MDB_cursor *mc, int subs)
                MDB_cursor mx;
                unsigned int i;
 
-               /* LEAF2 pages have no nodes, cannot have sub-DBs */
-               if (IS_LEAF2(mc->mc_pg[mc->mc_top]))
+               /* DUPSORT sub-DBs have no ovpages/DBs. Omit scanning leaves.
+                * This also avoids any P_LEAF2 pages, which have no nodes.
+                */
+               if (mc->mc_flags & C_SUB)
                        mdb_cursor_pop(mc);
 
                mdb_cursor_copy(mc, &mx);
@@ -9634,17 +9681,22 @@ mdb_pid_insert(MDB_PID_T *ids, MDB_PID_T pid)
 int ESECT
 mdb_reader_check(MDB_env *env, int *dead)
 {
-       unsigned int i, j, rdrs;
-       MDB_reader *mr;
-       MDB_PID_T *pids, pid;
-       int count = 0;
-
        if (!env)
                return EINVAL;
        if (dead)
                *dead = 0;
-       if (!env->me_txns)
-               return MDB_SUCCESS;
+       return env->me_txns ? mdb_reader_check0(env, 0, dead) : MDB_SUCCESS;
+}
+
+/** As #mdb_reader_check(). rlocked = <caller locked the reader mutex>. */
+static int mdb_reader_check0(MDB_env *env, int rlocked, int *dead)
+{
+       mdb_mutexref_t rmutex = rlocked ? NULL : env->me_rmutex;
+       unsigned int i, j, rdrs;
+       MDB_reader *mr;
+       MDB_PID_T *pids, pid;
+       int rc = MDB_SUCCESS, count = 0;
+
        rdrs = env->me_txns->mti_numreaders;
        pids = malloc((rdrs+1) * sizeof(MDB_PID_T));
        if (!pids)
@@ -9652,22 +9704,32 @@ mdb_reader_check(MDB_env *env, int *dead)
        pids[0] = 0;
        mr = env->me_txns->mti_readers;
        for (i=0; i<rdrs; i++) {
-               if (mr[i].mr_pid && mr[i].mr_pid != env->me_pid) {
-                       pid = mr[i].mr_pid;
+               pid = mr[i].mr_pid;
+               if (pid && pid != env->me_pid) {
                        if (mdb_pid_insert(pids, pid) == 0) {
                                if (!mdb_reader_pid(env, Pidcheck, pid)) {
-                                       LOCK_MUTEX_R(env);
-                                       /* Recheck, a new process may have reused pid */
-                                       if (!mdb_reader_pid(env, Pidcheck, pid)) {
-                                               for (j=i; j<rdrs; j++)
+                                       /* Stale reader found */
+                                       j = i;
+                                       if (rmutex) {
+                                               if ((rc = LOCK_MUTEX0(rmutex)) != 0) {
+                                                       if ((rc = mdb_mutex_failed(env, rmutex, rc)))
+                                                               break;
+                                                       rdrs = 0; /* the above checked all readers */
+                                               } else {
+                                                       /* Recheck, a new process may have reused pid */
+                                                       if (mdb_reader_pid(env, Pidcheck, pid))
+                                                               j = rdrs;
+                                               }
+                                       }
+                                       for (; j<rdrs; j++)
                                                        if (mr[j].mr_pid == pid) {
                                                                DPRINTF(("clear stale reader pid %u txn %"Z"d",
                                                                        (unsigned) pid, mr[j].mr_txnid));
                                                                mr[j].mr_pid = 0;
                                                                count++;
                                                        }
-                                       }
-                                       UNLOCK_MUTEX_R(env);
+                                       if (rmutex)
+                                               UNLOCK_MUTEX(rmutex);
                                }
                        }
                }
@@ -9675,6 +9737,55 @@ mdb_reader_check(MDB_env *env, int *dead)
        free(pids);
        if (dead)
                *dead = count;
-       return MDB_SUCCESS;
+       return rc;
+}
+
+#ifdef MDB_ROBUST_SUPPORTED
+/** Handle #LOCK_MUTEX0() failure.
+ * Try to repair the lock file if the mutex owner died.
+ * @param[in] env      the environment handle
+ * @param[in] mutex    LOCK_MUTEX0() mutex
+ * @param[in] rc       LOCK_MUTEX0() error (nonzero)
+ * @return 0 on success with the mutex locked, or an error code on failure.
+ */
+static int mdb_mutex_failed(MDB_env *env, mdb_mutexref_t mutex, int rc)
+{
+       int toggle, rlocked, rc2;
+
+       if (rc == MDB_OWNERDEAD) {
+               /* We own the mutex. Clean up after dead previous owner. */
+               rc = MDB_SUCCESS;
+               rlocked = (mutex == env->me_rmutex);
+               if (!rlocked) {
+                       /* Keep mti_txnid updated, otherwise next writer can
+                        * overwrite data which latest meta page refers to.
+                        */
+                       toggle = mdb_env_pick_meta(env);
+                       env->me_txns->mti_txnid = env->me_metas[toggle]->mm_txnid;
+                       /* env is hosed if the dead thread was ours */
+                       if (env->me_txn) {
+                               env->me_flags |= MDB_FATAL_ERROR;
+                               env->me_txn = NULL;
+                               rc = MDB_PANIC;
+                       }
+               }
+               DPRINTF(("%cmutex owner died, %s", (rlocked ? 'r' : 'w'),
+                       (rc ? "this process' env is hosed" : "recovering")));
+               rc2 = mdb_reader_check0(env, rlocked, NULL);
+               if (rc2 == 0)
+                       rc2 = mdb_mutex_consistent(mutex);
+               if (rc || (rc = rc2)) {
+                       DPRINTF(("LOCK_MUTEX recovery failed, %s", mdb_strerror(rc)));
+                       UNLOCK_MUTEX(mutex);
+               }
+       } else {
+#ifdef _WIN32
+               rc = ErrCode();
+#endif
+               DPRINTF(("LOCK_MUTEX failed, %s", mdb_strerror(rc)));
+       }
+
+       return rc;
 }
+#endif /* MDB_ROBUST_SUPPORTED */
 /** @} */