]> git.sur5r.net Git - openldap/blobdiff - libraries/libmdb/mdb.c
Fix typo in e8e57be42107a877f604d0c4e67115ef37681a1b
[openldap] / libraries / libmdb / mdb.c
index fd7f7fa1952b103ddea80b69cc02b93fafd2d298..76de0db8d4228f89d990fe7be6b50ccab3a12058 100644 (file)
@@ -5,7 +5,7 @@
  *     BerkeleyDB API, but much simplified.
  */
 /*
- * Copyright 2011 Howard Chu, Symas Corp.
+ * Copyright 2011-2012 Howard Chu, Symas Corp.
  * All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
 #endif
 #endif
 
+#ifdef USE_VALGRIND
+#include <valgrind/memcheck.h>
+#define VGMEMP_CREATE(h,r,z)    VALGRIND_CREATE_MEMPOOL(h,r,z)
+#define VGMEMP_ALLOC(h,a,s) VALGRIND_MEMPOOL_ALLOC(h,a,s)
+#define VGMEMP_FREE(h,a) VALGRIND_MEMPOOL_FREE(h,a)
+#define VGMEMP_DESTROY(h)      VALGRIND_DESTROY_MEMPOOL(h)
+#define VGMEMP_DEFINED(a,s)    VALGRIND_MAKE_MEM_DEFINED(a,s)
+#else
+#define VGMEMP_CREATE(h,r,z)
+#define VGMEMP_ALLOC(h,a,s)
+#define VGMEMP_FREE(h,a)
+#define VGMEMP_DESTROY(h)
+#define VGMEMP_DEFINED(a,s)
+#endif
+
 #ifndef BYTE_ORDER
 # if (defined(_LITTLE_ENDIAN) || defined(_BIG_ENDIAN)) && !(defined(_LITTLE_ENDIAN) && defined(_BIG_ENDIAN))
 /* Solaris just defines one or the other */
@@ -227,17 +242,17 @@ typedef ID        txnid_t;
 /** @defgroup debug    Debug Macros
  *     @{
  */
-#ifndef DEBUG
+#ifndef MDB_DEBUG
        /**     Enable debug output.
         *      Set this to 1 for copious tracing. Set to 2 to add dumps of all IDLs
         *      read from and written to the database (used for free space management).
         */
-#define DEBUG 0
+#define MDB_DEBUG 0
 #endif
 
 #if !(__STDC_VERSION__ >= 199901L || defined(__GNUC__))
 # define DPRINTF       (void)  /* Vararg macros may be unsupported */
-#elif DEBUG
+#elif MDB_DEBUG
        /**     Print a debug message with printf formatting. */
 # define DPRINTF(fmt, ...)     /**< Requires 2 or more args */ \
        fprintf(stderr, "%s:%d " fmt "\n", __func__, __LINE__, __VA_ARGS__)
@@ -294,7 +309,7 @@ typedef ID  txnid_t;
         */
 #define MAXKEYSIZE      511
 
-#if DEBUG
+#if MDB_DEBUG
        /**     A key buffer.
         *      @ingroup debug
         *      This is used for printing a hex dump of a key's contents.
@@ -1020,7 +1035,7 @@ mdb_strerror(int err)
        return strerror(err);
 }
 
-#if DEBUG
+#if MDB_DEBUG
 /** Display a key in hexadecimal and return the address of the result.
  * @param[in] key the key to display
  * @param[in] buf the buffer to write into. Should always be #DKBUF.
@@ -1068,11 +1083,15 @@ mdb_dcmp(MDB_txn *txn, MDB_dbi dbi, const MDB_val *a, const MDB_val *b)
 static MDB_page *
 mdb_page_malloc(MDB_cursor *mc) {
        MDB_page *ret;
+       size_t sz = mc->mc_txn->mt_env->me_psize;
        if (mc->mc_txn->mt_env->me_dpages) {
                ret = mc->mc_txn->mt_env->me_dpages;
+               VGMEMP_ALLOC(mc->mc_txn->mt_env, ret, sz);
+               VGMEMP_DEFINED(ret, sizeof(ret->mp_next));
                mc->mc_txn->mt_env->me_dpages = ret->mp_next;
        } else {
-               ret = malloc(mc->mc_txn->mt_env->me_psize);
+               ret = malloc(sz);
+               VGMEMP_ALLOC(mc->mc_txn->mt_env, ret, sz);
        }
        return ret;
 }
@@ -1133,7 +1152,7 @@ mdb_page_alloc(MDB_cursor *mc, int num)
                                txn->mt_env->me_pghead = mop;
                                memcpy(mop->mo_pages, idl, MDB_IDL_SIZEOF(idl));
 
-#if DEBUG > 1
+#if MDB_DEBUG > 1
                                {
                                        unsigned int i;
                                        DPRINTF("IDL read txn %zu root %zu num %zu",
@@ -1184,10 +1203,14 @@ mdb_page_alloc(MDB_cursor *mc, int num)
        }
        if (txn->mt_env->me_dpages && num == 1) {
                np = txn->mt_env->me_dpages;
+               VGMEMP_ALLOC(txn->mt_env, np, txn->mt_env->me_psize);
+               VGMEMP_DEFINED(np, sizeof(np->mp_next));
                txn->mt_env->me_dpages = np->mp_next;
        } else {
-               if ((np = malloc(txn->mt_env->me_psize * num )) == NULL)
+               size_t sz = txn->mt_env->me_psize * num;
+               if ((np = malloc(sz)) == NULL)
                        return NULL;
+               VGMEMP_ALLOC(txn->mt_env, np, sz);
        }
        if (pgno == P_INVALID) {
                np->mp_pgno = txn->mt_next_pgno;
@@ -1234,6 +1257,7 @@ finish:
                        for (m2 = mc->mc_txn->mt_cursors[dbi]; m2; m2=m2->mc_next) {
                                if (m2 == mc) continue;
                                m3 = &m2->mc_xcursor->mx_cursor;
+                               if (m3->mc_snum < mc->mc_snum) continue;
                                if (m3->mc_pg[mc->mc_top] == mc->mc_pg[mc->mc_top]) {
                                        m3->mc_pg[mc->mc_top] = mp;
                                }
@@ -1242,7 +1266,7 @@ finish:
                        MDB_cursor *m2;
 
                        for (m2 = mc->mc_txn->mt_cursors[mc->mc_dbi]; m2; m2=m2->mc_next) {
-                               if (m2 == mc) continue;
+                               if (m2 == mc || m2->mc_snum < mc->mc_snum) continue;
                                if (m2->mc_pg[mc->mc_top] == mc->mc_pg[mc->mc_top]) {
                                        m2->mc_pg[mc->mc_top] = mp;
                                }
@@ -1589,9 +1613,11 @@ mdb_txn_reset0(MDB_txn *txn)
                        dp = txn->mt_u.dirty_list[i].mptr;
                        if (!IS_OVERFLOW(dp) || dp->mp_pages == 1) {
                                dp->mp_next = txn->mt_env->me_dpages;
+                               VGMEMP_FREE(txn->mt_env, dp);
                                txn->mt_env->me_dpages = dp;
                        } else {
                                /* large pages just get freed directly */
+                               VGMEMP_FREE(txn->mt_env, dp);
                                free(dp);
                        }
                }
@@ -1736,8 +1762,10 @@ mdb_txn_commit(MDB_txn *txn)
                }
                x = dst[0].mid;
                for (; y<=src[0].mid; y++) {
-                       if (++x >= MDB_IDL_UM_MAX)
+                       if (++x >= MDB_IDL_UM_MAX) {
+                               mdb_txn_abort(txn);
                                return ENOMEM;
+                       }
                        dst[x] = src[y];
                }
                dst[0].mid = x;
@@ -1777,7 +1805,7 @@ mdb_txn_commit(MDB_txn *txn)
                mdb_page_search(&mc, &key, 1);
 
                mdb_midl_sort(txn->mt_free_pgs);
-#if DEBUG > 1
+#if MDB_DEBUG > 1
                {
                        unsigned int i;
                        ID *idl = txn->mt_free_pgs;
@@ -1940,8 +1968,10 @@ mdb_txn_commit(MDB_txn *txn)
                dp = txn->mt_u.dirty_list[i].mptr;
                if (!IS_OVERFLOW(dp) || dp->mp_pages == 1) {
                        dp->mp_next = txn->mt_env->me_dpages;
+                       VGMEMP_FREE(txn->mt_env, dp);
                        txn->mt_env->me_dpages = dp;
                } else {
+                       VGMEMP_FREE(txn->mt_env, dp);
                        free(dp);
                }
                txn->mt_u.dirty_list[i].mid = 0;
@@ -2218,6 +2248,7 @@ mdb_env_create(MDB_env **env)
        e->me_fd = INVALID_HANDLE_VALUE;
        e->me_lfd = INVALID_HANDLE_VALUE;
        e->me_mfd = INVALID_HANDLE_VALUE;
+       VGMEMP_CREATE(e,0,0);
        *env = e;
        return MDB_SUCCESS;
 }
@@ -2824,8 +2855,10 @@ mdb_env_close(MDB_env *env)
        if (env == NULL)
                return;
 
+       VGMEMP_DESTROY(env);
        while (env->me_dpages) {
                dp = env->me_dpages;
+               VGMEMP_DEFINED(&dp->mp_next, sizeof(dp->mp_next));
                env->me_dpages = dp->mp_next;
                free(dp);
        }
@@ -2959,9 +2992,15 @@ mdb_node_search(MDB_cursor *mc, MDB_val *key, int *exactp)
 
        nkeys = NUMKEYS(mp);
 
+#if MDB_DEBUG
+       {
+       pgno_t pgno;
+       COPY_PGNO(pgno, mp->mp_pgno);
        DPRINTF("searching %u keys in %s %spage %zu",
            nkeys, IS_LEAF(mp) ? "leaf" : "branch", IS_SUBP(mp) ? "sub-" : "",
-           mp->mp_pgno);
+           pgno);
+       }
+#endif
 
        assert(nkeys > 0);
 
@@ -3004,7 +3043,7 @@ mdb_node_search(MDB_cursor *mc, MDB_val *key, int *exactp)
                        nodekey.mv_data = NODEKEY(node);
 
                        rc = cmp(key, &nodekey);
-#if DEBUG
+#if MDB_DEBUG
                        if (IS_LEAF(mp))
                                DPRINTF("found leaf index %u [%s], rc = %i",
                                    i, DKEY(&nodekey), rc);
@@ -4161,7 +4200,7 @@ new_sub:
                                        m3 = &m2->mc_xcursor->mx_cursor;
                                else
                                        m3 = m2;
-                               if (m3 == mc) continue;
+                               if (m3 == mc || m3->mc_snum < mc->mc_snum) continue;
                                if (m3->mc_pg[i] == mp && m3->mc_ki[i] >= mc->mc_ki[i]) {
                                        m3->mc_ki[i]++;
                                }
@@ -4202,7 +4241,7 @@ put_sub:
                                        MDB_page *mp = mc->mc_pg[i];
 
                                        for (m2 = mc->mc_txn->mt_cursors[mc->mc_dbi]; m2; m2=m2->mc_next) {
-                                               if (m2 == mc) continue;
+                                               if (m2 == mc || m2->mc_snum < mc->mc_snum) continue;
                                                if (m2->mc_pg[i] == mp && m2->mc_ki[i] == mc->mc_ki[i]) {
                                                        mdb_xcursor_init1(m2, leaf);
                                                }
@@ -4336,7 +4375,7 @@ mdb_leaf_size(MDB_env *env, MDB_val *key, MDB_val *data)
        size_t           sz;
 
        sz = LEAFSIZE(key, data);
-       if (data->mv_size >= env->me_psize / MDB_MINKEYS) {
+       if (sz >= env->me_psize / MDB_MINKEYS) {
                /* put on overflow page */
                sz -= data->mv_size - sizeof(pgno_t);
        }
@@ -4429,11 +4468,11 @@ mdb_node_add(MDB_cursor *mc, indx_t indx,
                if (F_ISSET(flags, F_BIGDATA)) {
                        /* Data already on overflow page. */
                        node_size += sizeof(pgno_t);
-               } else if (data->mv_size >= mc->mc_txn->mt_env->me_psize / MDB_MINKEYS) {
+               } else if (node_size + data->mv_size >= mc->mc_txn->mt_env->me_psize / MDB_MINKEYS) {
                        int ovpages = OVPAGES(data->mv_size, mc->mc_txn->mt_env->me_psize);
                        /* Put data on overflow page. */
-                       DPRINTF("data size is %zu, put on overflow page",
-                           data->mv_size);
+                       DPRINTF("data size is %zu, node would be %zu, put data on overflow page",
+                           data->mv_size, node_size+data->mv_size);
                        node_size += sizeof(pgno_t);
                        if ((ofp = mdb_page_new(mc, P_OVERFLOW, ovpages)) == NULL)
                                return ENOMEM;
@@ -4515,8 +4554,14 @@ mdb_node_del(MDB_page *mp, indx_t indx, int ksize)
        MDB_node        *node;
        char            *base;
 
+#if MDB_DEBUG
+       {
+       pgno_t pgno;
+       COPY_PGNO(pgno, mp->mp_pgno);
        DPRINTF("delete node %u on %s page %zu", indx,
-           IS_LEAF(mp) ? "leaf" : "branch", mp->mp_pgno);
+           IS_LEAF(mp) ? "leaf" : "branch", pgno);
+       }
+#endif
        assert(indx < NUMKEYS(mp));
 
        if (IS_LEAF2(mp)) {
@@ -4701,6 +4746,7 @@ mdb_cursor_init(MDB_cursor *mc, MDB_txn *txn, MDB_dbi dbi, MDB_xcursor *mx)
        mc->mc_dbx = &txn->mt_dbxs[dbi];
        mc->mc_dbflag = &txn->mt_dbflags[dbi];
        mc->mc_snum = 0;
+       mc->mc_top = 0;
        mc->mc_flags = 0;
        if (txn->mt_dbs[dbi].md_flags & MDB_DUPSORT) {
                assert(mx != NULL);
@@ -5064,6 +5110,7 @@ mdb_page_merge(MDB_cursor *csrc, MDB_cursor *cdst)
                                m3 = &m2->mc_xcursor->mx_cursor;
                        else
                                m3 = m2;
+                       if (m3->mc_snum < csrc->mc_snum) continue;
                        if (m3->mc_pg[csrc->mc_top] == csrc->mc_pg[csrc->mc_top]) {
                                m3->mc_pg[csrc->mc_top] = mp;
                                m3->mc_ki[csrc->mc_top] += nkeys;
@@ -5111,13 +5158,23 @@ mdb_rebalance(MDB_cursor *mc)
        unsigned int ptop;
        MDB_cursor      mn;
 
+#if MDB_DEBUG
+       {
+       pgno_t pgno;
+       COPY_PGNO(pgno, mc->mc_pg[mc->mc_top]->mp_pgno);
        DPRINTF("rebalancing %s page %zu (has %u keys, %.1f%% full)",
            IS_LEAF(mc->mc_pg[mc->mc_top]) ? "leaf" : "branch",
-           mc->mc_pg[mc->mc_top]->mp_pgno, NUMKEYS(mc->mc_pg[mc->mc_top]), (float)PAGEFILL(mc->mc_txn->mt_env, mc->mc_pg[mc->mc_top]) / 10);
+           pgno, NUMKEYS(mc->mc_pg[mc->mc_top]), (float)PAGEFILL(mc->mc_txn->mt_env, mc->mc_pg[mc->mc_top]) / 10);
+       }
+#endif
 
        if (PAGEFILL(mc->mc_txn->mt_env, mc->mc_pg[mc->mc_top]) >= FILL_THRESHOLD) {
+#if MDB_DEBUG
+               pgno_t pgno;
+               COPY_PGNO(pgno, mc->mc_pg[mc->mc_top]->mp_pgno);
                DPRINTF("no need to rebalance page %zu, above fill threshold",
-                   mc->mc_pg[mc->mc_top]->mp_pgno);
+                   pgno);
+#endif
                return MDB_SUCCESS;
        }
 
@@ -5145,6 +5202,7 @@ mdb_rebalance(MDB_cursor *mc)
                                                m3 = &m2->mc_xcursor->mx_cursor;
                                        else
                                                m3 = m2;
+                                       if (m3->mc_snum < mc->mc_snum) continue;
                                        if (m3->mc_pg[0] == mp) {
                                                m3->mc_snum = 0;
                                                m3->mc_top = 0;
@@ -5174,6 +5232,7 @@ mdb_rebalance(MDB_cursor *mc)
                                                m3 = &m2->mc_xcursor->mx_cursor;
                                        else
                                                m3 = m2;
+                                       if (m3->mc_snum < mc->mc_snum) continue;
                                        if (m3->mc_pg[0] == mp) {
                                                m3->mc_pg[0] = mc->mc_pg[0];
                                        }
@@ -5558,6 +5617,8 @@ newsep:
                        ins_new = 1;
 
                        /* Update page and index for the new key. */
+                       if (!newindx)
+                               mc->mc_pg[mc->mc_top] = copy;
                        mc->mc_ki[mc->mc_top] = j;
                } else if (i == nkeys) {
                        break;
@@ -5593,7 +5654,7 @@ newsep:
                mc->mc_txn->mt_env->me_psize - copy->mp_upper);
 
        /* reset back to original page */
-       if (newindx < split_indx) {
+       if (!newindx || (newindx < split_indx)) {
                mc->mc_pg[mc->mc_top] = mp;
                if (nflags & MDB_RESERVE) {
                        node = NODEPTR(mp, mc->mc_ki[mc->mc_top]);
@@ -5604,6 +5665,7 @@ newsep:
 
        /* return tmp page to freelist */
        copy->mp_next = mc->mc_txn->mt_env->me_dpages;
+       VGMEMP_FREE(mc->mc_txn->mt_env, copy);
        mc->mc_txn->mt_env->me_dpages = copy;
 done:
        {