git.sur5r.net Git - openldap/blob - libraries/libmdb/mdb.c

   1 /* mdb.c - memory-mapped database library */
   2 /*
   3  * Copyright 2011 Howard Chu, Symas Corp.
   4  * All rights reserved.
   5  *
   6  * Redistribution and use in source and binary forms, with or without
   7  * modification, are permitted only as authorized by the OpenLDAP
   8  * Public License.
   9  *
  10  * A copy of this license is available in the file LICENSE in the
  11  * top-level directory of the distribution or, alternatively, at
  12  * <http://www.OpenLDAP.org/license.html>.
  13  *
  14  * This code is derived from btree.c written by Martin Hedenfalk.
  15  *
  16  * Copyright (c) 2009, 2010 Martin Hedenfalk <martin@bzero.se>
  17  *
  18  * Permission to use, copy, modify, and distribute this software for any
  19  * purpose with or without fee is hereby granted, provided that the above
  20  * copyright notice and this permission notice appear in all copies.
  21  *
  22  * THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES
  23  * WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF
  24  * MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR
  25  * ANY SPECIAL, DIRECT, INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES
  26  * WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN
  27  * ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF
  28  * OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
  29  */
  30 #include <sys/types.h>
  31 #include <sys/stat.h>
  32 #include <sys/param.h>
  33 #include <sys/uio.h>
  34 #include <sys/mman.h>
  35 #ifdef HAVE_SYS_FILE_H
  36 #include <sys/file.h>
  37 #endif
  38 #include <fcntl.h>
  39
  40 #include <assert.h>
  41 #include <errno.h>
  42 #include <stddef.h>
  43 #include <stdint.h>
  44 #include <stdio.h>
  45 #include <stdlib.h>
  46 #include <string.h>
  47 #include <time.h>
  48 #include <unistd.h>
  49 #include <pthread.h>
  50
  51 #include "mdb.h"
  52
  53 #define ULONG           unsigned long
  54 typedef ULONG           pgno_t;
  55
  56 #include "midl.h"
  57
  58 /* Note: If O_DSYNC is undefined but exists in /usr/include,
  59  * preferably set some compiler flag to get the definition.
  60  * Otherwise compile with the less efficient -DMDB_DSYNC=O_SYNC.
  61  */
  62 #ifndef MDB_DSYNC
  63 # define MDB_DSYNC      O_DSYNC
  64 #endif
  65
  66 #ifndef DEBUG
  67 #define DEBUG 1
  68 #endif
  69
  70 #if !(__STDC_VERSION__ >= 199901L || defined(__GNUC__))
  71 # define DPRINTF        (void)  /* Vararg macros may be unsupported */
  72 #elif DEBUG
  73 # define DPRINTF(fmt, ...)      /* Requires 2 or more args */ \
  74         fprintf(stderr, "%s:%d: " fmt "\n", __func__, __LINE__, __VA_ARGS__)
  75 #else
  76 # define DPRINTF(fmt, ...)      ((void) 0)
  77 #endif
  78 #define DPUTS(arg)      DPRINTF("%s", arg)
  79
  80 #define PAGESIZE         4096
  81 #define MDB_MINKEYS      2
  82 #define MDB_MAGIC        0xBEEFC0DE
  83 #define MDB_VERSION      1
  84 #define MAXKEYSIZE       511
  85 #if DEBUG
  86 #define KBUF    (MAXKEYSIZE*2+1)
  87 #define DKBUF   char kbuf[KBUF]
  88 #define DKEY(x) mdb_dkey(x, kbuf)
  89 #else
  90 #define DKBUF
  91 #define DKEY(x)
  92 #endif
  93
  94 #define P_INVALID        (~0UL)
  95
  96 #define F_ISSET(w, f)    (((w) & (f)) == (f))
  97
  98 typedef uint16_t         indx_t;
  99
 100 #define DEFAULT_READERS 126
 101 #define DEFAULT_MAPSIZE 1048576
 102
 103 /* Lock descriptor stuff */
 104 #ifndef CACHELINE
 105 #define CACHELINE       64      /* most CPUs. Itanium uses 128 */
 106 #endif
 107
 108 typedef struct MDB_rxbody {
 109         ULONG           mrb_txnid;
 110         pid_t           mrb_pid;
 111         pthread_t       mrb_tid;
 112 } MDB_rxbody;
 113
 114 typedef struct MDB_reader {
 115         union {
 116                 MDB_rxbody mrx;
 117 #define mr_txnid        mru.mrx.mrb_txnid
 118 #define mr_pid  mru.mrx.mrb_pid
 119 #define mr_tid  mru.mrx.mrb_tid
 120                 /* cache line alignment */
 121                 char pad[(sizeof(MDB_rxbody)+CACHELINE-1) & ~(CACHELINE-1)];
 122         } mru;
 123 } MDB_reader;
 124
 125 typedef struct MDB_txbody {
 126         uint32_t        mtb_magic;
 127         uint32_t        mtb_version;
 128         pthread_mutex_t mtb_mutex;
 129         ULONG           mtb_txnid;
 130         uint32_t        mtb_numreaders;
 131         uint32_t        mtb_me_toggle;
 132 } MDB_txbody;
 133
 134 typedef struct MDB_txninfo {
 135         union {
 136                 MDB_txbody mtb;
 137 #define mti_magic       mt1.mtb.mtb_magic
 138 #define mti_version     mt1.mtb.mtb_version
 139 #define mti_mutex       mt1.mtb.mtb_mutex
 140 #define mti_txnid       mt1.mtb.mtb_txnid
 141 #define mti_numreaders  mt1.mtb.mtb_numreaders
 142 #define mti_me_toggle   mt1.mtb.mtb_me_toggle
 143                 char pad[(sizeof(MDB_txbody)+CACHELINE-1) & ~(CACHELINE-1)];
 144         } mt1;
 145         union {
 146                 pthread_mutex_t mt2_wmutex;
 147 #define mti_wmutex      mt2.mt2_wmutex
 148                 char pad[(sizeof(pthread_mutex_t)+CACHELINE-1) & ~(CACHELINE-1)];
 149         } mt2;
 150         MDB_reader      mti_readers[1];
 151 } MDB_txninfo;
 152
 153 /* Common header for all page types. Overflow pages
 154  * occupy a number of contiguous pages with no
 155  * headers on any page after the first.
 156  */
 157 typedef struct MDB_page {               /* represents a page of storage */
 158 #define mp_pgno         mp_p.p_pgno
 159         union padded {
 160                 pgno_t          p_pgno;         /* page number */
 161                 void *          p_align;        /* for IL32P64 */
 162         } mp_p;
 163 #define P_BRANCH         0x01           /* branch page */
 164 #define P_LEAF           0x02           /* leaf page */
 165 #define P_OVERFLOW       0x04           /* overflow page */
 166 #define P_META           0x08           /* meta page */
 167 #define P_DIRTY          0x10           /* dirty page */
 168 #define P_LEAF2          0x20           /* DB with small, fixed size keys and no data */
 169         uint32_t        mp_flags;
 170 #define mp_lower        mp_pb.pb.pb_lower
 171 #define mp_upper        mp_pb.pb.pb_upper
 172 #define mp_pages        mp_pb.pb_pages
 173         union page_bounds {
 174                 struct {
 175                         indx_t          pb_lower;               /* lower bound of free space */
 176                         indx_t          pb_upper;               /* upper bound of free space */
 177                 } pb;
 178                 uint32_t        pb_pages;       /* number of overflow pages */
 179         } mp_pb;
 180         indx_t          mp_ptrs[1];             /* dynamic size */
 181 } MDB_page;
 182
 183 #define PAGEHDRSZ        ((unsigned) offsetof(MDB_page, mp_ptrs))
 184
 185 #define NUMKEYS(p)       (((p)->mp_lower - PAGEHDRSZ) >> 1)
 186 #define SIZELEFT(p)      (indx_t)((p)->mp_upper - (p)->mp_lower)
 187 #define PAGEFILL(env, p) (1000L * ((env)->me_psize - PAGEHDRSZ - SIZELEFT(p)) / \
 188                                 ((env)->me_psize - PAGEHDRSZ))
 189 #define IS_LEAF(p)       F_ISSET((p)->mp_flags, P_LEAF)
 190 #define IS_LEAF2(p)      F_ISSET((p)->mp_flags, P_LEAF2)
 191 #define IS_BRANCH(p)     F_ISSET((p)->mp_flags, P_BRANCH)
 192 #define IS_OVERFLOW(p)   F_ISSET((p)->mp_flags, P_OVERFLOW)
 193
 194 #define OVPAGES(size, psize)    ((PAGEHDRSZ-1 + (size)) / (psize) + 1)
 195
 196 typedef struct MDB_db {
 197         uint32_t        md_pad;         /* also ksize for LEAF2 pages */
 198         uint16_t        md_flags;
 199         uint16_t        md_depth;
 200         ULONG           md_branch_pages;
 201         ULONG           md_leaf_pages;
 202         ULONG           md_overflow_pages;
 203         ULONG           md_entries;
 204         pgno_t          md_root;
 205 } MDB_db;
 206
 207 #define FREE_DBI        0
 208 #define MAIN_DBI        1
 209
 210 typedef struct MDB_meta {                       /* meta (footer) page content */
 211         uint32_t        mm_magic;
 212         uint32_t        mm_version;
 213         void            *mm_address;            /* address for fixed mapping */
 214         size_t          mm_mapsize;                     /* size of mmap region */
 215         MDB_db          mm_dbs[2];                      /* first is free space, 2nd is main db */
 216 #define mm_psize        mm_dbs[0].md_pad
 217 #define mm_flags        mm_dbs[0].md_flags
 218         pgno_t          mm_last_pg;                     /* last used page in file */
 219         ULONG           mm_txnid;                       /* txnid that committed this page */
 220 } MDB_meta;
 221
 222 typedef struct MDB_dhead {                                      /* a dirty page */
 223         MDB_page        *md_parent;
 224         unsigned        md_pi;                          /* parent index */
 225         int                     md_num;
 226 } MDB_dhead;
 227
 228 typedef struct MDB_dpage {
 229         MDB_dhead       h;
 230         MDB_page        p;
 231 } MDB_dpage;
 232
 233 typedef struct MDB_oldpages {
 234         struct MDB_oldpages *mo_next;
 235         ULONG           mo_txnid;
 236         pgno_t          mo_pages[1];    /* dynamic */
 237 } MDB_oldpages;
 238
 239 typedef struct MDB_pageparent {
 240         MDB_page *mp_page;
 241         MDB_page *mp_parent;
 242         unsigned mp_pi;
 243 } MDB_pageparent;
 244
 245 static MDB_dpage *mdb_alloc_page(MDB_txn *txn, MDB_page *parent, unsigned int parent_idx, int num);
 246 static int              mdb_touch(MDB_txn *txn, MDB_pageparent *mp);
 247
 248 typedef struct MDB_ppage {                                      /* ordered list of pages */
 249         MDB_page                *mp_page;
 250         unsigned int    mp_ki;          /* cursor index on page */
 251 } MDB_ppage;
 252
 253 #define CURSOR_TOP(c)            (&(c)->mc_stack[(c)->mc_snum-1])
 254 #define CURSOR_PARENT(c)         (&(c)->mc_stack[(c)->mc_snum-2])
 255
 256 struct MDB_xcursor;
 257
 258 struct MDB_cursor {
 259         MDB_txn         *mc_txn;
 260         MDB_ppage       mc_stack[32];           /* stack of parent pages */
 261         unsigned int    mc_snum;                /* number of pushed pages */
 262         MDB_dbi         mc_dbi;
 263         short           mc_initialized; /* 1 if initialized */
 264         short           mc_eof;         /* 1 if end is reached */
 265         struct MDB_xcursor      *mc_xcursor;
 266 };
 267
 268 #define METADATA(p)      ((void *)((char *)(p) + PAGEHDRSZ))
 269
 270 typedef struct MDB_node {
 271 #define mn_pgno          mn_p.np_pgno
 272 #define mn_dsize         mn_p.np_dsize
 273         union {
 274                 pgno_t           np_pgno;       /* child page number */
 275                 uint32_t         np_dsize;      /* leaf data size */
 276         } mn_p;
 277         unsigned int    mn_flags:4;
 278         unsigned int    mn_ksize:12;                    /* key size */
 279 #define F_BIGDATA        0x01                   /* data put on overflow page */
 280 #define F_SUBDATA        0x02                   /* data is a sub-database */
 281 #define F_DUPDATA        0x04                   /* data has duplicates */
 282         char            mn_data[1];
 283 } MDB_node;
 284
 285 typedef struct MDB_dbx {
 286         MDB_val         md_name;
 287         MDB_cmp_func    *md_cmp;                /* user compare function */
 288         MDB_cmp_func    *md_dcmp;               /* user dupsort function */
 289         MDB_rel_func    *md_rel;                /* user relocate function */
 290         MDB_dbi md_parent;
 291         unsigned int    md_dirty;
 292 } MDB_dbx;
 293
 294 struct MDB_txn {
 295         pgno_t          mt_next_pgno;   /* next unallocated page */
 296         ULONG           mt_txnid;
 297         ULONG           mt_oldest;
 298         MDB_env         *mt_env;
 299         pgno_t          *mt_free_pgs;   /* this is an IDL */
 300         union {
 301                 MIDL2   *dirty_list;    /* modified pages */
 302                 MDB_reader      *reader;
 303         } mt_u;
 304         MDB_dbx         *mt_dbxs;               /* array */
 305         MDB_db          *mt_dbs;
 306         unsigned int    mt_numdbs;
 307
 308 #define MDB_TXN_RDONLY          0x01            /* read-only transaction */
 309 #define MDB_TXN_ERROR           0x02            /* an error has occurred */
 310 #define MDB_TXN_METOGGLE        0x04            /* used meta page 1 */
 311         unsigned int    mt_flags;
 312 };
 313
 314 /* Context for sorted-dup records */
 315 typedef struct MDB_xcursor {
 316         MDB_cursor mx_cursor;
 317         MDB_txn mx_txn;
 318         MDB_dbx mx_dbxs[4];
 319         MDB_db  mx_dbs[4];
 320 } MDB_xcursor;
 321
 322 struct MDB_env {
 323         int                     me_fd;
 324         int                     me_lfd;
 325         int                     me_mfd;                 /* just for writing the meta pages */
 326 #define MDB_FATAL_ERROR 0x80000000U
 327         uint32_t        me_flags;
 328         uint32_t        me_extrapad;    /* unused for now */
 329         unsigned int    me_maxreaders;
 330         unsigned int    me_numdbs;
 331         unsigned int    me_maxdbs;
 332         char            *me_path;
 333         char            *me_map;
 334         MDB_txninfo     *me_txns;
 335         MDB_meta        *me_metas[2];
 336         MDB_meta        *me_meta;
 337         MDB_txn         *me_txn;                /* current write transaction */
 338         size_t          me_mapsize;
 339         off_t           me_size;                /* current file size */
 340         pgno_t          me_maxpg;               /* me_mapsize / me_psize */
 341         unsigned int    me_psize;
 342         unsigned int    me_db_toggle;
 343         MDB_dbx         *me_dbxs;               /* array */
 344         MDB_db          *me_dbs[2];
 345         MDB_oldpages *me_pghead;
 346         pthread_key_t   me_txkey;       /* thread-key for readers */
 347         MDB_dpage       *me_dpages;
 348         pgno_t          me_free_pgs[MDB_IDL_UM_SIZE];
 349         MIDL2           me_dirty_list[MDB_IDL_DB_SIZE];
 350 };
 351
 352 #define NODESIZE         offsetof(MDB_node, mn_data)
 353
 354 #define INDXSIZE(k)      (NODESIZE + ((k) == NULL ? 0 : (k)->mv_size))
 355 #define LEAFSIZE(k, d)   (NODESIZE + (k)->mv_size + (d)->mv_size)
 356 #define NODEPTR(p, i)    ((MDB_node *)((char *)(p) + (p)->mp_ptrs[i]))
 357 #define NODEKEY(node)    (void *)((node)->mn_data)
 358 #define NODEDATA(node)   (void *)((char *)(node)->mn_data + (node)->mn_ksize)
 359 #define NODEPGNO(node)   ((node)->mn_pgno)
 360 #define NODEDSZ(node)    ((node)->mn_dsize)
 361 #define NODEKSZ(node)    ((node)->mn_ksize)
 362 #define LEAF2KEY(p, i, ks)      ((char *)(p) + PAGEHDRSZ + ((i)*(ks)))
 363
 364 #define MDB_SET_KEY(node, key)  if (key!=NULL) {(key)->mv_size = NODEKSZ(node); (key)->mv_data = NODEKEY(node);}
 365
 366 #define MDB_COMMIT_PAGES         64     /* max number of pages to write in one commit */
 367
 368 static int  mdb_search_page_root(MDB_txn *txn,
 369                             MDB_dbi dbi, MDB_val *key,
 370                             MDB_cursor *cursor, int modify,
 371                             MDB_pageparent *mpp);
 372 static int  mdb_search_page(MDB_txn *txn,
 373                             MDB_dbi dbi, MDB_val *key,
 374                             MDB_cursor *cursor, int modify,
 375                             MDB_pageparent *mpp);
 376
 377 static int  mdb_env_read_header(MDB_env *env, MDB_meta *meta);
 378 static int  mdb_env_read_meta(MDB_env *env, int *which);
 379 static int  mdb_env_write_meta(MDB_txn *txn);
 380 static MDB_page *mdb_get_page(MDB_txn *txn, pgno_t pgno);
 381
 382 static MDB_node *mdb_search_node(MDB_txn *txn, MDB_dbi dbi, MDB_page *mp,
 383                             MDB_val *key, int *exactp, unsigned int *kip);
 384 static int  mdb_add_node(MDB_txn *txn, MDB_dbi dbi, MDB_page *mp,
 385                             indx_t indx, MDB_val *key, MDB_val *data,
 386                             pgno_t pgno, uint8_t flags);
 387 static void mdb_del_node(MDB_page *mp, indx_t indx, int ksize);
 388 static int mdb_del0(MDB_txn *txn, MDB_dbi dbi, unsigned int ki,
 389     MDB_pageparent *mpp, MDB_node *leaf);
 390 static int mdb_put0(MDB_txn *txn, MDB_dbi dbi,
 391     MDB_val *key, MDB_val *data, unsigned int flags);
 392 static int  mdb_read_data(MDB_txn *txn, MDB_node *leaf, MDB_val *data);
 393
 394 static int               mdb_rebalance(MDB_txn *txn, MDB_dbi dbi, MDB_pageparent *mp);
 395 static int               mdb_update_key(MDB_page *mp, indx_t indx, MDB_val *key);
 396 static int               mdb_move_node(MDB_txn *txn, MDB_dbi dbi,
 397                                 MDB_pageparent *src, indx_t srcindx,
 398                                 MDB_pageparent *dst, indx_t dstindx);
 399 static int               mdb_merge(MDB_txn *txn, MDB_dbi dbi, MDB_pageparent *src,
 400                             MDB_pageparent *dst);
 401 static int               mdb_split(MDB_txn *txn, MDB_dbi dbi, MDB_page **mpp,
 402                             unsigned int *newindxp, MDB_val *newkey,
 403                             MDB_val *newdata, pgno_t newpgno);
 404 static MDB_dpage *mdb_new_page(MDB_txn *txn, MDB_dbi dbi, uint32_t flags, int num);
 405
 406 static void              cursor_pop_page(MDB_cursor *cursor);
 407 static MDB_ppage *cursor_push_page(MDB_cursor *cursor,
 408                             MDB_page *mp);
 409
 410 static int               mdb_sibling(MDB_cursor *cursor, int move_right);
 411 static int               mdb_cursor_next(MDB_cursor *cursor,
 412                             MDB_val *key, MDB_val *data, MDB_cursor_op op);
 413 static int               mdb_cursor_prev(MDB_cursor *cursor,
 414                             MDB_val *key, MDB_val *data, MDB_cursor_op op);
 415 static int               mdb_cursor_set(MDB_cursor *cursor,
 416                             MDB_val *key, MDB_val *data, MDB_cursor_op op, int *exactp);
 417 static int               mdb_cursor_first(MDB_cursor *cursor,
 418                             MDB_val *key, MDB_val *data);
 419 static int               mdb_cursor_last(MDB_cursor *cursor,
 420                             MDB_val *key, MDB_val *data);
 421
 422 static void             mdb_xcursor_init0(MDB_txn *txn, MDB_dbi dbi, MDB_xcursor *mx);
 423 static void             mdb_xcursor_init1(MDB_txn *txn, MDB_dbi dbi, MDB_xcursor *mx, MDB_node *node);
 424 static void             mdb_xcursor_fini(MDB_txn *txn, MDB_dbi dbi, MDB_xcursor *mx);
 425
 426 static size_t            mdb_leaf_size(MDB_env *env, MDB_val *key,
 427                             MDB_val *data);
 428 static size_t            mdb_branch_size(MDB_env *env, MDB_val *key);
 429
 430 static int               memncmp(const void *s1, size_t n1,
 431                                  const void *s2, size_t n2);
 432 static int               memnrcmp(const void *s1, size_t n1,
 433                                   const void *s2, size_t n2);
 434
 435 static int
 436 memncmp(const void *s1, size_t n1, const void *s2, size_t n2)
 437 {
 438         int diff, len_diff = -1;
 439
 440         if (n1 >= n2) {
 441                 len_diff = (n1 > n2);
 442                 n1 = n2;
 443         }
 444         diff = memcmp(s1, s2, n1);
 445         return diff ? diff : len_diff;
 446 }
 447
 448 static int
 449 memnrcmp(const void *s1, size_t n1, const void *s2, size_t n2)
 450 {
 451         const unsigned char     *p1, *p2, *p1_lim;
 452
 453         if (n2 == 0)
 454                 return n1 != 0;
 455         if (n1 == 0)
 456                 return -1;
 457
 458         p1 = (const unsigned char *)s1 + n1 - 1;
 459         p2 = (const unsigned char *)s2 + n2 - 1;
 460
 461         for (p1_lim = (n1 <= n2 ? s1 : s2);  *p1 == *p2;  p1--, p2--) {
 462                 if (p1 == p1_lim)
 463                         return (p1 != s1) ? (p1 != p2) : (p2 != s2) ? -1 : 0;
 464         }
 465         return *p1 - *p2;
 466 }
 467
 468 char *
 469 mdb_version(int *maj, int *min, int *pat)
 470 {
 471         *maj = MDB_VERSION_MAJOR;
 472         *min = MDB_VERSION_MINOR;
 473         *pat = MDB_VERSION_PATCH;
 474         return MDB_VERSION_STRING;
 475 }
 476
 477 static char *const errstr[] = {
 478         "MDB_KEYEXIST: Key/data pair already exists",
 479         "MDB_NOTFOUND: No matching key/data pair found",
 480         "MDB_PAGE_NOTFOUND: Requested page not found",
 481         "MDB_CORRUPTED: Located page was wrong type",
 482         "MDB_PANIC: Update of meta page failed",
 483         "MDB_VERSION_MISMATCH: Database environment version mismatch"
 484 };
 485
 486 char *
 487 mdb_strerror(int err)
 488 {
 489         if (!err)
 490                 return ("Successful return: 0");
 491
 492         if (err >= MDB_KEYEXIST && err <= MDB_VERSION_MISMATCH)
 493                 return errstr[err - MDB_KEYEXIST];
 494
 495         return strerror(err);
 496 }
 497
 498 static char *
 499 mdb_dkey(MDB_val *key, char *buf)
 500 {
 501         char *ptr = buf;
 502         unsigned char *c = key->mv_data;
 503         unsigned int i;
 504         if (key->mv_size > MAXKEYSIZE)
 505                 return "MAXKEYSIZE";
 506         for (i=0; i<key->mv_size; i++)
 507                 ptr += sprintf(ptr, "%02x", *c++);
 508         return buf;
 509 }
 510
 511 int
 512 mdb_cmp(MDB_txn *txn, MDB_dbi dbi, const MDB_val *a, const MDB_val *b)
 513 {
 514         if (txn->mt_dbxs[dbi].md_cmp)
 515                 return txn->mt_dbxs[dbi].md_cmp(a, b);
 516
 517         if (txn->mt_dbs[dbi].md_flags & (MDB_REVERSEKEY
 518 #if __BYTE_ORDER == __LITTLE_ENDIAN
 519                 |MDB_INTEGERKEY
 520 #endif
 521         ))
 522                 return memnrcmp(a->mv_data, a->mv_size, b->mv_data, b->mv_size);
 523         else
 524                 return memncmp((char *)a->mv_data, a->mv_size, b->mv_data, b->mv_size);
 525 }
 526
 527 int
 528 mdb_dcmp(MDB_txn *txn, MDB_dbi dbi, const MDB_val *a, const MDB_val *b)
 529 {
 530         if (txn->mt_dbxs[dbi].md_dcmp)
 531                 return txn->mt_dbxs[dbi].md_dcmp(a, b);
 532
 533         if (txn->mt_dbs[dbi].md_flags & (0
 534 #if __BYTE_ORDER == __LITTLE_ENDIAN
 535                 |MDB_INTEGERDUP
 536 #endif
 537         ))
 538                 return memnrcmp(a->mv_data, a->mv_size, b->mv_data, b->mv_size);
 539         else
 540                 return memncmp((char *)a->mv_data, a->mv_size, b->mv_data, b->mv_size);
 541 }
 542
 543 /* Allocate new page(s) for writing */
 544 static MDB_dpage *
 545 mdb_alloc_page(MDB_txn *txn, MDB_page *parent, unsigned int parent_idx, int num)
 546 {
 547         MDB_dpage *dp;
 548         pgno_t pgno = P_INVALID;
 549         ULONG oldest;
 550         MIDL2 mid;
 551
 552         if (txn->mt_txnid > 2) {
 553
 554         oldest = txn->mt_txnid - 2;
 555         if (!txn->mt_env->me_pghead && txn->mt_dbs[FREE_DBI].md_root != P_INVALID) {
 556                 /* See if there's anything in the free DB */
 557                 MDB_pageparent mpp;
 558                 MDB_node *leaf;
 559                 ULONG *kptr;
 560
 561                 mpp.mp_parent = NULL;
 562                 mpp.mp_pi = 0;
 563                 mdb_search_page(txn, FREE_DBI, NULL, NULL, 0, &mpp);
 564                 leaf = NODEPTR(mpp.mp_page, 0);
 565                 kptr = (ULONG *)NODEKEY(leaf);
 566
 567                 /* It's potentially usable, unless there are still
 568                  * older readers outstanding. Grab it.
 569                  */
 570                 if (oldest > *kptr) {
 571                         MDB_oldpages *mop;
 572                         MDB_val data;
 573                         pgno_t *idl;
 574
 575                         mdb_read_data(txn, leaf, &data);
 576                         idl = (ULONG *)data.mv_data;
 577                         mop = malloc(sizeof(MDB_oldpages) + MDB_IDL_SIZEOF(idl) - sizeof(pgno_t));
 578                         mop->mo_next = txn->mt_env->me_pghead;
 579                         mop->mo_txnid = *kptr;
 580                         txn->mt_env->me_pghead = mop;
 581                         memcpy(mop->mo_pages, idl, MDB_IDL_SIZEOF(idl));
 582
 583 #if DEBUG > 1
 584                         {
 585                                 unsigned int i;
 586                                 DPRINTF("IDL read txn %lu root %lu num %lu",
 587                                         mop->mo_txnid, txn->mt_dbs[FREE_DBI].md_root, idl[0]);
 588                                 for (i=0; i<idl[0]; i++) {
 589                                         DPRINTF("IDL %lu", idl[i+1]);
 590                                 }
 591                         }
 592 #endif
 593                         /* drop this IDL from the DB */
 594                         mpp.mp_parent = NULL;
 595                         mpp.mp_pi = 0;
 596                         mdb_search_page(txn, FREE_DBI, NULL, NULL, 1, &mpp);
 597                         leaf = NODEPTR(mpp.mp_page, 0);
 598                         mdb_del0(txn, FREE_DBI, 0, &mpp, leaf);
 599                 }
 600         }
 601         if (txn->mt_env->me_pghead) {
 602                 unsigned int i;
 603                 for (i=0; i<txn->mt_env->me_txns->mti_numreaders; i++) {
 604                         ULONG mr = txn->mt_env->me_txns->mti_readers[i].mr_txnid;
 605                         if (!mr) continue;
 606                         if (mr < oldest)
 607                                 oldest = txn->mt_env->me_txns->mti_readers[i].mr_txnid;
 608                 }
 609                 if (oldest > txn->mt_env->me_pghead->mo_txnid) {
 610                         MDB_oldpages *mop = txn->mt_env->me_pghead;
 611                         txn->mt_oldest = oldest;
 612                         if (num > 1) {
 613                                 /* FIXME: For now, always use fresh pages. We
 614                                  * really ought to search the free list for a
 615                                  * contiguous range.
 616                                  */
 617                                 ;
 618                         } else {
 619                                 /* peel pages off tail, so we only have to truncate the list */
 620                                 pgno = MDB_IDL_LAST(mop->mo_pages);
 621                                 if (MDB_IDL_IS_RANGE(mop->mo_pages)) {
 622                                         mop->mo_pages[2]++;
 623                                         if (mop->mo_pages[2] > mop->mo_pages[1])
 624                                                 mop->mo_pages[0] = 0;
 625                                 } else {
 626                                         mop->mo_pages[0]--;
 627                                 }
 628                                 if (MDB_IDL_IS_ZERO(mop->mo_pages)) {
 629                                         txn->mt_env->me_pghead = mop->mo_next;
 630                                         free(mop);
 631                                 }
 632                         }
 633                 }
 634         }
 635         }
 636
 637         if (pgno == P_INVALID) {
 638                 /* DB size is maxed out */
 639                 if (txn->mt_next_pgno + num >= txn->mt_env->me_maxpg)
 640                         return NULL;
 641         }
 642         if (txn->mt_env->me_dpages && num == 1) {
 643                 dp = txn->mt_env->me_dpages;
 644                 txn->mt_env->me_dpages = (MDB_dpage *)dp->h.md_parent;
 645         } else {
 646                 if ((dp = malloc(txn->mt_env->me_psize * num + sizeof(MDB_dhead))) == NULL)
 647                         return NULL;
 648         }
 649         dp->h.md_num = num;
 650         dp->h.md_parent = parent;
 651         dp->h.md_pi = parent_idx;
 652         if (pgno == P_INVALID) {
 653                 dp->p.mp_pgno = txn->mt_next_pgno;
 654                 txn->mt_next_pgno += num;
 655         } else {
 656                 dp->p.mp_pgno = pgno;
 657         }
 658         mid.mid = dp->p.mp_pgno;
 659         mid.mptr = dp;
 660         mdb_midl2_insert(txn->mt_u.dirty_list, &mid);
 661
 662         return dp;
 663 }
 664
 665 /* Touch a page: make it dirty and re-insert into tree with updated pgno.
 666  */
 667 static int
 668 mdb_touch(MDB_txn *txn, MDB_pageparent *pp)
 669 {
 670         MDB_page *mp = pp->mp_page;
 671         pgno_t  pgno;
 672         assert(txn != NULL);
 673         assert(pp != NULL);
 674
 675         if (!F_ISSET(mp->mp_flags, P_DIRTY)) {
 676                 MDB_dpage *dp;
 677                 if ((dp = mdb_alloc_page(txn, pp->mp_parent, pp->mp_pi, 1)) == NULL)
 678                         return ENOMEM;
 679                 DPRINTF("touched page %lu -> %lu", mp->mp_pgno, dp->p.mp_pgno);
 680                 mdb_midl_insert(txn->mt_free_pgs, mp->mp_pgno);
 681                 pgno = dp->p.mp_pgno;
 682                 memcpy(&dp->p, mp, txn->mt_env->me_psize);
 683                 mp = &dp->p;
 684                 mp->mp_pgno = pgno;
 685                 mp->mp_flags |= P_DIRTY;
 686
 687                 /* Update the page number to new touched page. */
 688                 if (pp->mp_parent != NULL)
 689                         NODEPGNO(NODEPTR(pp->mp_parent, pp->mp_pi)) = mp->mp_pgno;
 690                 pp->mp_page = mp;
 691         }
 692         return 0;
 693 }
 694
 695 int
 696 mdb_env_sync(MDB_env *env, int force)
 697 {
 698         int rc = 0;
 699         if (force || !F_ISSET(env->me_flags, MDB_NOSYNC)) {
 700                 if (fdatasync(env->me_fd))
 701                         rc = errno;
 702         }
 703         return rc;
 704 }
 705
 706 int
 707 mdb_txn_begin(MDB_env *env, int rdonly, MDB_txn **ret)
 708 {
 709         MDB_txn *txn;
 710         int rc, toggle;
 711
 712         if (env->me_flags & MDB_FATAL_ERROR) {
 713                 DPUTS("mdb_txn_begin: environment had fatal error, must shutdown!");
 714                 return MDB_PANIC;
 715         }
 716         if ((txn = calloc(1, sizeof(MDB_txn))) == NULL) {
 717                 DPRINTF("calloc: %s", strerror(errno));
 718                 return ENOMEM;
 719         }
 720
 721         if (rdonly) {
 722                 txn->mt_flags |= MDB_TXN_RDONLY;
 723         } else {
 724                 txn->mt_u.dirty_list = env->me_dirty_list;
 725                 txn->mt_u.dirty_list[0].mid = 0;
 726                 txn->mt_free_pgs = env->me_free_pgs;
 727                 txn->mt_free_pgs[0] = 0;
 728
 729                 pthread_mutex_lock(&env->me_txns->mti_wmutex);
 730                 env->me_txns->mti_txnid++;
 731         }
 732
 733         txn->mt_txnid = env->me_txns->mti_txnid;
 734         if (rdonly) {
 735                 MDB_reader *r = pthread_getspecific(env->me_txkey);
 736                 if (!r) {
 737                         unsigned int i;
 738                         pthread_mutex_lock(&env->me_txns->mti_mutex);
 739                         for (i=0; i<env->me_txns->mti_numreaders; i++)
 740                                 if (env->me_txns->mti_readers[i].mr_pid == 0)
 741                                         break;
 742                         if (i == env->me_maxreaders) {
 743                                 pthread_mutex_unlock(&env->me_txns->mti_mutex);
 744                                 return ENOSPC;
 745                         }
 746                         env->me_txns->mti_readers[i].mr_pid = getpid();
 747                         env->me_txns->mti_readers[i].mr_tid = pthread_self();
 748                         r = &env->me_txns->mti_readers[i];
 749                         pthread_setspecific(env->me_txkey, r);
 750                         if (i >= env->me_txns->mti_numreaders)
 751                                 env->me_txns->mti_numreaders = i+1;
 752                         pthread_mutex_unlock(&env->me_txns->mti_mutex);
 753                 }
 754                 r->mr_txnid = txn->mt_txnid;
 755                 txn->mt_u.reader = r;
 756         } else {
 757                 env->me_txn = txn;
 758         }
 759
 760         txn->mt_env = env;
 761
 762         toggle = env->me_txns->mti_me_toggle;
 763         if ((rc = mdb_env_read_meta(env, &toggle)) != MDB_SUCCESS) {
 764                 mdb_txn_abort(txn);
 765                 return rc;
 766         }
 767
 768         /* Copy the DB arrays */
 769         txn->mt_numdbs = env->me_numdbs;
 770         txn->mt_dbxs = env->me_dbxs;    /* mostly static anyway */
 771         txn->mt_dbs = malloc(env->me_maxdbs * sizeof(MDB_db));
 772         memcpy(txn->mt_dbs, env->me_meta->mm_dbs, 2 * sizeof(MDB_db));
 773         if (txn->mt_numdbs > 2)
 774                 memcpy(txn->mt_dbs+2, env->me_dbs[env->me_db_toggle]+2,
 775                         (txn->mt_numdbs - 2) * sizeof(MDB_db));
 776
 777         if (!rdonly) {
 778                 if (toggle)
 779                         txn->mt_flags |= MDB_TXN_METOGGLE;
 780                 txn->mt_next_pgno = env->me_meta->mm_last_pg+1;
 781         }
 782
 783         DPRINTF("begin transaction %lu on mdbenv %p, root page %lu",
 784                 txn->mt_txnid, (void *) env, txn->mt_dbs[MAIN_DBI].md_root);
 785
 786         *ret = txn;
 787         return MDB_SUCCESS;
 788 }
 789
 790 void
 791 mdb_txn_abort(MDB_txn *txn)
 792 {
 793         MDB_env *env;
 794
 795         if (txn == NULL)
 796                 return;
 797
 798         env = txn->mt_env;
 799         DPRINTF("abort transaction %lu on mdbenv %p, root page %lu",
 800                 txn->mt_txnid, (void *) env, txn->mt_dbs[MAIN_DBI].md_root);
 801
 802         free(txn->mt_dbs);
 803
 804         if (F_ISSET(txn->mt_flags, MDB_TXN_RDONLY)) {
 805                 txn->mt_u.reader->mr_txnid = 0;
 806         } else {
 807                 MDB_oldpages *mop;
 808                 MDB_dpage *dp;
 809                 unsigned int i;
 810
 811                 /* return all dirty pages to dpage list */
 812                 for (i=1; i<=txn->mt_u.dirty_list[0].mid; i++) {
 813                         dp = txn->mt_u.dirty_list[i].mptr;
 814                         if (dp->h.md_num == 1) {
 815                                 dp->h.md_parent = (MDB_page *)txn->mt_env->me_dpages;
 816                                 txn->mt_env->me_dpages = dp;
 817                         } else {
 818                                 /* large pages just get freed directly */
 819                                 free(dp);
 820                         }
 821                 }
 822
 823                 while ((mop = txn->mt_env->me_pghead)) {
 824                         txn->mt_env->me_pghead = mop->mo_next;
 825                         free(mop);
 826                 }
 827
 828                 env->me_txn = NULL;
 829                 env->me_txns->mti_txnid--;
 830                 for (i=2; i<env->me_numdbs; i++)
 831                         env->me_dbxs[i].md_dirty = 0;
 832                 pthread_mutex_unlock(&env->me_txns->mti_wmutex);
 833         }
 834
 835         free(txn);
 836 }
 837
 838 int
 839 mdb_txn_commit(MDB_txn *txn)
 840 {
 841         int              n, done;
 842         unsigned int i;
 843         ssize_t          rc;
 844         off_t            size;
 845         MDB_dpage       *dp;
 846         MDB_env *env;
 847         pgno_t  next;
 848         struct iovec     iov[MDB_COMMIT_PAGES];
 849
 850         assert(txn != NULL);
 851         assert(txn->mt_env != NULL);
 852
 853         env = txn->mt_env;
 854
 855         if (F_ISSET(txn->mt_flags, MDB_TXN_RDONLY)) {
 856                 mdb_txn_abort(txn);
 857                 return MDB_SUCCESS;
 858         }
 859
 860         if (txn != env->me_txn) {
 861                 DPUTS("attempt to commit unknown transaction");
 862                 mdb_txn_abort(txn);
 863                 return EINVAL;
 864         }
 865
 866         if (F_ISSET(txn->mt_flags, MDB_TXN_ERROR)) {
 867                 DPUTS("error flag is set, can't commit");
 868                 mdb_txn_abort(txn);
 869                 return EINVAL;
 870         }
 871
 872         if (!txn->mt_u.dirty_list[0].mid)
 873                 goto done;
 874
 875         DPRINTF("committing transaction %lu on mdbenv %p, root page %lu",
 876             txn->mt_txnid, (void *) env, txn->mt_dbs[MAIN_DBI].md_root);
 877
 878         /* should only be one record now */
 879         if (env->me_pghead) {
 880                 MDB_val key, data;
 881                 MDB_oldpages *mop;
 882
 883                 mop = env->me_pghead;
 884                 key.mv_size = sizeof(pgno_t);
 885                 key.mv_data = (char *)&mop->mo_txnid;
 886                 data.mv_size = MDB_IDL_SIZEOF(mop->mo_pages);
 887                 data.mv_data = mop->mo_pages;
 888                 mdb_put0(txn, FREE_DBI, &key, &data, 0);
 889                 free(env->me_pghead);
 890                 env->me_pghead = NULL;
 891         }
 892         /* save to free list */
 893         if (!MDB_IDL_IS_ZERO(txn->mt_free_pgs)) {
 894                 MDB_val key, data;
 895                 MDB_pageparent mpp;
 896
 897                 /* make sure last page of freeDB is touched and on freelist */
 898                 key.mv_size = MAXKEYSIZE+1;
 899                 key.mv_data = NULL;
 900                 mpp.mp_parent = NULL;
 901                 mpp.mp_pi = 0;
 902                 mdb_search_page(txn, FREE_DBI, &key, NULL, 1, &mpp);
 903
 904 #if DEBUG > 1
 905                 {
 906                         unsigned int i;
 907                         ULONG *idl = txn->mt_free_pgs;
 908                         DPRINTF("IDL write txn %lu root %lu num %lu",
 909                                 txn->mt_txnid, txn->mt_dbs[FREE_DBI].md_root, idl[0]);
 910                         for (i=0; i<idl[0]; i++) {
 911                                 DPRINTF("IDL %lu", idl[i+1]);
 912                         }
 913                 }
 914 #endif
 915                 /* write to last page of freeDB */
 916                 key.mv_size = sizeof(pgno_t);
 917                 key.mv_data = (char *)&txn->mt_txnid;
 918                 data.mv_size = MDB_IDL_SIZEOF(txn->mt_free_pgs);
 919                 data.mv_data = txn->mt_free_pgs;
 920                 mdb_put0(txn, FREE_DBI, &key, &data, 0);
 921         }
 922
 923         /* Update DB root pointers. Their pages have already been
 924          * touched so this is all in-place and cannot fail.
 925          */
 926         {
 927                 MDB_val data;
 928                 data.mv_size = sizeof(MDB_db);
 929
 930                 for (i = 2; i < txn->mt_numdbs; i++) {
 931                         if (txn->mt_dbxs[i].md_dirty) {
 932                                 data.mv_data = &txn->mt_dbs[i];
 933                                 mdb_put0(txn, MAIN_DBI, &txn->mt_dbxs[i].md_name, &data, 0);
 934                         }
 935                 }
 936         }
 937
 938         /* Commit up to MDB_COMMIT_PAGES dirty pages to disk until done.
 939          */
 940         next = 0;
 941         i = 1;
 942         do {
 943                 n = 0;
 944                 done = 1;
 945                 size = 0;
 946                 for (; i<=txn->mt_u.dirty_list[0].mid; i++) {
 947                         dp = txn->mt_u.dirty_list[i].mptr;
 948                         if (dp->p.mp_pgno != next) {
 949                                 if (n) {
 950                                         DPRINTF("committing %u dirty pages", n);
 951                                         rc = writev(env->me_fd, iov, n);
 952                                         if (rc != size) {
 953                                                 n = errno;
 954                                                 if (rc > 0)
 955                                                         DPUTS("short write, filesystem full?");
 956                                                 else
 957                                                         DPRINTF("writev: %s", strerror(errno));
 958                                                 mdb_txn_abort(txn);
 959                                                 return n;
 960                                         }
 961                                         n = 0;
 962                                         size = 0;
 963                                 }
 964                                 lseek(env->me_fd, dp->p.mp_pgno * env->me_psize, SEEK_SET);
 965                                 next = dp->p.mp_pgno;
 966                         }
 967                         DPRINTF("committing page %lu", dp->p.mp_pgno);
 968                         iov[n].iov_len = env->me_psize * dp->h.md_num;
 969                         iov[n].iov_base = &dp->p;
 970                         size += iov[n].iov_len;
 971                         next = dp->p.mp_pgno + dp->h.md_num;
 972                         /* clear dirty flag */
 973                         dp->p.mp_flags &= ~P_DIRTY;
 974                         if (++n >= MDB_COMMIT_PAGES) {
 975                                 done = 0;
 976                                 break;
 977                         }
 978                 }
 979
 980                 if (n == 0)
 981                         break;
 982
 983                 DPRINTF("committing %u dirty pages", n);
 984                 rc = writev(env->me_fd, iov, n);
 985                 if (rc != size) {
 986                         n = errno;
 987                         if (rc > 0)
 988                                 DPUTS("short write, filesystem full?");
 989                         else
 990                                 DPRINTF("writev: %s", strerror(errno));
 991                         mdb_txn_abort(txn);
 992                         return n;
 993                 }
 994
 995         } while (!done);
 996
 997         /* Drop the dirty pages.
 998          */
 999         for (i=1; i<=txn->mt_u.dirty_list[0].mid; i++) {
1000                 dp = txn->mt_u.dirty_list[i].mptr;
1001                 if (dp->h.md_num == 1) {
1002                         dp->h.md_parent = (MDB_page *)txn->mt_env->me_dpages;
1003                         txn->mt_env->me_dpages = dp;
1004                 } else {
1005                         free(dp);
1006                 }
1007                 txn->mt_u.dirty_list[i].mid = 0;
1008         }
1009
1010         if ((n = mdb_env_sync(env, 0)) != 0 ||
1011             (n = mdb_env_write_meta(txn)) != MDB_SUCCESS) {
1012                 mdb_txn_abort(txn);
1013                 return n;
1014         }
1015
1016 done:
1017         env->me_txn = NULL;
1018         /* update the DB tables */
1019         {
1020                 int toggle = !env->me_db_toggle;
1021
1022                 for (i = 2; i < env->me_numdbs; i++) {
1023                         if (txn->mt_dbxs[i].md_dirty) {
1024                                 env->me_dbs[toggle][i] = txn->mt_dbs[i];
1025                                 txn->mt_dbxs[i].md_dirty = 0;
1026                         }
1027                 }
1028                 for (i = env->me_numdbs; i < txn->mt_numdbs; i++) {
1029                         txn->mt_dbxs[i].md_dirty = 0;
1030                         env->me_dbxs[i] = txn->mt_dbxs[i];
1031                         env->me_dbs[toggle][i] = txn->mt_dbs[i];
1032                 }
1033                 env->me_db_toggle = toggle;
1034                 env->me_numdbs = txn->mt_numdbs;
1035
1036                 free(txn->mt_dbs);
1037         }
1038
1039         pthread_mutex_unlock(&env->me_txns->mti_wmutex);
1040         free(txn);
1041
1042         return MDB_SUCCESS;
1043 }
1044
1045 static int
1046 mdb_env_read_header(MDB_env *env, MDB_meta *meta)
1047 {
1048         char             page[PAGESIZE];
1049         MDB_page        *p;
1050         MDB_meta        *m;
1051         int              rc;
1052
1053         assert(env != NULL);
1054
1055         /* We don't know the page size yet, so use a minimum value.
1056          */
1057
1058         if ((rc = pread(env->me_fd, page, PAGESIZE, 0)) == 0) {
1059                 return ENOENT;
1060         } else if (rc != PAGESIZE) {
1061                 if (rc > 0)
1062                         errno = EINVAL;
1063                 DPRINTF("read: %s", strerror(errno));
1064                 return errno;
1065         }
1066
1067         p = (MDB_page *)page;
1068
1069         if (!F_ISSET(p->mp_flags, P_META)) {
1070                 DPRINTF("page %lu not a meta page", p->mp_pgno);
1071                 return EINVAL;
1072         }
1073
1074         m = METADATA(p);
1075         if (m->mm_magic != MDB_MAGIC) {
1076                 DPUTS("meta has invalid magic");
1077                 return EINVAL;
1078         }
1079
1080         if (m->mm_version != MDB_VERSION) {
1081                 DPRINTF("database is version %u, expected version %u",
1082                     m->mm_version, MDB_VERSION);
1083                 return MDB_VERSION_MISMATCH;
1084         }
1085
1086         memcpy(meta, m, sizeof(*m));
1087         return 0;
1088 }
1089
1090 static int
1091 mdb_env_init_meta(MDB_env *env, MDB_meta *meta)
1092 {
1093         MDB_page *p, *q;
1094         MDB_meta *m;
1095         int rc;
1096         unsigned int     psize;
1097
1098         DPUTS("writing new meta page");
1099         psize = sysconf(_SC_PAGE_SIZE);
1100
1101         meta->mm_magic = MDB_MAGIC;
1102         meta->mm_version = MDB_VERSION;
1103         meta->mm_psize = psize;
1104         meta->mm_last_pg = 1;
1105         meta->mm_flags = env->me_flags & 0xffff;
1106         meta->mm_flags |= MDB_INTEGERKEY;
1107         meta->mm_dbs[0].md_root = P_INVALID;
1108         meta->mm_dbs[1].md_root = P_INVALID;
1109
1110         p = calloc(2, psize);
1111         p->mp_pgno = 0;
1112         p->mp_flags = P_META;
1113
1114         m = METADATA(p);
1115         memcpy(m, meta, sizeof(*meta));
1116
1117         q = (MDB_page *)((char *)p + psize);
1118
1119         q->mp_pgno = 1;
1120         q->mp_flags = P_META;
1121
1122         m = METADATA(q);
1123         memcpy(m, meta, sizeof(*meta));
1124
1125         rc = write(env->me_fd, p, psize * 2);
1126         free(p);
1127         return (rc == (int)psize * 2) ? MDB_SUCCESS : errno;
1128 }
1129
1130 static int
1131 mdb_env_write_meta(MDB_txn *txn)
1132 {
1133         MDB_env *env;
1134         MDB_meta        meta, metab;
1135         off_t off;
1136         int rc, len, toggle;
1137         char *ptr;
1138
1139         assert(txn != NULL);
1140         assert(txn->mt_env != NULL);
1141
1142         toggle = !F_ISSET(txn->mt_flags, MDB_TXN_METOGGLE);
1143         DPRINTF("writing meta page %d for root page %lu",
1144                 toggle, txn->mt_dbs[MAIN_DBI].md_root);
1145
1146         env = txn->mt_env;
1147
1148         metab.mm_txnid = env->me_metas[toggle]->mm_txnid;
1149         metab.mm_last_pg = env->me_metas[toggle]->mm_last_pg;
1150
1151         ptr = (char *)&meta;
1152         off = offsetof(MDB_meta, mm_dbs[0].md_depth);
1153         len = sizeof(MDB_meta) - off;
1154
1155         ptr += off;
1156         meta.mm_dbs[0] = txn->mt_dbs[0];
1157         meta.mm_dbs[1] = txn->mt_dbs[1];
1158         meta.mm_last_pg = txn->mt_next_pgno - 1;
1159         meta.mm_txnid = txn->mt_txnid;
1160
1161         if (toggle)
1162                 off += env->me_psize;
1163         off += PAGEHDRSZ;
1164
1165         /* Write to the SYNC fd */
1166         rc = pwrite(env->me_mfd, ptr, len, off);
1167         if (rc != len) {
1168                 int r2;
1169                 rc = errno;
1170                 DPUTS("write failed, disk error?");
1171                 /* On a failure, the pagecache still contains the new data.
1172                  * Write some old data back, to prevent it from being used.
1173                  * Use the non-SYNC fd; we know it will fail anyway.
1174                  */
1175                 meta.mm_last_pg = metab.mm_last_pg;
1176                 meta.mm_txnid = metab.mm_txnid;
1177                 r2 = pwrite(env->me_fd, ptr, len, off);
1178                 env->me_flags |= MDB_FATAL_ERROR;
1179                 return rc;
1180         }
1181         txn->mt_env->me_txns->mti_me_toggle = toggle;
1182
1183         return MDB_SUCCESS;
1184 }
1185
1186 static int
1187 mdb_env_read_meta(MDB_env *env, int *which)
1188 {
1189         int toggle = 0;
1190
1191         assert(env != NULL);
1192
1193         if (which)
1194                 toggle = *which;
1195         else if (env->me_metas[0]->mm_txnid < env->me_metas[1]->mm_txnid)
1196                 toggle = 1;
1197
1198         if (env->me_meta != env->me_metas[toggle])
1199                 env->me_meta = env->me_metas[toggle];
1200
1201         DPRINTF("Using meta page %d", toggle);
1202
1203         return MDB_SUCCESS;
1204 }
1205
1206 int
1207 mdb_env_create(MDB_env **env)
1208 {
1209         MDB_env *e;
1210
1211         e = calloc(1, sizeof(MDB_env));
1212         if (!e) return ENOMEM;
1213
1214         e->me_maxreaders = DEFAULT_READERS;
1215         e->me_maxdbs = 2;
1216         e->me_fd = -1;
1217         e->me_lfd = -1;
1218         e->me_mfd = -1;
1219         *env = e;
1220         return MDB_SUCCESS;
1221 }
1222
1223 int
1224 mdb_env_set_mapsize(MDB_env *env, size_t size)
1225 {
1226         if (env->me_map)
1227                 return EINVAL;
1228         env->me_mapsize = size;
1229         return MDB_SUCCESS;
1230 }
1231
1232 int
1233 mdb_env_set_maxdbs(MDB_env *env, int dbs)
1234 {
1235         env->me_maxdbs = dbs;
1236         return MDB_SUCCESS;
1237 }
1238
1239 int
1240 mdb_env_set_maxreaders(MDB_env *env, int readers)
1241 {
1242         env->me_maxreaders = readers;
1243         return MDB_SUCCESS;
1244 }
1245
1246 int
1247 mdb_env_get_maxreaders(MDB_env *env, int *readers)
1248 {
1249         if (!env || !readers)
1250                 return EINVAL;
1251         *readers = env->me_maxreaders;
1252         return MDB_SUCCESS;
1253 }
1254
1255 static int
1256 mdb_env_open2(MDB_env *env, unsigned int flags)
1257 {
1258         int i, newenv = 0;
1259         MDB_meta meta;
1260         MDB_page *p;
1261
1262         env->me_flags = flags;
1263
1264         memset(&meta, 0, sizeof(meta));
1265
1266         if ((i = mdb_env_read_header(env, &meta)) != 0) {
1267                 if (i != ENOENT)
1268                         return i;
1269                 DPUTS("new mdbenv");
1270                 newenv = 1;
1271         }
1272
1273         if (!env->me_mapsize) {
1274                 env->me_mapsize = newenv ? DEFAULT_MAPSIZE : meta.mm_mapsize;
1275         }
1276
1277         i = MAP_SHARED;
1278         if (meta.mm_address && (flags & MDB_FIXEDMAP))
1279                 i |= MAP_FIXED;
1280         env->me_map = mmap(meta.mm_address, env->me_mapsize, PROT_READ, i,
1281                 env->me_fd, 0);
1282         if (env->me_map == MAP_FAILED)
1283                 return errno;
1284
1285         if (newenv) {
1286                 meta.mm_mapsize = env->me_mapsize;
1287                 if (flags & MDB_FIXEDMAP)
1288                         meta.mm_address = env->me_map;
1289                 i = mdb_env_init_meta(env, &meta);
1290                 if (i != MDB_SUCCESS) {
1291                         munmap(env->me_map, env->me_mapsize);
1292                         return i;
1293                 }
1294         }
1295         env->me_psize = meta.mm_psize;
1296
1297         env->me_maxpg = env->me_mapsize / env->me_psize;
1298
1299         p = (MDB_page *)env->me_map;
1300         env->me_metas[0] = METADATA(p);
1301         env->me_metas[1] = (MDB_meta *)((char *)env->me_metas[0] + meta.mm_psize);
1302
1303         if ((i = mdb_env_read_meta(env, NULL)) != 0)
1304                 return i;
1305
1306         DPRINTF("opened database version %u, pagesize %u",
1307             env->me_meta->mm_version, env->me_psize);
1308         DPRINTF("depth: %u", env->me_meta->mm_dbs[MAIN_DBI].md_depth);
1309         DPRINTF("entries: %lu", env->me_meta->mm_dbs[MAIN_DBI].md_entries);
1310         DPRINTF("branch pages: %lu", env->me_meta->mm_dbs[MAIN_DBI].md_branch_pages);
1311         DPRINTF("leaf pages: %lu", env->me_meta->mm_dbs[MAIN_DBI].md_leaf_pages);
1312         DPRINTF("overflow pages: %lu", env->me_meta->mm_dbs[MAIN_DBI].md_overflow_pages);
1313         DPRINTF("root: %lu", env->me_meta->mm_dbs[MAIN_DBI].md_root);
1314
1315         return MDB_SUCCESS;
1316 }
1317
1318 static void
1319 mdb_env_reader_dest(void *ptr)
1320 {
1321         MDB_reader *reader = ptr;
1322
1323         reader->mr_txnid = 0;
1324         reader->mr_pid = 0;
1325         reader->mr_tid = 0;
1326 }
1327
1328 /* downgrade the exclusive lock on the region back to shared */
1329 static void
1330 mdb_env_share_locks(MDB_env *env)
1331 {
1332         struct flock lock_info;
1333
1334         env->me_txns->mti_txnid = env->me_meta->mm_txnid;
1335         if (env->me_metas[0]->mm_txnid < env->me_metas[1]->mm_txnid)
1336                 env->me_txns->mti_me_toggle = 1;
1337
1338         memset((void *)&lock_info, 0, sizeof(lock_info));
1339         lock_info.l_type = F_RDLCK;
1340         lock_info.l_whence = SEEK_SET;
1341         lock_info.l_start = 0;
1342         lock_info.l_len = 1;
1343         fcntl(env->me_lfd, F_SETLK, &lock_info);
1344 }
1345
1346 static int
1347 mdb_env_setup_locks(MDB_env *env, char *lpath, int mode, int *excl)
1348 {
1349         int rc;
1350         off_t size, rsize;
1351         struct flock lock_info;
1352
1353         *excl = 0;
1354
1355         if ((env->me_lfd = open(lpath, O_RDWR|O_CREAT, mode)) == -1) {
1356                 rc = errno;
1357                 return rc;
1358         }
1359         /* Try to get exclusive lock. If we succeed, then
1360          * nobody is using the lock region and we should initialize it.
1361          */
1362         memset((void *)&lock_info, 0, sizeof(lock_info));
1363         lock_info.l_type = F_WRLCK;
1364         lock_info.l_whence = SEEK_SET;
1365         lock_info.l_start = 0;
1366         lock_info.l_len = 1;
1367         rc = fcntl(env->me_lfd, F_SETLK, &lock_info);
1368         if (rc == 0) {
1369                 *excl = 1;
1370         } else {
1371                 lock_info.l_type = F_RDLCK;
1372                 rc = fcntl(env->me_lfd, F_SETLK, &lock_info);
1373                 if (rc) {
1374                         rc = errno;
1375                         goto fail;
1376                 }
1377         }
1378         size = lseek(env->me_lfd, 0, SEEK_END);
1379         rsize = (env->me_maxreaders-1) * sizeof(MDB_reader) + sizeof(MDB_txninfo);
1380         if (size < rsize && *excl) {
1381                 if (ftruncate(env->me_lfd, rsize) != 0) {
1382                         rc = errno;
1383                         goto fail;
1384                 }
1385         } else {
1386                 rsize = size;
1387                 size = rsize - sizeof(MDB_txninfo);
1388                 env->me_maxreaders = size/sizeof(MDB_reader) + 1;
1389         }
1390         env->me_txns = mmap(0, rsize, PROT_READ|PROT_WRITE, MAP_SHARED,
1391                 env->me_lfd, 0);
1392         if (env->me_txns == MAP_FAILED) {
1393                 rc = errno;
1394                 goto fail;
1395         }
1396         if (*excl) {
1397                 pthread_mutexattr_t mattr;
1398
1399                 pthread_mutexattr_init(&mattr);
1400                 rc = pthread_mutexattr_setpshared(&mattr, PTHREAD_PROCESS_SHARED);
1401                 if (rc) {
1402                         goto fail;
1403                 }
1404                 pthread_mutex_init(&env->me_txns->mti_mutex, &mattr);
1405                 pthread_mutex_init(&env->me_txns->mti_wmutex, &mattr);
1406                 env->me_txns->mti_version = MDB_VERSION;
1407                 env->me_txns->mti_magic = MDB_MAGIC;
1408                 env->me_txns->mti_txnid = 0;
1409                 env->me_txns->mti_numreaders = 0;
1410                 env->me_txns->mti_me_toggle = 0;
1411
1412         } else {
1413                 if (env->me_txns->mti_magic != MDB_MAGIC) {
1414                         DPUTS("lock region has invalid magic");
1415                         rc = EINVAL;
1416                         goto fail;
1417                 }
1418                 if (env->me_txns->mti_version != MDB_VERSION) {
1419                         DPRINTF("lock region is version %u, expected version %u",
1420                                 env->me_txns->mti_version, MDB_VERSION);
1421                         rc = MDB_VERSION_MISMATCH;
1422                         goto fail;
1423                 }
1424                 if (errno != EACCES && errno != EAGAIN) {
1425                         rc = errno;
1426                         goto fail;
1427                 }
1428         }
1429         return MDB_SUCCESS;
1430
1431 fail:
1432         close(env->me_lfd);
1433         env->me_lfd = -1;
1434         return rc;
1435
1436 }
1437
1438 #define LOCKNAME        "/lock.mdb"
1439 #define DATANAME        "/data.mdb"
1440 int
1441 mdb_env_open(MDB_env *env, const char *path, unsigned int flags, mode_t mode)
1442 {
1443         int             oflags, rc, len, excl;
1444         char *lpath, *dpath;
1445
1446         len = strlen(path);
1447         lpath = malloc(len + sizeof(LOCKNAME) + len + sizeof(DATANAME));
1448         if (!lpath)
1449                 return ENOMEM;
1450         dpath = lpath + len + sizeof(LOCKNAME);
1451         sprintf(lpath, "%s" LOCKNAME, path);
1452         sprintf(dpath, "%s" DATANAME, path);
1453
1454         rc = mdb_env_setup_locks(env, lpath, mode, &excl);
1455         if (rc)
1456                 goto leave;
1457
1458         if (F_ISSET(flags, MDB_RDONLY))
1459                 oflags = O_RDONLY;
1460         else
1461                 oflags = O_RDWR | O_CREAT;
1462
1463         if ((env->me_fd = open(dpath, oflags, mode)) == -1) {
1464                 rc = errno;
1465                 goto leave;
1466         }
1467
1468         if ((rc = mdb_env_open2(env, flags)) == MDB_SUCCESS) {
1469                 /* synchronous fd for meta writes */
1470                 if (!(flags & (MDB_RDONLY|MDB_NOSYNC)))
1471                         oflags |= MDB_DSYNC;
1472                 if ((env->me_mfd = open(dpath, oflags, mode)) == -1) {
1473                         rc = errno;
1474                         goto leave;
1475                 }
1476
1477                 env->me_path = strdup(path);
1478                 DPRINTF("opened dbenv %p", (void *) env);
1479                 pthread_key_create(&env->me_txkey, mdb_env_reader_dest);
1480                 if (excl)
1481                         mdb_env_share_locks(env);
1482                 env->me_dbxs = calloc(env->me_maxdbs, sizeof(MDB_dbx));
1483                 env->me_dbs[0] = calloc(env->me_maxdbs, sizeof(MDB_db));
1484                 env->me_dbs[1] = calloc(env->me_maxdbs, sizeof(MDB_db));
1485                 env->me_numdbs = 2;
1486         }
1487
1488 leave:
1489         if (rc) {
1490                 if (env->me_fd >= 0) {
1491                         close(env->me_fd);
1492                         env->me_fd = -1;
1493                 }
1494                 if (env->me_lfd >= 0) {
1495                         close(env->me_lfd);
1496                         env->me_lfd = -1;
1497                 }
1498         }
1499         free(lpath);
1500         return rc;
1501 }
1502
1503 void
1504 mdb_env_close(MDB_env *env)
1505 {
1506         MDB_dpage *dp;
1507
1508         if (env == NULL)
1509                 return;
1510
1511         while (env->me_dpages) {
1512                 dp = env->me_dpages;
1513                 env->me_dpages = (MDB_dpage *)dp->h.md_parent;
1514                 free(dp);
1515         }
1516
1517         free(env->me_dbs[1]);
1518         free(env->me_dbs[0]);
1519         free(env->me_dbxs);
1520         free(env->me_path);
1521
1522         pthread_key_delete(env->me_txkey);
1523
1524         if (env->me_map) {
1525                 munmap(env->me_map, env->me_mapsize);
1526         }
1527         close(env->me_mfd);
1528         close(env->me_fd);
1529         if (env->me_txns) {
1530                 pid_t pid = getpid();
1531                 size_t size = (env->me_maxreaders-1) * sizeof(MDB_reader) + sizeof(MDB_txninfo);
1532                 int i;
1533                 for (i=0; i<env->me_txns->mti_numreaders; i++)
1534                         if (env->me_txns->mti_readers[i].mr_pid == pid)
1535                                 env->me_txns->mti_readers[i].mr_pid = 0;
1536                 munmap(env->me_txns, size);
1537         }
1538         close(env->me_lfd);
1539         free(env);
1540 }
1541
1542 /* Search for key within a leaf page, using binary search.
1543  * Returns the smallest entry larger or equal to the key.
1544  * If exactp is non-null, stores whether the found entry was an exact match
1545  * in *exactp (1 or 0).
1546  * If kip is non-null, stores the index of the found entry in *kip.
1547  * If no entry larger or equal to the key is found, returns NULL.
1548  */
1549 static MDB_node *
1550 mdb_search_node(MDB_txn *txn, MDB_dbi dbi, MDB_page *mp, MDB_val *key,
1551     int *exactp, unsigned int *kip)
1552 {
1553         unsigned int     i = 0;
1554         int              low, high;
1555         int              rc = 0;
1556         MDB_node        *node = NULL;
1557         MDB_val  nodekey;
1558         DKBUF;
1559
1560         DPRINTF("searching %u keys in %s page %lu",
1561             NUMKEYS(mp),
1562             IS_LEAF(mp) ? "leaf" : "branch",
1563             mp->mp_pgno);
1564
1565         assert(NUMKEYS(mp) > 0);
1566
1567         memset(&nodekey, 0, sizeof(nodekey));
1568
1569         low = IS_LEAF(mp) ? 0 : 1;
1570         high = NUMKEYS(mp) - 1;
1571         while (low <= high) {
1572                 i = (low + high) >> 1;
1573
1574                 if (IS_LEAF2(mp)) {
1575                         nodekey.mv_size = txn->mt_dbs[dbi].md_pad;
1576                         nodekey.mv_data = LEAF2KEY(mp, i, nodekey.mv_size);
1577                 } else {
1578                         node = NODEPTR(mp, i);
1579
1580                         nodekey.mv_size = node->mn_ksize;
1581                         nodekey.mv_data = NODEKEY(node);
1582                 }
1583
1584                 rc = mdb_cmp(txn, dbi, key, &nodekey);
1585
1586                 if (IS_LEAF(mp))
1587                         DPRINTF("found leaf index %u [%s], rc = %i",
1588                             i, DKEY(&nodekey), rc);
1589                 else
1590                         DPRINTF("found branch index %u [%s -> %lu], rc = %i",
1591                             i, DKEY(&nodekey), NODEPGNO(node), rc);
1592
1593                 if (rc == 0)
1594                         break;
1595                 if (rc > 0)
1596                         low = i + 1;
1597                 else
1598                         high = i - 1;
1599         }
1600
1601         if (rc > 0) {   /* Found entry is less than the key. */
1602                 i++;    /* Skip to get the smallest entry larger than key. */
1603                 if (i >= NUMKEYS(mp))
1604                         /* There is no entry larger or equal to the key. */
1605                         return NULL;
1606         }
1607         if (exactp)
1608                 *exactp = (rc == 0);
1609         if (kip)        /* Store the key index if requested. */
1610                 *kip = i;
1611
1612         /* nodeptr is fake for LEAF2 */
1613         return IS_LEAF2(mp) ? NODEPTR(mp, 0) : NODEPTR(mp, i);
1614 }
1615
1616 static void
1617 cursor_pop_page(MDB_cursor *cursor)
1618 {
1619         MDB_ppage       *top;
1620
1621         if (cursor->mc_snum) {
1622                 top = CURSOR_TOP(cursor);
1623                 cursor->mc_snum--;
1624
1625                 DPRINTF("popped page %lu off db %u cursor %p", top->mp_page->mp_pgno,
1626                         cursor->mc_dbi, (void *) cursor);
1627         }
1628 }
1629
1630 static MDB_ppage *
1631 cursor_push_page(MDB_cursor *cursor, MDB_page *mp)
1632 {
1633         MDB_ppage       *ppage;
1634
1635         DPRINTF("pushing page %lu on db %u cursor %p", mp->mp_pgno,
1636                 cursor->mc_dbi, (void *) cursor);
1637
1638         ppage = &cursor->mc_stack[cursor->mc_snum++];
1639         ppage->mp_page = mp;
1640         ppage->mp_ki = 0;
1641         return ppage;
1642 }
1643
1644 static MDB_page *
1645 mdb_get_page(MDB_txn *txn, pgno_t pgno)
1646 {
1647         MDB_page *p = NULL;
1648         int found = 0;
1649
1650         if (!F_ISSET(txn->mt_flags, MDB_TXN_RDONLY) && txn->mt_u.dirty_list[0].mid) {
1651                 MDB_dpage *dp;
1652                 MIDL2 id;
1653                 unsigned x;
1654                 id.mid = pgno;
1655                 x = mdb_midl2_search(txn->mt_u.dirty_list, &id);
1656                 if (x <= txn->mt_u.dirty_list[0].mid && txn->mt_u.dirty_list[x].mid == pgno) {
1657                         dp = txn->mt_u.dirty_list[x].mptr;
1658                         p = &dp->p;
1659                         found = 1;
1660                 }
1661         }
1662         if (!found) {
1663                 if (pgno > txn->mt_env->me_meta->mm_last_pg)
1664                         return NULL;
1665                 p = (MDB_page *)(txn->mt_env->me_map + txn->mt_env->me_psize * pgno);
1666         }
1667         return p;
1668 }
1669
1670 static int
1671 mdb_search_page_root(MDB_txn *txn, MDB_dbi dbi, MDB_val *key,
1672     MDB_cursor *cursor, int modify, MDB_pageparent *mpp)
1673 {
1674         MDB_page        *mp = mpp->mp_page;
1675         DKBUF;
1676         int rc;
1677
1678         if (cursor && cursor_push_page(cursor, mp) == NULL)
1679                 return ENOMEM;
1680
1681         while (IS_BRANCH(mp)) {
1682                 unsigned int     i = 0;
1683                 MDB_node        *node;
1684
1685                 DPRINTF("branch page %lu has %u keys", mp->mp_pgno, NUMKEYS(mp));
1686                 assert(NUMKEYS(mp) > 1);
1687                 DPRINTF("found index 0 to page %lu", NODEPGNO(NODEPTR(mp, 0)));
1688
1689                 if (key == NULL)        /* Initialize cursor to first page. */
1690                         i = 0;
1691                 else if (key->mv_size > MAXKEYSIZE && key->mv_data == NULL) {
1692                                                         /* cursor to last page */
1693                         i = NUMKEYS(mp)-1;
1694                 } else {
1695                         int      exact;
1696                         node = mdb_search_node(txn, dbi, mp, key, &exact, &i);
1697                         if (node == NULL)
1698                                 i = NUMKEYS(mp) - 1;
1699                         else if (!exact) {
1700                                 assert(i > 0);
1701                                 i--;
1702                         }
1703                 }
1704
1705                 if (key)
1706                         DPRINTF("following index %u for key [%s]",
1707                             i, DKEY(key));
1708                 assert(i < NUMKEYS(mp));
1709                 node = NODEPTR(mp, i);
1710
1711                 if (cursor)
1712                         CURSOR_TOP(cursor)->mp_ki = i;
1713
1714                 mpp->mp_parent = mp;
1715                 if ((mp = mdb_get_page(txn, NODEPGNO(node))) == NULL)
1716                         return MDB_PAGE_NOTFOUND;
1717                 mpp->mp_pi = i;
1718                 mpp->mp_page = mp;
1719
1720                 if (cursor && cursor_push_page(cursor, mp) == NULL)
1721                         return ENOMEM;
1722
1723                 if (modify) {
1724                         MDB_dhead *dh = ((MDB_dhead *)mp)-1;
1725                         if ((rc = mdb_touch(txn, mpp)) != 0)
1726                                 return rc;
1727                         dh = ((MDB_dhead *)mpp->mp_page)-1;
1728                         dh->md_parent = mpp->mp_parent;
1729                         dh->md_pi = mpp->mp_pi;
1730                 }
1731
1732                 mp = mpp->mp_page;
1733         }
1734
1735         if (!IS_LEAF(mp)) {
1736                 DPRINTF("internal error, index points to a %02X page!?",
1737                     mp->mp_flags);
1738                 return MDB_CORRUPTED;
1739         }
1740
1741         DPRINTF("found leaf page %lu for key [%s]", mp->mp_pgno,
1742             key ? DKEY(key) : NULL);
1743
1744         return MDB_SUCCESS;
1745 }
1746
1747 /* Search for the page a given key should be in.
1748  * Stores a pointer to the found page in *mpp.
1749  * If key is NULL, search for the lowest page (used by mdb_cursor_first).
1750  * If cursor is non-null, pushes parent pages on the cursor stack.
1751  * If modify is true, visited pages are updated with new page numbers.
1752  */
1753 static int
1754 mdb_search_page(MDB_txn *txn, MDB_dbi dbi, MDB_val *key,
1755     MDB_cursor *cursor, int modify, MDB_pageparent *mpp)
1756 {
1757         int              rc;
1758         pgno_t           root;
1759
1760         /* Choose which root page to start with. If a transaction is given
1761          * use the root page from the transaction, otherwise read the last
1762          * committed root page.
1763          */
1764         if (F_ISSET(txn->mt_flags, MDB_TXN_ERROR)) {
1765                 DPUTS("transaction has failed, must abort");
1766                 return EINVAL;
1767         } else
1768                 root = txn->mt_dbs[dbi].md_root;
1769
1770         if (root == P_INVALID) {                /* Tree is empty. */
1771                 DPUTS("tree is empty");
1772                 return MDB_NOTFOUND;
1773         }
1774
1775         if ((mpp->mp_page = mdb_get_page(txn, root)) == NULL)
1776                 return MDB_PAGE_NOTFOUND;
1777
1778         DPRINTF("root page has flags 0x%X", mpp->mp_page->mp_flags);
1779
1780         if (modify) {
1781                 /* For sub-databases, update main root first */
1782                 if (dbi > MAIN_DBI && !txn->mt_dbxs[dbi].md_dirty) {
1783                         MDB_pageparent mp2;
1784                         rc = mdb_search_page(txn, MAIN_DBI, &txn->mt_dbxs[dbi].md_name,
1785                                 NULL, 1, &mp2);
1786                         if (rc)
1787                                 return rc;
1788                         txn->mt_dbxs[dbi].md_dirty = 1;
1789                 }
1790                 if (!F_ISSET(mpp->mp_page->mp_flags, P_DIRTY)) {
1791                         mpp->mp_parent = NULL;
1792                         mpp->mp_pi = 0;
1793                         if ((rc = mdb_touch(txn, mpp)))
1794                                 return rc;
1795                         txn->mt_dbs[dbi].md_root = mpp->mp_page->mp_pgno;
1796                 }
1797         }
1798
1799         return mdb_search_page_root(txn, dbi, key, cursor, modify, mpp);
1800 }
1801
1802 static int
1803 mdb_read_data(MDB_txn *txn, MDB_node *leaf, MDB_val *data)
1804 {
1805         MDB_page        *omp;           /* overflow mpage */
1806         pgno_t           pgno;
1807
1808         if (!F_ISSET(leaf->mn_flags, F_BIGDATA)) {
1809                 data->mv_size = leaf->mn_dsize;
1810                 data->mv_data = NODEDATA(leaf);
1811                 return MDB_SUCCESS;
1812         }
1813
1814         /* Read overflow data.
1815          */
1816         data->mv_size = leaf->mn_dsize;
1817         memcpy(&pgno, NODEDATA(leaf), sizeof(pgno));
1818         if ((omp = mdb_get_page(txn, pgno)) == NULL) {
1819                 DPRINTF("read overflow page %lu failed", pgno);
1820                 return MDB_PAGE_NOTFOUND;
1821         }
1822         data->mv_data = METADATA(omp);
1823
1824         return MDB_SUCCESS;
1825 }
1826
1827 int
1828 mdb_get(MDB_txn *txn, MDB_dbi dbi,
1829     MDB_val *key, MDB_val *data)
1830 {
1831         int              rc, exact;
1832         MDB_node        *leaf;
1833         MDB_pageparent mpp;
1834         DKBUF;
1835
1836         assert(key);
1837         assert(data);
1838         DPRINTF("===> get db %u key [%s]", dbi, DKEY(key));
1839
1840         if (txn == NULL || !dbi || dbi >= txn->mt_numdbs)
1841                 return EINVAL;
1842
1843         if (key->mv_size == 0 || key->mv_size > MAXKEYSIZE) {
1844                 return EINVAL;
1845         }
1846
1847         if ((rc = mdb_search_page(txn, dbi, key, NULL, 0, &mpp)) != MDB_SUCCESS)
1848                 return rc;
1849
1850         leaf = mdb_search_node(txn, dbi, mpp.mp_page, key, &exact, NULL);
1851         if (leaf && exact) {
1852                 /* Return first duplicate data item */
1853                 if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
1854                         MDB_xcursor mx;
1855
1856                         mdb_xcursor_init0(txn, dbi, &mx);
1857                         mdb_xcursor_init1(txn, dbi, &mx, leaf);
1858                         rc = mdb_search_page(&mx.mx_txn, mx.mx_cursor.mc_dbi, NULL, NULL, 0, &mpp);
1859                         if (rc != MDB_SUCCESS)
1860                                 return rc;
1861                         if (IS_LEAF2(mpp.mp_page)) {
1862                                 data->mv_size = txn->mt_dbs[dbi].md_pad;
1863                                 data->mv_data = LEAF2KEY(mpp.mp_page, 0, data->mv_size);
1864                         } else {
1865                                 leaf = NODEPTR(mpp.mp_page, 0);
1866                                 data->mv_size = NODEKSZ(leaf);
1867                                 data->mv_data = NODEKEY(leaf);
1868                         }
1869                 } else {
1870                         rc = mdb_read_data(txn, leaf, data);
1871                 }
1872         } else {
1873                 rc = MDB_NOTFOUND;
1874         }
1875
1876         return rc;
1877 }
1878
1879 static int
1880 mdb_sibling(MDB_cursor *cursor, int move_right)
1881 {
1882         int              rc;
1883         MDB_node        *indx;
1884         MDB_ppage       *parent;
1885         MDB_page        *mp;
1886
1887         if (cursor->mc_snum < 2) {
1888                 return MDB_NOTFOUND;            /* root has no siblings */
1889         }
1890         parent = CURSOR_PARENT(cursor);
1891
1892         DPRINTF("parent page is page %lu, index %u",
1893             parent->mp_page->mp_pgno, parent->mp_ki);
1894
1895         cursor_pop_page(cursor);
1896         if (move_right ? (parent->mp_ki + 1 >= NUMKEYS(parent->mp_page))
1897                        : (parent->mp_ki == 0)) {
1898                 DPRINTF("no more keys left, moving to %s sibling",
1899                     move_right ? "right" : "left");
1900                 if ((rc = mdb_sibling(cursor, move_right)) != MDB_SUCCESS)
1901                         return rc;
1902                 parent = CURSOR_TOP(cursor);
1903         } else {
1904                 if (move_right)
1905                         parent->mp_ki++;
1906                 else
1907                         parent->mp_ki--;
1908                 DPRINTF("just moving to %s index key %u",
1909                     move_right ? "right" : "left", parent->mp_ki);
1910         }
1911         assert(IS_BRANCH(parent->mp_page));
1912
1913         indx = NODEPTR(parent->mp_page, parent->mp_ki);
1914         if ((mp = mdb_get_page(cursor->mc_txn, NODEPGNO(indx))) == NULL)
1915                 return MDB_PAGE_NOTFOUND;
1916 #if 0
1917         mp->parent = parent->mp_page;
1918         mp->parent_index = parent->mp_ki;
1919 #endif
1920
1921         cursor_push_page(cursor, mp);
1922
1923         return MDB_SUCCESS;
1924 }
1925
1926 static int
1927 mdb_cursor_next(MDB_cursor *cursor, MDB_val *key, MDB_val *data, MDB_cursor_op op)
1928 {
1929         MDB_ppage       *top;
1930         MDB_page        *mp;
1931         MDB_node        *leaf;
1932         int rc;
1933
1934         if (cursor->mc_eof) {
1935                 return MDB_NOTFOUND;
1936         }
1937
1938         assert(cursor->mc_initialized);
1939
1940         top = CURSOR_TOP(cursor);
1941         mp = top->mp_page;
1942
1943         if (cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_flags & MDB_DUPSORT) {
1944                 leaf = NODEPTR(mp, top->mp_ki);
1945                 if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
1946                         if (op == MDB_NEXT || op == MDB_NEXT_DUP) {
1947                                 rc = mdb_cursor_next(&cursor->mc_xcursor->mx_cursor, data, NULL, MDB_NEXT);
1948                                 if (op != MDB_NEXT || rc == MDB_SUCCESS)
1949                                         return rc;
1950                         }
1951                 } else {
1952                         cursor->mc_xcursor->mx_cursor.mc_initialized = 0;
1953                         if (op == MDB_NEXT_DUP)
1954                                 return MDB_NOTFOUND;
1955                 }
1956         }
1957
1958         DPRINTF("cursor_next: top page is %lu in cursor %p", mp->mp_pgno, (void *) cursor);
1959
1960         if (top->mp_ki + 1 >= NUMKEYS(mp)) {
1961                 DPUTS("=====> move to next sibling page");
1962                 if (mdb_sibling(cursor, 1) != MDB_SUCCESS) {
1963                         cursor->mc_eof = 1;
1964                         return MDB_NOTFOUND;
1965                 }
1966                 top = CURSOR_TOP(cursor);
1967                 mp = top->mp_page;
1968                 DPRINTF("next page is %lu, key index %u", mp->mp_pgno, top->mp_ki);
1969         } else
1970                 top->mp_ki++;
1971
1972         DPRINTF("==> cursor points to page %lu with %u keys, key index %u",
1973             mp->mp_pgno, NUMKEYS(mp), top->mp_ki);
1974
1975         if (IS_LEAF2(mp)) {
1976                 key->mv_size = cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_pad;
1977                 key->mv_data = LEAF2KEY(mp, top->mp_ki, key->mv_size);
1978                 return MDB_SUCCESS;
1979         }
1980
1981         assert(IS_LEAF(mp));
1982         leaf = NODEPTR(mp, top->mp_ki);
1983
1984         if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
1985                 mdb_xcursor_init1(cursor->mc_txn, cursor->mc_dbi, cursor->mc_xcursor, leaf);
1986         }
1987         if (data) {
1988                 if ((rc = mdb_read_data(cursor->mc_txn, leaf, data) != MDB_SUCCESS))
1989                         return rc;
1990
1991                 if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
1992                         rc = mdb_cursor_first(&cursor->mc_xcursor->mx_cursor, data, NULL);
1993                         if (rc != MDB_SUCCESS)
1994                                 return rc;
1995                 }
1996         }
1997
1998         MDB_SET_KEY(leaf, key);
1999         return MDB_SUCCESS;
2000 }
2001
2002 static int
2003 mdb_cursor_prev(MDB_cursor *cursor, MDB_val *key, MDB_val *data, MDB_cursor_op op)
2004 {
2005         MDB_ppage       *top;
2006         MDB_page        *mp;
2007         MDB_node        *leaf;
2008         int rc;
2009
2010         assert(cursor->mc_initialized);
2011
2012         top = CURSOR_TOP(cursor);
2013         mp = top->mp_page;
2014
2015         if (cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_flags & MDB_DUPSORT) {
2016                 leaf = NODEPTR(mp, top->mp_ki);
2017                 if (op == MDB_PREV || op == MDB_PREV_DUP) {
2018                         if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2019                                 rc = mdb_cursor_prev(&cursor->mc_xcursor->mx_cursor, data, NULL, MDB_PREV);
2020                                 if (op != MDB_PREV || rc == MDB_SUCCESS)
2021                                         return rc;
2022                         } else {
2023                                 cursor->mc_xcursor->mx_cursor.mc_initialized = 0;
2024                                 if (op == MDB_PREV_DUP)
2025                                         return MDB_NOTFOUND;
2026                         }
2027                 }
2028         }
2029
2030         DPRINTF("cursor_prev: top page is %lu in cursor %p", mp->mp_pgno, (void *) cursor);
2031
2032         if (top->mp_ki == 0)  {
2033                 DPUTS("=====> move to prev sibling page");
2034                 if (mdb_sibling(cursor, 0) != MDB_SUCCESS) {
2035                         cursor->mc_initialized = 0;
2036                         return MDB_NOTFOUND;
2037                 }
2038                 top = CURSOR_TOP(cursor);
2039                 mp = top->mp_page;
2040                 top->mp_ki = NUMKEYS(mp) - 1;
2041                 DPRINTF("prev page is %lu, key index %u", mp->mp_pgno, top->mp_ki);
2042         } else
2043                 top->mp_ki--;
2044
2045         cursor->mc_eof = 0;
2046
2047         DPRINTF("==> cursor points to page %lu with %u keys, key index %u",
2048             mp->mp_pgno, NUMKEYS(mp), top->mp_ki);
2049
2050         if (IS_LEAF2(mp)) {
2051                 key->mv_size = cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_pad;
2052                 key->mv_data = LEAF2KEY(mp, top->mp_ki, key->mv_size);
2053                 return MDB_SUCCESS;
2054         }
2055
2056         assert(IS_LEAF(mp));
2057         leaf = NODEPTR(mp, top->mp_ki);
2058
2059         if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2060                 mdb_xcursor_init1(cursor->mc_txn, cursor->mc_dbi, cursor->mc_xcursor, leaf);
2061         }
2062         if (data) {
2063                 if ((rc = mdb_read_data(cursor->mc_txn, leaf, data) != MDB_SUCCESS))
2064                         return rc;
2065
2066                 if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2067                         rc = mdb_cursor_last(&cursor->mc_xcursor->mx_cursor, data, NULL);
2068                         if (rc != MDB_SUCCESS)
2069                                 return rc;
2070                 }
2071         }
2072
2073         MDB_SET_KEY(leaf, key);
2074         return MDB_SUCCESS;
2075 }
2076
2077 static int
2078 mdb_cursor_set(MDB_cursor *cursor, MDB_val *key, MDB_val *data,
2079     MDB_cursor_op op, int *exactp)
2080 {
2081         int              rc;
2082         MDB_node        *leaf;
2083         MDB_ppage       *top;
2084         MDB_pageparent mpp;
2085         DKBUF;
2086
2087         assert(cursor);
2088         assert(key);
2089         assert(key->mv_size > 0);
2090
2091         /* See if we're already on the right page */
2092         if (cursor->mc_initialized) {
2093                 MDB_val nodekey;
2094                 top = CURSOR_TOP(cursor);
2095                 /* Don't try this for LEAF2 pages. Maybe support that later. */
2096                 if ((top->mp_page->mp_flags & (P_LEAF|P_LEAF2)) == P_LEAF) {
2097                         leaf = NODEPTR(top->mp_page, 0);
2098                         MDB_SET_KEY(leaf, &nodekey);
2099                         rc = mdb_cmp(cursor->mc_txn, cursor->mc_dbi, key, &nodekey);
2100                         if (rc >= 0) {
2101                                 leaf = NODEPTR(top->mp_page, NUMKEYS(top->mp_page)-1);
2102                                 MDB_SET_KEY(leaf, &nodekey);
2103                                 rc = mdb_cmp(cursor->mc_txn, cursor->mc_dbi, key, &nodekey);
2104                                 if (rc <= 0) {
2105                                         /* we're already on the right page */
2106                                         mpp.mp_page = top->mp_page;
2107                                         rc = 0;
2108                                         goto set2;
2109                                 }
2110                         }
2111                 }
2112         }
2113         cursor->mc_snum = 0;
2114
2115         rc = mdb_search_page(cursor->mc_txn, cursor->mc_dbi, key, cursor, 0, &mpp);
2116         if (rc != MDB_SUCCESS)
2117                 return rc;
2118
2119         assert(IS_LEAF(mpp.mp_page));
2120
2121         top = CURSOR_TOP(cursor);
2122 set2:
2123         leaf = mdb_search_node(cursor->mc_txn, cursor->mc_dbi, mpp.mp_page, key, exactp, &top->mp_ki);
2124         if (exactp != NULL && !*exactp) {
2125                 /* MDB_SET specified and not an exact match. */
2126                 return MDB_NOTFOUND;
2127         }
2128
2129         if (leaf == NULL) {
2130                 DPUTS("===> inexact leaf not found, goto sibling");
2131                 if ((rc = mdb_sibling(cursor, 1)) != MDB_SUCCESS)
2132                         return rc;              /* no entries matched */
2133                 top = CURSOR_TOP(cursor);
2134                 top->mp_ki = 0;
2135                 mpp.mp_page = top->mp_page;
2136                 assert(IS_LEAF(mpp.mp_page));
2137                 leaf = NODEPTR(mpp.mp_page, 0);
2138         }
2139
2140         cursor->mc_initialized = 1;
2141         cursor->mc_eof = 0;
2142
2143         if (IS_LEAF2(mpp.mp_page)) {
2144                 key->mv_size = cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_pad;
2145                 key->mv_data = LEAF2KEY(mpp.mp_page, top->mp_ki, key->mv_size);
2146                 return MDB_SUCCESS;
2147         }
2148
2149         if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2150                 mdb_xcursor_init1(cursor->mc_txn, cursor->mc_dbi, cursor->mc_xcursor, leaf);
2151         }
2152         if (data) {
2153                 if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2154                         if (op == MDB_SET || op == MDB_SET_RANGE) {
2155                                 rc = mdb_cursor_first(&cursor->mc_xcursor->mx_cursor, data, NULL);
2156                         } else {
2157                                 int ex2, *ex2p;
2158                                 if (op == MDB_GET_BOTH) {
2159                                         ex2p = &ex2;
2160                                 } else {
2161                                         ex2p = NULL;
2162                                 }
2163                                 rc = mdb_cursor_set(&cursor->mc_xcursor->mx_cursor, data, NULL, MDB_SET_RANGE, ex2p);
2164                                 if (rc != MDB_SUCCESS)
2165                                         return rc;
2166                         }
2167                 } else if (op == MDB_GET_BOTH || op == MDB_GET_BOTH_RANGE) {
2168                         MDB_val d2;
2169                         if ((rc = mdb_read_data(cursor->mc_txn, leaf, &d2)) != MDB_SUCCESS)
2170                                 return rc;
2171                         rc = mdb_dcmp(cursor->mc_txn, cursor->mc_dbi, data, &d2);
2172                         if (rc) {
2173                                 if (op == MDB_GET_BOTH || rc > 0)
2174                                         return MDB_NOTFOUND;
2175                         }
2176
2177                 } else {
2178                         if ((rc = mdb_read_data(cursor->mc_txn, leaf, data)) != MDB_SUCCESS)
2179                                 return rc;
2180                 }
2181         }
2182
2183         /* The key already matches in all other cases */
2184         if (op == MDB_SET_RANGE)
2185                 MDB_SET_KEY(leaf, key);
2186         DPRINTF("==> cursor placed on key [%s]", DKEY(key));
2187
2188         return rc;
2189 }
2190
2191 static int
2192 mdb_cursor_first(MDB_cursor *cursor, MDB_val *key, MDB_val *data)
2193 {
2194         int              rc;
2195         MDB_pageparent  mpp;
2196         MDB_node        *leaf;
2197
2198         cursor->mc_snum = 0;
2199
2200         rc = mdb_search_page(cursor->mc_txn, cursor->mc_dbi, NULL, cursor, 0, &mpp);
2201         if (rc != MDB_SUCCESS)
2202                 return rc;
2203         assert(IS_LEAF(mpp.mp_page));
2204
2205         leaf = NODEPTR(mpp.mp_page, 0);
2206         cursor->mc_initialized = 1;
2207         cursor->mc_eof = 0;
2208
2209         if (IS_LEAF2(mpp.mp_page)) {
2210                 key->mv_size = cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_pad;
2211                 key->mv_data = LEAF2KEY(mpp.mp_page, 0, key->mv_size);
2212                 return MDB_SUCCESS;
2213         }
2214
2215         if (data) {
2216                 if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2217                         mdb_xcursor_init1(cursor->mc_txn, cursor->mc_dbi, cursor->mc_xcursor, leaf);
2218                         rc = mdb_cursor_first(&cursor->mc_xcursor->mx_cursor, data, NULL);
2219                         if (rc)
2220                                 return rc;
2221                 } else {
2222                         if (cursor->mc_xcursor)
2223                                 cursor->mc_xcursor->mx_cursor.mc_initialized = 0;
2224                         if ((rc = mdb_read_data(cursor->mc_txn, leaf, data)) != MDB_SUCCESS)
2225                                 return rc;
2226                 }
2227         }
2228         MDB_SET_KEY(leaf, key);
2229         return MDB_SUCCESS;
2230 }
2231
2232 static int
2233 mdb_cursor_last(MDB_cursor *cursor, MDB_val *key, MDB_val *data)
2234 {
2235         int              rc;
2236         MDB_ppage       *top;
2237         MDB_pageparent  mpp;
2238         MDB_node        *leaf;
2239         MDB_val lkey;
2240
2241         cursor->mc_snum = 0;
2242
2243         lkey.mv_size = MAXKEYSIZE+1;
2244         lkey.mv_data = NULL;
2245
2246         rc = mdb_search_page(cursor->mc_txn, cursor->mc_dbi, &lkey, cursor, 0, &mpp);
2247         if (rc != MDB_SUCCESS)
2248                 return rc;
2249         assert(IS_LEAF(mpp.mp_page));
2250
2251         leaf = NODEPTR(mpp.mp_page, NUMKEYS(mpp.mp_page)-1);
2252         cursor->mc_initialized = 1;
2253         cursor->mc_eof = 0;
2254
2255         top = CURSOR_TOP(cursor);
2256         top->mp_ki = NUMKEYS(top->mp_page) - 1;
2257
2258         if (IS_LEAF2(mpp.mp_page)) {
2259                 key->mv_size = cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_pad;
2260                 key->mv_data = LEAF2KEY(mpp.mp_page, top->mp_ki, key->mv_size);
2261                 return MDB_SUCCESS;
2262         }
2263
2264         if (data) {
2265                 if (F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2266                         mdb_xcursor_init1(cursor->mc_txn, cursor->mc_dbi, cursor->mc_xcursor, leaf);
2267                         rc = mdb_cursor_last(&cursor->mc_xcursor->mx_cursor, data, NULL);
2268                         if (rc)
2269                                 return rc;
2270                 } else {
2271                         if ((rc = mdb_read_data(cursor->mc_txn, leaf, data)) != MDB_SUCCESS)
2272                                 return rc;
2273                 }
2274         }
2275
2276         MDB_SET_KEY(leaf, key);
2277         return MDB_SUCCESS;
2278 }
2279
2280 int
2281 mdb_cursor_get(MDB_cursor *cursor, MDB_val *key, MDB_val *data,
2282     MDB_cursor_op op)
2283 {
2284         int              rc;
2285         int              exact = 0;
2286
2287         assert(cursor);
2288
2289         switch (op) {
2290         case MDB_GET_BOTH:
2291         case MDB_GET_BOTH_RANGE:
2292                 if (data == NULL || cursor->mc_xcursor == NULL) {
2293                         rc = EINVAL;
2294                         break;
2295                 }
2296                 /* FALLTHRU */
2297         case MDB_SET:
2298         case MDB_SET_RANGE:
2299                 if (key == NULL || key->mv_size == 0 || key->mv_size > MAXKEYSIZE) {
2300                         rc = EINVAL;
2301                 } else if (op == MDB_SET_RANGE)
2302                         rc = mdb_cursor_set(cursor, key, data, op, NULL);
2303                 else
2304                         rc = mdb_cursor_set(cursor, key, data, op, &exact);
2305                 break;
2306         case MDB_GET_MULTIPLE:
2307                 if (data == NULL ||
2308                         !(cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_flags & MDB_DUPFIXED) ||
2309                         !cursor->mc_initialized) {
2310                         rc = EINVAL;
2311                         break;
2312                 }
2313                 rc = MDB_SUCCESS;
2314                 if (!cursor->mc_xcursor->mx_cursor.mc_initialized || cursor->mc_xcursor->mx_cursor.mc_eof)
2315                         break;
2316                 goto fetchm;
2317         case MDB_NEXT_MULTIPLE:
2318                 if (data == NULL ||
2319                         !(cursor->mc_txn->mt_dbs[cursor->mc_dbi].md_flags & MDB_DUPFIXED)) {
2320                         rc = EINVAL;
2321                         break;
2322                 }
2323                 if (!cursor->mc_initialized)
2324                         rc = mdb_cursor_first(cursor, key, data);
2325                 else
2326                         rc = mdb_cursor_next(cursor, key, data, MDB_NEXT_DUP);
2327                 if (rc == MDB_SUCCESS) {
2328                         if (cursor->mc_xcursor->mx_cursor.mc_initialized) {
2329                                 MDB_ppage       *top;
2330 fetchm:
2331                                 top = CURSOR_TOP(&cursor->mc_xcursor->mx_cursor);
2332                                 data->mv_size = NUMKEYS(top->mp_page) *
2333                                         cursor->mc_xcursor->mx_txn.mt_dbs[cursor->mc_xcursor->mx_cursor.mc_dbi].md_pad;
2334                                 data->mv_data = METADATA(top->mp_page);
2335                                 top->mp_ki = NUMKEYS(top->mp_page)-1;
2336                         } else {
2337                                 rc = MDB_NOTFOUND;
2338                         }
2339                 }
2340                 break;
2341         case MDB_NEXT:
2342         case MDB_NEXT_DUP:
2343         case MDB_NEXT_NODUP:
2344                 if (!cursor->mc_initialized)
2345                         rc = mdb_cursor_first(cursor, key, data);
2346                 else
2347                         rc = mdb_cursor_next(cursor, key, data, op);
2348                 break;
2349         case MDB_PREV:
2350         case MDB_PREV_DUP:
2351         case MDB_PREV_NODUP:
2352                 if (!cursor->mc_initialized || cursor->mc_eof)
2353                         rc = mdb_cursor_last(cursor, key, data);
2354                 else
2355                         rc = mdb_cursor_prev(cursor, key, data, op);
2356                 break;
2357         case MDB_FIRST:
2358                 rc = mdb_cursor_first(cursor, key, data);
2359                 break;
2360         case MDB_LAST:
2361                 rc = mdb_cursor_last(cursor, key, data);
2362                 break;
2363         default:
2364                 DPRINTF("unhandled/unimplemented cursor operation %u", op);
2365                 rc = EINVAL;
2366                 break;
2367         }
2368
2369         return rc;
2370 }
2371
2372 /* Allocate a page and initialize it
2373  */
2374 static MDB_dpage *
2375 mdb_new_page(MDB_txn *txn, MDB_dbi dbi, uint32_t flags, int num)
2376 {
2377         MDB_dpage       *dp;
2378
2379         if ((dp = mdb_alloc_page(txn, NULL, 0, num)) == NULL)
2380                 return NULL;
2381         DPRINTF("allocated new mpage %lu, page size %u",
2382             dp->p.mp_pgno, txn->mt_env->me_psize);
2383         dp->p.mp_flags = flags | P_DIRTY;
2384         dp->p.mp_lower = PAGEHDRSZ;
2385         dp->p.mp_upper = txn->mt_env->me_psize;
2386
2387         if (IS_BRANCH(&dp->p))
2388                 txn->mt_dbs[dbi].md_branch_pages++;
2389         else if (IS_LEAF(&dp->p))
2390                 txn->mt_dbs[dbi].md_leaf_pages++;
2391         else if (IS_OVERFLOW(&dp->p)) {
2392                 txn->mt_dbs[dbi].md_overflow_pages += num;
2393                 dp->p.mp_pages = num;
2394         }
2395
2396         return dp;
2397 }
2398
2399 static size_t
2400 mdb_leaf_size(MDB_env *env, MDB_val *key, MDB_val *data)
2401 {
2402         size_t           sz;
2403
2404         sz = LEAFSIZE(key, data);
2405         if (data->mv_size >= env->me_psize / MDB_MINKEYS) {
2406                 /* put on overflow page */
2407                 sz -= data->mv_size - sizeof(pgno_t);
2408         }
2409
2410         return sz + sizeof(indx_t);
2411 }
2412
2413 static size_t
2414 mdb_branch_size(MDB_env *env, MDB_val *key)
2415 {
2416         size_t           sz;
2417
2418         sz = INDXSIZE(key);
2419         if (sz >= env->me_psize / MDB_MINKEYS) {
2420                 /* put on overflow page */
2421                 /* not implemented */
2422                 /* sz -= key->size - sizeof(pgno_t); */
2423         }
2424
2425         return sz + sizeof(indx_t);
2426 }
2427
2428 static int
2429 mdb_add_node(MDB_txn *txn, MDB_dbi dbi, MDB_page *mp, indx_t indx,
2430     MDB_val *key, MDB_val *data, pgno_t pgno, uint8_t flags)
2431 {
2432         unsigned int     i;
2433         size_t           node_size = NODESIZE;
2434         indx_t           ofs;
2435         MDB_node        *node;
2436         MDB_dpage       *ofp = NULL;            /* overflow page */
2437         DKBUF;
2438
2439         assert(mp->mp_upper >= mp->mp_lower);
2440
2441         DPRINTF("add node [%s] to %s page %lu at index %i, key size %zu",
2442             key ? DKEY(key) : NULL,
2443             IS_LEAF(mp) ? "leaf" : "branch",
2444             mp->mp_pgno, indx, key ? key->mv_size : 0);
2445
2446         if (IS_LEAF2(mp)) {
2447                 /* Move higher keys up one slot. */
2448                 int ksize = txn->mt_dbs[dbi].md_pad, dif;
2449                 char *ptr = LEAF2KEY(mp, indx, ksize);
2450                 dif = NUMKEYS(mp) - indx;
2451                 if (dif > 0)
2452                         memmove(ptr+ksize, ptr, dif*ksize);
2453                 /* insert new key */
2454                 memcpy(ptr, key->mv_data, ksize);
2455
2456                 /* Just using these for counting */
2457                 mp->mp_lower += sizeof(indx_t);
2458                 mp->mp_upper -= ksize - sizeof(indx_t);
2459                 return MDB_SUCCESS;
2460         }
2461
2462         if (key != NULL)
2463                 node_size += key->mv_size;
2464
2465         if (IS_LEAF(mp)) {
2466                 assert(data);
2467                 if (F_ISSET(flags, F_BIGDATA)) {
2468                         /* Data already on overflow page. */
2469                         node_size += sizeof(pgno_t);
2470                 } else if (data->mv_size >= txn->mt_env->me_psize / MDB_MINKEYS) {
2471                         int ovpages = OVPAGES(data->mv_size, txn->mt_env->me_psize);
2472                         /* Put data on overflow page. */
2473                         DPRINTF("data size is %zu, put on overflow page",
2474                             data->mv_size);
2475                         node_size += sizeof(pgno_t);
2476                         if ((ofp = mdb_new_page(txn, dbi, P_OVERFLOW, ovpages)) == NULL)
2477                                 return ENOMEM;
2478                         DPRINTF("allocated overflow page %lu", ofp->p.mp_pgno);
2479                         flags |= F_BIGDATA;
2480                 } else {
2481                         node_size += data->mv_size;
2482                 }
2483         }
2484
2485         if (node_size + sizeof(indx_t) > SIZELEFT(mp)) {
2486                 DPRINTF("not enough room in page %lu, got %u ptrs",
2487                     mp->mp_pgno, NUMKEYS(mp));
2488                 DPRINTF("upper - lower = %u - %u = %u", mp->mp_upper, mp->mp_lower,
2489                     mp->mp_upper - mp->mp_lower);
2490                 DPRINTF("node size = %zu", node_size);
2491                 return ENOSPC;
2492         }
2493
2494         /* Move higher pointers up one slot. */
2495         for (i = NUMKEYS(mp); i > indx; i--)
2496                 mp->mp_ptrs[i] = mp->mp_ptrs[i - 1];
2497
2498         /* Adjust free space offsets. */
2499         ofs = mp->mp_upper - node_size;
2500         assert(ofs >= mp->mp_lower + sizeof(indx_t));
2501         mp->mp_ptrs[indx] = ofs;
2502         mp->mp_upper = ofs;
2503         mp->mp_lower += sizeof(indx_t);
2504
2505         /* Write the node data. */
2506         node = NODEPTR(mp, indx);
2507         node->mn_ksize = (key == NULL) ? 0 : key->mv_size;
2508         node->mn_flags = flags;
2509         if (IS_LEAF(mp))
2510                 node->mn_dsize = data->mv_size;
2511         else
2512                 NODEPGNO(node) = pgno;
2513
2514         if (key)
2515                 memcpy(NODEKEY(node), key->mv_data, key->mv_size);
2516
2517         if (IS_LEAF(mp)) {
2518                 assert(key);
2519                 if (ofp == NULL) {
2520                         if (F_ISSET(flags, F_BIGDATA))
2521                                 memcpy(node->mn_data + key->mv_size, data->mv_data,
2522                                     sizeof(pgno_t));
2523                         else
2524                                 memcpy(node->mn_data + key->mv_size, data->mv_data,
2525                                     data->mv_size);
2526                 } else {
2527                         memcpy(node->mn_data + key->mv_size, &ofp->p.mp_pgno,
2528                             sizeof(pgno_t));
2529                         memcpy(METADATA(&ofp->p), data->mv_data, data->mv_size);
2530                 }
2531         }
2532
2533         return MDB_SUCCESS;
2534 }
2535
2536 static void
2537 mdb_del_node(MDB_page *mp, indx_t indx, int ksize)
2538 {
2539         unsigned int     sz;
2540         indx_t           i, j, numkeys, ptr;
2541         MDB_node        *node;
2542         char            *base;
2543
2544         DPRINTF("delete node %u on %s page %lu", indx,
2545             IS_LEAF(mp) ? "leaf" : "branch", mp->mp_pgno);
2546         assert(indx < NUMKEYS(mp));
2547
2548         if (IS_LEAF2(mp)) {
2549                 int x = NUMKEYS(mp) - 1 - indx;
2550                 base = LEAF2KEY(mp, indx, ksize);
2551                 if (x)
2552                         memmove(base, base + ksize, x * ksize);
2553                 mp->mp_lower -= sizeof(indx_t);
2554                 mp->mp_upper += ksize - sizeof(indx_t);
2555                 return;
2556         }
2557
2558         node = NODEPTR(mp, indx);
2559         sz = NODESIZE + node->mn_ksize;
2560         if (IS_LEAF(mp)) {
2561                 if (F_ISSET(node->mn_flags, F_BIGDATA))
2562                         sz += sizeof(pgno_t);
2563                 else
2564                         sz += NODEDSZ(node);
2565         }
2566
2567         ptr = mp->mp_ptrs[indx];
2568         numkeys = NUMKEYS(mp);
2569         for (i = j = 0; i < numkeys; i++) {
2570                 if (i != indx) {
2571                         mp->mp_ptrs[j] = mp->mp_ptrs[i];
2572                         if (mp->mp_ptrs[i] < ptr)
2573                                 mp->mp_ptrs[j] += sz;
2574                         j++;
2575                 }
2576         }
2577
2578         base = (char *)mp + mp->mp_upper;
2579         memmove(base + sz, base, ptr - mp->mp_upper);
2580
2581         mp->mp_lower -= sizeof(indx_t);
2582         mp->mp_upper += sz;
2583 }
2584
2585 static void
2586 mdb_xcursor_init0(MDB_txn *txn, MDB_dbi dbi, MDB_xcursor *mx)
2587 {
2588         MDB_dbi dbn;
2589
2590         mx->mx_txn = *txn;
2591         mx->mx_txn.mt_dbxs = mx->mx_dbxs;
2592         mx->mx_txn.mt_dbs = mx->mx_dbs;
2593         mx->mx_dbxs[0] = txn->mt_dbxs[0];
2594         mx->mx_dbxs[1] = txn->mt_dbxs[1];
2595         if (dbi > 1) {
2596                 mx->mx_dbxs[2] = txn->mt_dbxs[dbi];
2597                 dbn = 2;
2598         } else {
2599                 dbn = 1;
2600         }
2601         mx->mx_dbxs[dbn+1].md_parent = dbn;
2602         mx->mx_dbxs[dbn+1].md_cmp = mx->mx_dbxs[dbn].md_dcmp;
2603         mx->mx_dbxs[dbn+1].md_rel = mx->mx_dbxs[dbn].md_rel;
2604         mx->mx_dbxs[dbn+1].md_dirty = 0;
2605         mx->mx_txn.mt_numdbs = dbn+2;
2606
2607         mx->mx_cursor.mc_snum = 0;
2608         mx->mx_cursor.mc_txn = &mx->mx_txn;
2609         mx->mx_cursor.mc_dbi = dbn+1;
2610 }
2611
2612 static void
2613 mdb_xcursor_init1(MDB_txn *txn, MDB_dbi dbi, MDB_xcursor *mx, MDB_node *node)
2614 {
2615         MDB_db *db = NODEDATA(node);
2616         MDB_dbi dbn;
2617         mx->mx_dbs[0] = txn->mt_dbs[0];
2618         mx->mx_dbs[1] = txn->mt_dbs[1];
2619         if (dbi > 1) {
2620                 mx->mx_dbs[2] = txn->mt_dbs[dbi];
2621                 dbn = 3;
2622         } else {
2623                 dbn = 2;
2624         }
2625         mx->mx_dbs[dbn] = *db;
2626         mx->mx_dbxs[dbn].md_name.mv_data = NODEKEY(node);
2627         mx->mx_dbxs[dbn].md_name.mv_size = node->mn_ksize;
2628         mx->mx_txn.mt_next_pgno = txn->mt_next_pgno;
2629         mx->mx_txn.mt_oldest = txn->mt_oldest;
2630         mx->mx_txn.mt_u = txn->mt_u;
2631         mx->mx_cursor.mc_initialized = 0;
2632         mx->mx_cursor.mc_eof = 0;
2633 }
2634
2635 static void
2636 mdb_xcursor_fini(MDB_txn *txn, MDB_dbi dbi, MDB_xcursor *mx)
2637 {
2638         txn->mt_next_pgno = mx->mx_txn.mt_next_pgno;
2639         txn->mt_oldest = mx->mx_txn.mt_oldest;
2640         txn->mt_u = mx->mx_txn.mt_u;
2641         txn->mt_dbs[0] = mx->mx_dbs[0];
2642         txn->mt_dbs[1] = mx->mx_dbs[1];
2643         txn->mt_dbxs[0].md_dirty = mx->mx_dbxs[0].md_dirty;
2644         txn->mt_dbxs[1].md_dirty = mx->mx_dbxs[1].md_dirty;
2645         if (dbi > 1) {
2646                 txn->mt_dbs[dbi] = mx->mx_dbs[2];
2647                 txn->mt_dbxs[dbi].md_dirty = mx->mx_dbxs[2].md_dirty;
2648         }
2649 }
2650
2651 int
2652 mdb_cursor_open(MDB_txn *txn, MDB_dbi dbi, MDB_cursor **ret)
2653 {
2654         MDB_cursor      *cursor;
2655         size_t size = sizeof(MDB_cursor);
2656
2657         if (txn == NULL || ret == NULL || !dbi || dbi >= txn->mt_numdbs)
2658                 return EINVAL;
2659
2660         if (txn->mt_dbs[dbi].md_flags & MDB_DUPSORT)
2661                 size += sizeof(MDB_xcursor);
2662
2663         if ((cursor = calloc(1, size)) != NULL) {
2664                 cursor->mc_dbi = dbi;
2665                 cursor->mc_txn = txn;
2666                 if (txn->mt_dbs[dbi].md_flags & MDB_DUPSORT) {
2667                         MDB_xcursor *mx = (MDB_xcursor *)(cursor + 1);
2668                         cursor->mc_xcursor = mx;
2669                         mdb_xcursor_init0(txn, dbi, mx);
2670                 }
2671         } else {
2672                 return ENOMEM;
2673         }
2674
2675         *ret = cursor;
2676
2677         return MDB_SUCCESS;
2678 }
2679
2680 /* Return the count of duplicate data items for the current key */
2681 int
2682 mdb_cursor_count(MDB_cursor *mc, unsigned long *countp)
2683 {
2684         MDB_ppage       *top;
2685         MDB_node        *leaf;
2686
2687         if (mc == NULL || countp == NULL)
2688                 return EINVAL;
2689
2690         if (!(mc->mc_txn->mt_dbs[mc->mc_dbi].md_flags & MDB_DUPSORT))
2691                 return EINVAL;
2692
2693         top = CURSOR_TOP(mc);
2694         leaf = NODEPTR(top->mp_page, top->mp_ki);
2695         if (!F_ISSET(leaf->mn_flags, F_DUPDATA)) {
2696                 *countp = 1;
2697         } else {
2698                 if (!mc->mc_xcursor->mx_cursor.mc_initialized)
2699                         return EINVAL;
2700
2701                 *countp = mc->mc_xcursor->mx_txn.mt_dbs[mc->mc_xcursor->mx_cursor.mc_dbi].md_entries;
2702         }
2703         return MDB_SUCCESS;
2704 }
2705
2706 void
2707 mdb_cursor_close(MDB_cursor *cursor)
2708 {
2709         if (cursor != NULL) {
2710                 free(cursor);
2711         }
2712 }
2713
2714 static int
2715 mdb_update_key(MDB_page *mp, indx_t indx, MDB_val *key)
2716 {
2717         indx_t                   ptr, i, numkeys;
2718         int                      delta;
2719         size_t                   len;
2720         MDB_node                *node;
2721         char                    *base;
2722         DKBUF;
2723
2724         node = NODEPTR(mp, indx);
2725         ptr = mp->mp_ptrs[indx];
2726         DPRINTF("update key %u (ofs %u) [%.*s] to [%s] on page %lu",
2727             indx, ptr,
2728             (int)node->mn_ksize, (char *)NODEKEY(node),
2729                 DKEY(key),
2730             mp->mp_pgno);
2731
2732         delta = key->mv_size - node->mn_ksize;
2733         if (delta) {
2734                 if (delta > 0 && SIZELEFT(mp) < delta) {
2735                         DPRINTF("OUCH! Not enough room, delta = %d", delta);
2736                         return ENOSPC;
2737                 }
2738
2739                 numkeys = NUMKEYS(mp);
2740                 for (i = 0; i < numkeys; i++) {
2741                         if (mp->mp_ptrs[i] <= ptr)
2742                                 mp->mp_ptrs[i] -= delta;
2743                 }
2744
2745                 base = (char *)mp + mp->mp_upper;
2746                 len = ptr - mp->mp_upper + NODESIZE;
2747                 memmove(base - delta, base, len);
2748                 mp->mp_upper -= delta;
2749
2750                 node = NODEPTR(mp, indx);
2751                 node->mn_ksize = key->mv_size;
2752         }
2753
2754         memcpy(NODEKEY(node), key->mv_data, key->mv_size);
2755
2756         return MDB_SUCCESS;
2757 }
2758
2759 /* Move a node from src to dst.
2760  */
2761 static int
2762 mdb_move_node(MDB_txn *txn, MDB_dbi dbi, MDB_pageparent *src, indx_t srcindx,
2763     MDB_pageparent *dst, indx_t dstindx)
2764 {
2765         int                      rc;
2766         MDB_node                *srcnode;
2767         MDB_val          key, data;
2768         DKBUF;
2769
2770         /* Mark src and dst as dirty. */
2771         if ((rc = mdb_touch(txn, src)) ||
2772             (rc = mdb_touch(txn, dst)))
2773                 return rc;;
2774
2775         if (IS_LEAF2(src->mp_page)) {
2776                 srcnode = NODEPTR(src->mp_page, 0);     /* fake */
2777                 key.mv_size = txn->mt_dbs[dbi].md_pad;
2778                 key.mv_data = LEAF2KEY(src->mp_page, srcindx, key.mv_size);
2779                 data.mv_size = 0;
2780                 data.mv_data = NULL;
2781         } else {
2782                 srcnode = NODEPTR(src->mp_page, srcindx);
2783                 key.mv_size = NODEKSZ(srcnode);
2784                 key.mv_data = NODEKEY(srcnode);
2785                 data.mv_size = NODEDSZ(srcnode);
2786                 data.mv_data = NODEDATA(srcnode);
2787         }
2788         DPRINTF("moving %s node %u [%s] on page %lu to node %u on page %lu",
2789             IS_LEAF(src->mp_page) ? "leaf" : "branch",
2790             srcindx,
2791                 DKEY(&key),
2792             src->mp_page->mp_pgno,
2793             dstindx, dst->mp_page->mp_pgno);
2794
2795         /* Add the node to the destination page.
2796          */
2797         rc = mdb_add_node(txn, dbi, dst->mp_page, dstindx, &key, &data, NODEPGNO(srcnode),
2798             srcnode->mn_flags);
2799         if (rc != MDB_SUCCESS)
2800                 return rc;
2801
2802         /* Delete the node from the source page.
2803          */
2804         mdb_del_node(src->mp_page, srcindx, key.mv_size);
2805
2806         /* The key value just changed due to del_node, find it again.
2807          */
2808         if (!IS_LEAF2(src->mp_page)) {
2809                 srcnode = NODEPTR(src->mp_page, srcindx);
2810                 key.mv_data = NODEKEY(srcnode);
2811         }
2812
2813         /* Update the parent separators.
2814          */
2815         if (srcindx == 0) {
2816                 if (src->mp_pi != 0) {
2817                         DPRINTF("update separator for source page %lu to [%s]",
2818                                 src->mp_page->mp_pgno, DKEY(&key));
2819                         if ((rc = mdb_update_key(src->mp_parent, src->mp_pi,
2820                                 &key)) != MDB_SUCCESS)
2821                                 return rc;
2822                 }
2823                 if (IS_BRANCH(src->mp_page)) {
2824                         MDB_val  nullkey;
2825                         nullkey.mv_size = 0;
2826                         assert(mdb_update_key(src->mp_page, 0, &nullkey) == MDB_SUCCESS);
2827                 }
2828         }
2829
2830         if (dstindx == 0) {
2831                 if (dst->mp_pi != 0) {
2832                         DPRINTF("update separator for destination page %lu to [%s]",
2833                                 dst->mp_page->mp_pgno, DKEY(&key));
2834                         if ((rc = mdb_update_key(dst->mp_parent, dst->mp_pi,
2835                                 &key)) != MDB_SUCCESS)
2836                                 return rc;
2837                 }
2838                 if (IS_BRANCH(dst->mp_page)) {
2839                         MDB_val  nullkey;
2840                         nullkey.mv_size = 0;
2841                         assert(mdb_update_key(dst->mp_page, 0, &nullkey) == MDB_SUCCESS);
2842                 }
2843         }
2844
2845         return MDB_SUCCESS;
2846 }
2847
2848 static int
2849 mdb_merge(MDB_txn *txn, MDB_dbi dbi, MDB_pageparent *src, MDB_pageparent *dst)
2850 {
2851         int                      rc;
2852         indx_t                   i;
2853         MDB_node                *srcnode;
2854         MDB_val          key, data;
2855         MDB_pageparent  mpp;
2856         MDB_dhead *dh;
2857
2858         DPRINTF("merging page %lu and %lu", src->mp_page->mp_pgno, dst->mp_page->mp_pgno);
2859
2860         assert(txn != NULL);
2861         assert(src->mp_parent); /* can't merge root page */
2862         assert(dst->mp_parent);
2863
2864         /* Mark src and dst as dirty. */
2865         if ((rc = mdb_touch(txn, src)) ||
2866             (rc = mdb_touch(txn, dst)))
2867                 return rc;
2868
2869         /* Move all nodes from src to dst.
2870          */
2871         if (IS_LEAF2(src->mp_page)) {
2872                 key.mv_size = txn->mt_dbs[dbi].md_pad;
2873                 key.mv_data = METADATA(src->mp_page);
2874                 for (i = 0; i < NUMKEYS(src->mp_page); i++) {
2875                         rc = mdb_add_node(txn, dbi, dst->mp_page, NUMKEYS(dst->mp_page), &key,
2876                                 NULL, 0, 0);
2877                         if (rc != MDB_SUCCESS)
2878                                 return rc;
2879                         key.mv_data = (char *)key.mv_data + key.mv_size;
2880                 }
2881         } else {
2882                 for (i = 0; i < NUMKEYS(src->mp_page); i++) {
2883                         srcnode = NODEPTR(src->mp_page, i);
2884
2885                         key.mv_size = srcnode->mn_ksize;
2886                         key.mv_data = NODEKEY(srcnode);
2887                         data.mv_size = NODEDSZ(srcnode);
2888                         data.mv_data = NODEDATA(srcnode);
2889                         rc = mdb_add_node(txn, dbi, dst->mp_page, NUMKEYS(dst->mp_page), &key,
2890                                 &data, NODEPGNO(srcnode), srcnode->mn_flags);
2891                         if (rc != MDB_SUCCESS)
2892                                 return rc;
2893                 }
2894         }
2895
2896         DPRINTF("dst page %lu now has %u keys (%.1f%% filled)",
2897             dst->mp_page->mp_pgno, NUMKEYS(dst->mp_page), (float)PAGEFILL(txn->mt_env, dst->mp_page) / 10);
2898
2899         /* Unlink the src page from parent.
2900          */
2901         mdb_del_node(src->mp_parent, src->mp_pi, 0);
2902         if (src->mp_pi == 0) {
2903                 key.mv_size = 0;
2904                 if ((rc = mdb_update_key(src->mp_parent, 0, &key)) != MDB_SUCCESS)
2905                         return rc;
2906         }
2907
2908         if (IS_LEAF(src->mp_page))
2909                 txn->mt_dbs[dbi].md_leaf_pages--;
2910         else
2911                 txn->mt_dbs[dbi].md_branch_pages--;
2912
2913         mpp.mp_page = src->mp_parent;
2914         dh = (MDB_dhead *)src->mp_parent;
2915         dh--;
2916         mpp.mp_parent = dh->md_parent;
2917         mpp.mp_pi = dh->md_pi;
2918
2919         return mdb_rebalance(txn, dbi, &mpp);
2920 }
2921
2922 #define FILL_THRESHOLD   250
2923
2924 static int
2925 mdb_rebalance(MDB_txn *txn, MDB_dbi dbi, MDB_pageparent *mpp)
2926 {
2927         MDB_node        *node;
2928         MDB_page        *root;
2929         MDB_pageparent npp;
2930         indx_t           si = 0, di = 0;
2931
2932         assert(txn != NULL);
2933         assert(mpp != NULL);
2934
2935         DPRINTF("rebalancing %s page %lu (has %u keys, %.1f%% full)",
2936             IS_LEAF(mpp->mp_page) ? "leaf" : "branch",
2937             mpp->mp_page->mp_pgno, NUMKEYS(mpp->mp_page), (float)PAGEFILL(txn->mt_env, mpp->mp_page) / 10);
2938
2939         if (PAGEFILL(txn->mt_env, mpp->mp_page) >= FILL_THRESHOLD) {
2940                 DPRINTF("no need to rebalance page %lu, above fill threshold",
2941                     mpp->mp_page->mp_pgno);
2942                 return MDB_SUCCESS;
2943         }
2944
2945         if (mpp->mp_parent == NULL) {
2946                 if (NUMKEYS(mpp->mp_page) == 0) {
2947                         DPUTS("tree is completely empty");
2948                         txn->mt_dbs[dbi].md_root = P_INVALID;
2949                         txn->mt_dbs[dbi].md_depth = 0;
2950                         txn->mt_dbs[dbi].md_leaf_pages = 0;
2951                 } else if (IS_BRANCH(mpp->mp_page) && NUMKEYS(mpp->mp_page) == 1) {
2952                         DPUTS("collapsing root page!");
2953                         txn->mt_dbs[dbi].md_root = NODEPGNO(NODEPTR(mpp->mp_page, 0));
2954                         if ((root = mdb_get_page(txn, txn->mt_dbs[dbi].md_root)) == NULL)
2955                                 return MDB_PAGE_NOTFOUND;
2956                         txn->mt_dbs[dbi].md_depth--;
2957                         txn->mt_dbs[dbi].md_branch_pages--;
2958                 } else
2959                         DPUTS("root page doesn't need rebalancing");
2960                 return MDB_SUCCESS;
2961         }
2962
2963         /* The parent (branch page) must have at least 2 pointers,
2964          * otherwise the tree is invalid.
2965          */
2966         assert(NUMKEYS(mpp->mp_parent) > 1);
2967
2968         /* Leaf page fill factor is below the threshold.
2969          * Try to move keys from left or right neighbor, or
2970          * merge with a neighbor page.
2971          */
2972
2973         /* Find neighbors.
2974          */
2975         if (mpp->mp_pi == 0) {
2976                 /* We're the leftmost leaf in our parent.
2977                  */
2978                 DPUTS("reading right neighbor");
2979                 node = NODEPTR(mpp->mp_parent, mpp->mp_pi + 1);
2980                 if ((npp.mp_page = mdb_get_page(txn, NODEPGNO(node))) == NULL)
2981                         return MDB_PAGE_NOTFOUND;
2982                 npp.mp_pi = mpp->mp_pi + 1;
2983                 si = 0;
2984                 di = NUMKEYS(mpp->mp_page);
2985         } else {
2986                 /* There is at least one neighbor to the left.
2987                  */
2988                 DPUTS("reading left neighbor");
2989                 node = NODEPTR(mpp->mp_parent, mpp->mp_pi - 1);
2990                 if ((npp.mp_page = mdb_get_page(txn, NODEPGNO(node))) == NULL)
2991                         return MDB_PAGE_NOTFOUND;
2992                 npp.mp_pi = mpp->mp_pi - 1;
2993                 si = NUMKEYS(npp.mp_page) - 1;
2994                 di = 0;
2995         }
2996         npp.mp_parent = mpp->mp_parent;
2997
2998         DPRINTF("found neighbor page %lu (%u keys, %.1f%% full)",
2999             npp.mp_page->mp_pgno, NUMKEYS(npp.mp_page), (float)PAGEFILL(txn->mt_env, npp.mp_page) / 10);
3000
3001         /* If the neighbor page is above threshold and has at least two
3002          * keys, move one key from it.
3003          *
3004          * Otherwise we should try to merge them.
3005          */
3006         if (PAGEFILL(txn->mt_env, npp.mp_page) >= FILL_THRESHOLD && NUMKEYS(npp.mp_page) >= 2)
3007                 return mdb_move_node(txn, dbi, &npp, si, mpp, di);
3008         else { /* FIXME: if (has_enough_room()) */
3009                 if (mpp->mp_pi == 0)
3010                         return mdb_merge(txn, dbi, &npp, mpp);
3011                 else
3012                         return mdb_merge(txn, dbi, mpp, &npp);
3013         }
3014 }
3015
3016 static int
3017 mdb_del0(MDB_txn *txn, MDB_dbi dbi, unsigned int ki, MDB_pageparent *mpp, MDB_node *leaf)
3018 {
3019         int rc;
3020
3021         /* add overflow pages to free list */
3022         if (!IS_LEAF2(mpp->mp_page) && F_ISSET(leaf->mn_flags, F_BIGDATA)) {
3023                 int i, ovpages;
3024                 pgno_t pg;
3025
3026                 memcpy(&pg, NODEDATA(leaf), sizeof(pg));
3027                 ovpages = OVPAGES(NODEDSZ(leaf), txn->mt_env->me_psize);
3028                 for (i=0; i<ovpages; i++) {
3029                         DPRINTF("freed ov page %lu", pg);
3030                         mdb_midl_insert(txn->mt_free_pgs, pg);
3031                         pg++;
3032                 }
3033         }
3034         mdb_del_node(mpp->mp_page, ki, txn->mt_dbs[dbi].md_pad);
3035         txn->mt_dbs[dbi].md_entries--;
3036         rc = mdb_rebalance(txn, dbi, mpp);
3037         if (rc != MDB_SUCCESS)
3038                 txn->mt_flags |= MDB_TXN_ERROR;
3039
3040         return rc;
3041 }
3042
3043 int
3044 mdb_del(MDB_txn *txn, MDB_dbi dbi,
3045     MDB_val *key, MDB_val *data,
3046         unsigned int flags)
3047 {
3048         int              rc, exact;
3049         unsigned int     ki;
3050         MDB_node        *leaf;
3051         MDB_pageparent  mpp;
3052         DKBUF;
3053
3054         assert(key != NULL);
3055
3056         DPRINTF("====> delete db %u key [%s]", dbi, DKEY(key));
3057
3058         if (txn == NULL || !dbi || dbi >= txn->mt_numdbs)
3059                 return EINVAL;
3060
3061         if (F_ISSET(txn->mt_flags, MDB_TXN_RDONLY)) {
3062                 return EINVAL;
3063         }
3064
3065         if (key->mv_size == 0 || key->mv_size > MAXKEYSIZE) {
3066                 return EINVAL;
3067         }
3068
3069         mpp.mp_parent = NULL;
3070         mpp.mp_pi = 0;
3071         if ((rc = mdb_search_page(txn, dbi, key, NULL, 1, &mpp)) != MDB_SUCCESS)
3072                 return rc;
3073
3074         leaf = mdb_search_node(txn, dbi, mpp.mp_page, key, &exact, &ki);
3075         if (leaf == NULL || !exact) {
3076                 return MDB_NOTFOUND;
3077         }
3078
3079         if (!IS_LEAF2(mpp.mp_page) && F_ISSET(leaf->mn_flags, F_DUPDATA)) {
3080                 MDB_xcursor mx;
3081                 MDB_pageparent mp2;
3082
3083                 mdb_xcursor_init0(txn, dbi, &mx);
3084                 mdb_xcursor_init1(txn, dbi, &mx, leaf);
3085                 if (flags == MDB_DEL_DUP) {
3086                         rc = mdb_del(&mx.mx_txn, mx.mx_cursor.mc_dbi, data, NULL, 0);
3087                         mdb_xcursor_fini(txn, dbi, &mx);
3088                         if (rc != MDB_SUCCESS)
3089                                 return rc;
3090                         /* If sub-DB still has entries, we're done */
3091                         if (mx.mx_txn.mt_dbs[mx.mx_cursor.mc_dbi].md_root != P_INVALID) {
3092                                 memcpy(NODEDATA(leaf), &mx.mx_txn.mt_dbs[mx.mx_cursor.mc_dbi],
3093                                         sizeof(MDB_db));
3094                                 txn->mt_dbs[dbi].md_entries--;
3095                                 return rc;
3096                         }
3097                         /* otherwise fall thru and delete the sub-DB */
3098                 } else {
3099                         /* add all the child DB's pages to the free list */
3100                         rc = mdb_search_page(&mx.mx_txn, mx.mx_cursor.mc_dbi,
3101                                 NULL, &mx.mx_cursor, 0, &mp2);
3102                         if (rc == MDB_SUCCESS) {
3103                                 MDB_ppage *top, *parent;
3104                                 MDB_node *ni;
3105                                 unsigned int i;
3106
3107                                 cursor_pop_page(&mx.mx_cursor);
3108                                 if (mx.mx_cursor.mc_snum) {
3109                                         top = CURSOR_TOP(&mx.mx_cursor);
3110                                         while (mx.mx_cursor.mc_snum > 1) {
3111                                                 parent = CURSOR_PARENT(&mx.mx_cursor);
3112                                                 for (i=0; i<NUMKEYS(top->mp_page); i++) {
3113                                                         ni = NODEPTR(top->mp_page, i);
3114                                                         mdb_midl_insert(txn->mt_free_pgs, NODEPGNO(ni));
3115                                                 }
3116                                                 parent->mp_ki++;
3117                                                 if (parent->mp_ki >= NUMKEYS(parent->mp_page)) {
3118                                                         cursor_pop_page(&mx.mx_cursor);
3119                                                         top = parent;
3120                                                 } else {
3121                                                         ni = NODEPTR(parent->mp_page, parent->mp_ki);
3122                                                         top->mp_page = mdb_get_page(&mx.mx_txn, NODEPGNO(ni));
3123                                                 }
3124                                         }
3125                                 }
3126                                 mdb_midl_insert(txn->mt_free_pgs, mx.mx_txn.mt_dbs[mx.mx_cursor.mc_dbi].md_root);
3127                         }
3128                 }
3129         }
3130
3131         if (data && (rc = mdb_read_data(txn, leaf, data)) != MDB_SUCCESS)
3132                 return rc;
3133
3134         return mdb_del0(txn, dbi, ki, &mpp, leaf);
3135 }
3136
3137 /* Split page <*mpp>, and insert <key,(data|newpgno)> in either left or
3138  * right sibling, at index <*newindxp> (as if unsplit). Updates *mpp and
3139  * *newindxp with the actual values after split, ie if *mpp and *newindxp
3140  * refer to a node in the new right sibling page.
3141  */
3142 static int
3143 mdb_split(MDB_txn *txn, MDB_dbi dbi, MDB_page **mpp, unsigned int *newindxp,
3144     MDB_val *newkey, MDB_val *newdata, pgno_t newpgno)
3145 {
3146         uint8_t          flags;
3147         int              rc = MDB_SUCCESS, ins_new = 0;
3148         indx_t           newindx;
3149         pgno_t           pgno = 0;
3150         unsigned int     i, j, split_indx;
3151         MDB_node        *node;
3152         MDB_val  sepkey, rkey, rdata;
3153         MDB_page        *copy;
3154         MDB_dpage       *mdp, *rdp, *pdp;
3155         MDB_dhead *dh;
3156         DKBUF;
3157
3158         assert(txn != NULL);
3159
3160         dh = ((MDB_dhead *)*mpp) - 1;
3161         mdp = (MDB_dpage *)dh;
3162         newindx = *newindxp;
3163
3164         DPRINTF("-----> splitting %s page %lu and adding [%s] at index %i",
3165             IS_LEAF(&mdp->p) ? "leaf" : "branch", mdp->p.mp_pgno,
3166             DKEY(newkey), *newindxp);
3167
3168         if (mdp->h.md_parent == NULL) {
3169                 if ((pdp = mdb_new_page(txn, dbi, P_BRANCH, 1)) == NULL)
3170                         return ENOMEM;
3171                 mdp->h.md_pi = 0;
3172                 mdp->h.md_parent = &pdp->p;
3173                 txn->mt_dbs[dbi].md_root = pdp->p.mp_pgno;
3174                 DPRINTF("root split! new root = %lu", pdp->p.mp_pgno);
3175                 txn->mt_dbs[dbi].md_depth++;
3176
3177                 /* Add left (implicit) pointer. */
3178                 if ((rc = mdb_add_node(txn, dbi, &pdp->p, 0, NULL, NULL,
3179                     mdp->p.mp_pgno, 0)) != MDB_SUCCESS)
3180                         return rc;
3181         } else {
3182                 DPRINTF("parent branch page is %lu", mdp->h.md_parent->mp_pgno);
3183         }
3184
3185         /* Create a right sibling. */
3186         if ((rdp = mdb_new_page(txn, dbi, mdp->p.mp_flags, 1)) == NULL)
3187                 return ENOMEM;
3188         rdp->h.md_parent = mdp->h.md_parent;
3189         rdp->h.md_pi = mdp->h.md_pi + 1;
3190         DPRINTF("new right sibling: page %lu", rdp->p.mp_pgno);
3191
3192         split_indx = NUMKEYS(&mdp->p) / 2 + 1;
3193
3194         if (IS_LEAF2(&rdp->p)) {
3195                 char *split, *ins;
3196                 int x;
3197                 unsigned int nkeys = NUMKEYS(&mdp->p), lsize, rsize, ksize;
3198                 /* Move half of the keys to the right sibling */
3199                 copy = NULL;
3200                 x = *newindxp - split_indx;
3201                 ksize = txn->mt_dbs[dbi].md_pad;
3202                 split = LEAF2KEY(&mdp->p, split_indx, ksize);
3203                 rsize = (nkeys - split_indx) * ksize;
3204                 lsize = (nkeys - split_indx) * sizeof(indx_t);
3205                 mdp->p.mp_lower -= lsize;
3206                 rdp->p.mp_lower += lsize;
3207                 mdp->p.mp_upper += rsize - lsize;
3208                 rdp->p.mp_upper -= rsize - lsize;
3209                 sepkey.mv_size = ksize;
3210                 if (newindx == split_indx) {
3211                         sepkey.mv_data = newkey->mv_data;
3212                 } else {
3213                         sepkey.mv_data = split;
3214                 }
3215                 if (x<0) {
3216                         ins = LEAF2KEY(&mdp->p, *newindxp, ksize);
3217                         memcpy(&rdp->p.mp_ptrs, split, rsize);
3218                         sepkey.mv_data = &rdp->p.mp_ptrs;
3219                         memmove(ins+ksize, ins, (split_indx - *newindxp) * ksize);
3220                         memcpy(ins, newkey->mv_data, ksize);
3221                         mdp->p.mp_lower += sizeof(indx_t);
3222                         mdp->p.mp_upper -= ksize - sizeof(indx_t);
3223                 } else {
3224                         if (x)
3225                                 memcpy(&rdp->p.mp_ptrs, split, x * ksize);
3226                         ins = LEAF2KEY(&rdp->p, x, ksize);
3227                         memcpy(ins, newkey->mv_data, ksize);
3228                         memcpy(ins+ksize, split + x * ksize, rsize - x * ksize);
3229                         rdp->p.mp_lower += sizeof(indx_t);
3230                         rdp->p.mp_upper -= ksize - sizeof(indx_t);
3231                         *newindxp = x;
3232                         *mpp = &rdp->p;
3233                 }
3234                 goto newsep;
3235         }
3236
3237         /* Move half of the keys to the right sibling. */
3238         if ((copy = malloc(txn->mt_env->me_psize)) == NULL)
3239                 return ENOMEM;
3240         memcpy(copy, &mdp->p, txn->mt_env->me_psize);
3241         memset(&mdp->p.mp_ptrs, 0, txn->mt_env->me_psize - PAGEHDRSZ);
3242         mdp->p.mp_lower = PAGEHDRSZ;
3243         mdp->p.mp_upper = txn->mt_env->me_psize;
3244
3245         /* First find the separating key between the split pages.
3246          */
3247         memset(&sepkey, 0, sizeof(sepkey));
3248         if (newindx == split_indx) {
3249                 sepkey.mv_size = newkey->mv_size;
3250                 sepkey.mv_data = newkey->mv_data;
3251         } else {
3252                 node = NODEPTR(copy, split_indx);
3253                 sepkey.mv_size = node->mn_ksize;
3254                 sepkey.mv_data = NODEKEY(node);
3255         }
3256
3257 newsep:
3258         DPRINTF("separator is [%s]", DKEY(&sepkey));
3259
3260         /* Copy separator key to the parent.
3261          */
3262         if (SIZELEFT(rdp->h.md_parent) < mdb_branch_size(txn->mt_env, &sepkey)) {
3263                 rc = mdb_split(txn, dbi, &rdp->h.md_parent, &rdp->h.md_pi,
3264                     &sepkey, NULL, rdp->p.mp_pgno);
3265
3266                 /* Right page might now have changed parent.
3267                  * Check if left page also changed parent.
3268                  */
3269                 if (rdp->h.md_parent != mdp->h.md_parent &&
3270                     mdp->h.md_pi >= NUMKEYS(mdp->h.md_parent)) {
3271                         mdp->h.md_parent = rdp->h.md_parent;
3272                         mdp->h.md_pi = rdp->h.md_pi - 1;
3273                 }
3274         } else {
3275                 rc = mdb_add_node(txn, dbi, rdp->h.md_parent, rdp->h.md_pi,
3276                     &sepkey, NULL, rdp->p.mp_pgno, 0);
3277         }
3278         if (IS_LEAF2(&rdp->p)) {
3279                 return rc;
3280         }
3281         if (rc != MDB_SUCCESS) {
3282                 free(copy);
3283                 return rc;
3284         }
3285
3286         for (i = j = 0; i <= NUMKEYS(copy); j++) {
3287                 if (i < split_indx) {
3288                         /* Re-insert in left sibling. */
3289                         pdp = mdp;
3290                 } else {
3291                         /* Insert in right sibling. */
3292                         if (i == split_indx)
3293                                 /* Reset insert index for right sibling. */
3294                                 j = (i == newindx && ins_new);
3295                         pdp = rdp;
3296                 }
3297
3298                 if (i == newindx && !ins_new) {
3299                         /* Insert the original entry that caused the split. */
3300                         rkey.mv_data = newkey->mv_data;
3301                         rkey.mv_size = newkey->mv_size;
3302                         if (IS_LEAF(&mdp->p)) {
3303                                 rdata.mv_data = newdata->mv_data;
3304                                 rdata.mv_size = newdata->mv_size;
3305                         } else
3306                                 pgno = newpgno;
3307                         flags = 0;
3308
3309                         ins_new = 1;
3310
3311                         /* Update page and index for the new key. */
3312                         *newindxp = j;
3313                         *mpp = &pdp->p;
3314                 } else if (i == NUMKEYS(copy)) {
3315                         break;
3316                 } else {
3317                         node = NODEPTR(copy, i);
3318                         rkey.mv_data = NODEKEY(node);
3319                         rkey.mv_size = node->mn_ksize;
3320                         if (IS_LEAF(&mdp->p)) {
3321                                 rdata.mv_data = NODEDATA(node);
3322                                 rdata.mv_size = node->mn_dsize;
3323                         } else
3324                                 pgno = NODEPGNO(node);
3325                         flags = node->mn_flags;
3326
3327                         i++;
3328                 }
3329
3330                 if (!IS_LEAF(&mdp->p) && j == 0) {
3331                         /* First branch index doesn't need key data. */
3332                         rkey.mv_size = 0;
3333                 }
3334
3335                 rc = mdb_add_node(txn, dbi, &pdp->p, j, &rkey, &rdata, pgno,flags);
3336         }
3337
3338         free(copy);
3339         return rc;
3340 }
3341
3342 static int
3343 mdb_put0(MDB_txn *txn, MDB_dbi dbi,
3344     MDB_val *key, MDB_val *data, unsigned int flags)
3345 {
3346         int              rc = MDB_SUCCESS, exact;
3347         unsigned int     ki;
3348         MDB_node        *leaf;
3349         MDB_pageparent  mpp;
3350         MDB_val xdata, *rdata, dkey;
3351         MDB_db dummy;
3352         char dbuf[PAGESIZE];
3353         int do_sub = 0;
3354         size_t nsize;
3355         DKBUF;
3356
3357         DPRINTF("==> put db %u key [%s], size %zu, data size %zu",
3358                 dbi, DKEY(key), key->mv_size, data->mv_size);
3359
3360         dkey.mv_size = 0;
3361         mpp.mp_parent = NULL;
3362         mpp.mp_pi = 0;
3363         rc = mdb_search_page(txn, dbi, key, NULL, 1, &mpp);
3364         if (rc == MDB_SUCCESS) {
3365                 leaf = mdb_search_node(txn, dbi, mpp.mp_page, key, &exact, &ki);
3366                 if (leaf && exact) {
3367                         if (flags == MDB_NOOVERWRITE) {
3368                                 DPRINTF("duplicate key [%s]", DKEY(key));
3369                                 return MDB_KEYEXIST;
3370                         }
3371                         /* there's only a key anyway, so this is a no-op */
3372                         if (IS_LEAF2(mpp.mp_page))
3373                                 return MDB_SUCCESS;
3374
3375                         if (F_ISSET(txn->mt_dbs[dbi].md_flags, MDB_DUPSORT)) {
3376                                 /* Was a single item before, must convert now */
3377                                 if (!F_ISSET(leaf->mn_flags, F_DUPDATA)) {
3378                                         dkey.mv_size = NODEDSZ(leaf);
3379                                         dkey.mv_data = dbuf;
3380                                         memcpy(dbuf, NODEDATA(leaf), dkey.mv_size);
3381                                         /* data matches, ignore it */
3382                                         if (!mdb_dcmp(txn, dbi, data, &dkey))
3383                                                 return (flags == MDB_NODUPDATA) ? MDB_KEYEXIST : MDB_SUCCESS;
3384                                         memset(&dummy, 0, sizeof(dummy));
3385                                         if (txn->mt_dbs[dbi].md_flags & MDB_DUPFIXED) {
3386                                                 dummy.md_pad = data->mv_size;
3387                                                 dummy.md_flags = MDB_DUPFIXED;
3388                                                 if (txn->mt_dbs[dbi].md_flags & MDB_INTEGERDUP)
3389                                                         dummy.md_flags |= MDB_INTEGERKEY;
3390                                         }
3391                                         dummy.md_root = P_INVALID;
3392                                         if (dkey.mv_size == sizeof(MDB_db)) {
3393                                                 memcpy(NODEDATA(leaf), &dummy, sizeof(dummy));
3394                                                 goto put_sub;
3395                                         }
3396                                         mdb_del_node(mpp.mp_page, ki, 0);
3397                                         do_sub = 1;
3398                                         rdata = &xdata;
3399                                         xdata.mv_size = sizeof(MDB_db);
3400                                         xdata.mv_data = &dummy;
3401                                         goto new_sub;
3402                                 }
3403                                 goto put_sub;
3404                         }
3405                         /* same size, just replace it */
3406                         if (NODEDSZ(leaf) == data->mv_size) {
3407                                 memcpy(NODEDATA(leaf), data->mv_data, data->mv_size);
3408                                 goto done;
3409                         }
3410                         mdb_del_node(mpp.mp_page, ki, 0);
3411                 }
3412                 if (leaf == NULL) {             /* append if not found */
3413                         ki = NUMKEYS(mpp.mp_page);
3414                         DPRINTF("appending key at index %i", ki);
3415                 }
3416         } else if (rc == MDB_NOTFOUND) {
3417                 MDB_dpage *dp;
3418                 /* new file, just write a root leaf page */
3419                 DPUTS("allocating new root leaf page");
3420                 if ((dp = mdb_new_page(txn, dbi, P_LEAF, 1)) == NULL) {
3421                         return ENOMEM;
3422                 }
3423                 mpp.mp_page = &dp->p;
3424                 txn->mt_dbs[dbi].md_root = mpp.mp_page->mp_pgno;
3425                 txn->mt_dbs[dbi].md_depth++;
3426                 txn->mt_dbxs[dbi].md_dirty = 1;
3427                 if ((txn->mt_dbs[dbi].md_flags & (MDB_DUPSORT|MDB_DUPFIXED)) == MDB_DUPFIXED)
3428                         mpp.mp_page->mp_flags |= P_LEAF2;
3429                 ki = 0;
3430         }
3431         else
3432                 goto done;
3433
3434         assert(IS_LEAF(mpp.mp_page));
3435         DPRINTF("there are %u keys, should insert new key at index %i",
3436                 NUMKEYS(mpp.mp_page), ki);
3437
3438         rdata = data;
3439
3440 new_sub:
3441         nsize = IS_LEAF2(mpp.mp_page) ? key->mv_size : mdb_leaf_size(txn->mt_env, key, rdata);
3442         if (SIZELEFT(mpp.mp_page) < nsize) {
3443                 rc = mdb_split(txn, dbi, &mpp.mp_page, &ki, key, rdata, P_INVALID);
3444         } else {
3445                 /* There is room already in this leaf page. */
3446                 rc = mdb_add_node(txn, dbi, mpp.mp_page, ki, key, rdata, 0, 0);
3447         }
3448
3449         if (rc != MDB_SUCCESS)
3450                 txn->mt_flags |= MDB_TXN_ERROR;
3451         else {
3452                 /* Remember if we just added a subdatabase */
3453                 if (flags & F_SUBDATA) {
3454                         leaf = NODEPTR(mpp.mp_page, ki);
3455                         leaf->mn_flags |= F_SUBDATA;
3456                 }
3457
3458                 /* Now store the actual data in the child DB. Note that we're
3459                  * storing the user data in the keys field, so there are strict
3460                  * size limits on dupdata. The actual data fields of the child
3461                  * DB are all zero size.
3462                  */
3463                 if (do_sub) {
3464                         MDB_xcursor mx;
3465
3466                         leaf = NODEPTR(mpp.mp_page, ki);
3467 put_sub:
3468                         mdb_xcursor_init0(txn, dbi, &mx);
3469                         mdb_xcursor_init1(txn, dbi, &mx, leaf);
3470                         xdata.mv_size = 0;
3471                         xdata.mv_data = "";
3472                         if (flags == MDB_NODUPDATA)
3473                                 flags = MDB_NOOVERWRITE;
3474                         /* converted, write the original data first */
3475                         if (dkey.mv_size) {
3476                                 rc = mdb_put0(&mx.mx_txn, mx.mx_cursor.mc_dbi, &dkey, &xdata, flags);
3477                                 if (rc) return rc;
3478                                 leaf->mn_flags |= F_DUPDATA;
3479                         }
3480                         rc = mdb_put0(&mx.mx_txn, mx.mx_cursor.mc_dbi, data, &xdata, flags);
3481                         mdb_xcursor_fini(txn, dbi, &mx);
3482                         memcpy(NODEDATA(leaf), &mx.mx_txn.mt_dbs[mx.mx_cursor.mc_dbi],
3483                                 sizeof(MDB_db));
3484                 }
3485                 txn->mt_dbs[dbi].md_entries++;
3486         }
3487
3488 done:
3489         return rc;
3490 }
3491
3492 int
3493 mdb_put(MDB_txn *txn, MDB_dbi dbi,
3494     MDB_val *key, MDB_val *data, unsigned int flags)
3495 {
3496         assert(key != NULL);
3497         assert(data != NULL);
3498
3499         if (txn == NULL || !dbi || dbi >= txn->mt_numdbs)
3500                 return EINVAL;
3501
3502         if (F_ISSET(txn->mt_flags, MDB_TXN_RDONLY)) {
3503                 return EINVAL;
3504         }
3505
3506         if (key->mv_size == 0 || key->mv_size > MAXKEYSIZE) {
3507                 return EINVAL;
3508         }
3509
3510         if ((flags & (MDB_NOOVERWRITE|MDB_NODUPDATA)) != flags)
3511                 return EINVAL;
3512
3513         return mdb_put0(txn, dbi, key, data, flags);
3514 }
3515
3516 int
3517 mdb_env_set_flags(MDB_env *env, unsigned int flag, int onoff)
3518 {
3519 #define CHANGEABLE      (MDB_NOSYNC)
3520         if ((flag & CHANGEABLE) != flag)
3521                 return EINVAL;
3522         if (onoff)
3523                 env->me_flags |= flag;
3524         else
3525                 env->me_flags &= ~flag;
3526         return MDB_SUCCESS;
3527 }
3528
3529 int
3530 mdb_env_get_flags(MDB_env *env, unsigned int *arg)
3531 {
3532         if (!env || !arg)
3533                 return EINVAL;
3534
3535         *arg = env->me_flags;
3536         return MDB_SUCCESS;
3537 }
3538
3539 int
3540 mdb_env_get_path(MDB_env *env, const char **arg)
3541 {
3542         if (!env || !arg)
3543                 return EINVAL;
3544
3545         *arg = env->me_path;
3546         return MDB_SUCCESS;
3547 }
3548
3549 static int
3550 mdb_stat0(MDB_env *env, MDB_db *db, MDB_stat *arg)
3551 {
3552         arg->ms_psize = env->me_psize;
3553         arg->ms_depth = db->md_depth;
3554         arg->ms_branch_pages = db->md_branch_pages;
3555         arg->ms_leaf_pages = db->md_leaf_pages;
3556         arg->ms_overflow_pages = db->md_overflow_pages;
3557         arg->ms_entries = db->md_entries;
3558
3559         return MDB_SUCCESS;
3560 }
3561 int
3562 mdb_env_stat(MDB_env *env, MDB_stat *arg)
3563 {
3564         if (env == NULL || arg == NULL)
3565                 return EINVAL;
3566
3567         return mdb_stat0(env, &env->me_meta->mm_dbs[MAIN_DBI], arg);
3568 }
3569
3570 int mdb_open(MDB_txn *txn, const char *name, unsigned int flags, MDB_dbi *dbi)
3571 {
3572         MDB_val key, data;
3573         MDB_dbi i;
3574         int rc, dirty = 0;
3575         size_t len;
3576
3577         /* main DB? */
3578         if (!name) {
3579                 *dbi = MAIN_DBI;
3580                 if (flags & (MDB_DUPSORT|MDB_REVERSEKEY|MDB_INTEGERKEY))
3581                         txn->mt_dbs[MAIN_DBI].md_flags |= (flags & (MDB_DUPSORT|MDB_REVERSEKEY|MDB_INTEGERKEY));
3582                 return MDB_SUCCESS;
3583         }
3584
3585         /* Is the DB already open? */
3586         len = strlen(name);
3587         for (i=2; i<txn->mt_numdbs; i++) {
3588                 if (len == txn->mt_dbxs[i].md_name.mv_size &&
3589                         !strncmp(name, txn->mt_dbxs[i].md_name.mv_data, len)) {
3590                         *dbi = i;
3591                         return MDB_SUCCESS;
3592                 }
3593         }
3594
3595         if (txn->mt_numdbs >= txn->mt_env->me_maxdbs - 1)
3596                 return ENFILE;
3597
3598         /* Find the DB info */
3599         key.mv_size = len;
3600         key.mv_data = (void *)name;
3601         rc = mdb_get(txn, MAIN_DBI, &key, &data);
3602
3603         /* Create if requested */
3604         if (rc == MDB_NOTFOUND && (flags & MDB_CREATE)) {
3605                 MDB_db dummy;
3606                 data.mv_size = sizeof(MDB_db);
3607                 data.mv_data = &dummy;
3608                 memset(&dummy, 0, sizeof(dummy));
3609                 dummy.md_root = P_INVALID;
3610                 dummy.md_flags = flags & 0xffff;
3611                 rc = mdb_put0(txn, MAIN_DBI, &key, &data, F_SUBDATA);
3612                 dirty = 1;
3613         }
3614
3615         /* OK, got info, add to table */
3616         if (rc == MDB_SUCCESS) {
3617                 txn->mt_dbxs[txn->mt_numdbs].md_name.mv_data = strdup(name);
3618                 txn->mt_dbxs[txn->mt_numdbs].md_name.mv_size = len;
3619                 txn->mt_dbxs[txn->mt_numdbs].md_cmp = NULL;
3620                 txn->mt_dbxs[txn->mt_numdbs].md_dcmp = NULL;
3621                 txn->mt_dbxs[txn->mt_numdbs].md_rel = NULL;
3622                 txn->mt_dbxs[txn->mt_numdbs].md_parent = MAIN_DBI;
3623                 txn->mt_dbxs[txn->mt_numdbs].md_dirty = dirty;
3624                 memcpy(&txn->mt_dbs[txn->mt_numdbs], data.mv_data, sizeof(MDB_db));
3625                 *dbi = txn->mt_numdbs;
3626                 txn->mt_env->me_dbs[0][txn->mt_numdbs] = txn->mt_dbs[txn->mt_numdbs];
3627                 txn->mt_env->me_dbs[1][txn->mt_numdbs] = txn->mt_dbs[txn->mt_numdbs];
3628                 txn->mt_numdbs++;
3629         }
3630
3631         return rc;
3632 }
3633
3634 int mdb_stat(MDB_txn *txn, MDB_dbi dbi, MDB_stat *arg)
3635 {
3636         if (txn == NULL || arg == NULL || dbi >= txn->mt_numdbs)
3637                 return EINVAL;
3638
3639         return mdb_stat0(txn->mt_env, &txn->mt_dbs[dbi], arg);
3640 }
3641
3642 void mdb_close(MDB_txn *txn, MDB_dbi dbi)
3643 {
3644         char *ptr;
3645         if (dbi <= MAIN_DBI || dbi >= txn->mt_numdbs)
3646                 return;
3647         ptr = txn->mt_dbxs[dbi].md_name.mv_data;
3648         txn->mt_dbxs[dbi].md_name.mv_data = NULL;
3649         txn->mt_dbxs[dbi].md_name.mv_size = 0;
3650         free(ptr);
3651 }
3652
3653 int mdb_set_compare(MDB_txn *txn, MDB_dbi dbi, MDB_cmp_func *cmp)
3654 {
3655         if (txn == NULL || !dbi || dbi >= txn->mt_numdbs)
3656                 return EINVAL;
3657
3658         txn->mt_dbxs[dbi].md_cmp = cmp;
3659         return MDB_SUCCESS;
3660 }
3661
3662 int mdb_set_dupsort(MDB_txn *txn, MDB_dbi dbi, MDB_cmp_func *cmp)
3663 {
3664         if (txn == NULL || !dbi || dbi >= txn->mt_numdbs)
3665                 return EINVAL;
3666
3667         txn->mt_dbxs[dbi].md_dcmp = cmp;
3668         return MDB_SUCCESS;
3669 }
3670
3671 int mdb_set_relfunc(MDB_txn *txn, MDB_dbi dbi, MDB_rel_func *rel)
3672 {
3673         if (txn == NULL || !dbi || dbi >= txn->mt_numdbs)
3674                 return EINVAL;
3675
3676         txn->mt_dbxs[dbi].md_rel = rel;
3677         return MDB_SUCCESS;
3678 }