]> git.sur5r.net Git - openldap/blobdiff - libraries/liblmdb/lmdb.h
Release 0.9.22
[openldap] / libraries / liblmdb / lmdb.h
index 5c7e9fc2eb68426975548a14f2fa564e63ca5fc3..7d69ec454294868c81b4671700735056bb11ee02 100644 (file)
@@ -40,6 +40,9 @@
  *     corrupt the database. Of course if your application code is known to
  *     be bug-free (...) then this is not an issue.
  *
+ *     If this is your first time using a transactional embedded key/value
+ *     store, you may find the \ref starting page to be helpful.
+ *
  *     @section caveats_sec Caveats
  *     Troubleshooting the lock file, plus semaphores on BSD systems:
  *
  *       stale locks can block further operation.
  *
  *       Fix: Check for stale readers periodically, using the
- *       #mdb_reader_check function or the \ref mdb_stat_1 "mdb_stat" tool. Or just
- *       make all programs using the database close it; the lockfile
- *       is always reset on first open of the environment.
+ *       #mdb_reader_check function or the \ref mdb_stat_1 "mdb_stat" tool.
+ *       Stale writers will be cleared automatically on some systems:
+ *       - Windows - automatic
+ *       - Linux, systems using POSIX mutexes with Robust option - automatic
+ *       - not on BSD, systems using POSIX semaphores.
+ *       Otherwise just make all programs using the database close it;
+ *       the lockfile is always reset on first open of the environment.
  *
  *     - On BSD systems or others configured with MDB_USE_POSIX_SEM,
  *       startup can fail due to semaphores owned by another userid.
  *       access to locks and lock file. Exceptions: On read-only filesystems
  *       or with the #MDB_NOLOCK flag described under #mdb_env_open().
  *
+ *     - An LMDB configuration will often reserve considerable \b unused
+ *       memory address space and maybe file size for future growth.
+ *       This does not use actual memory or disk space, but users may need
+ *       to understand the difference so they won't be scared off.
+ *
  *     - By default, in versions before 0.9.10, unused portions of the data
  *       file might receive garbage data from memory freed by other code.
  *       (This does not happen when using the #MDB_WRITEMAP flag.) As of
  *       transactions.  Each transaction belongs to one thread.  See below.
  *       The #MDB_NOTLS flag changes this for read-only transactions.
  *
- *     - Use an MDB_env* in the process which opened it, without fork()ing.
+ *     - Use an MDB_env* in the process which opened it, not after fork().
  *
  *     - Do not have open an LMDB database twice in the same process at
  *       the same time.  Not even from a plain open() call - close()ing it
- *       breaks flock() advisory locking.
+ *       breaks fcntl() advisory locking.  (It is OK to reopen it after
+ *       fork() - exec*(), since the lockfile has FD_CLOEXEC set.)
  *
  *     - Avoid long-lived transactions.  Read transactions prevent
  *       reuse of pages freed by newer write transactions, thus the
  *       for stale readers is performed or the lockfile is reset,
  *       since the process may not remove it from the lockfile.
  *
+ *       This does not apply to write transactions if the system clears
+ *       stale writers, see above.
+ *
  *     - If you do that anyway, do a periodic check for stale readers. Or
  *       close the environment once in a while, so the lockfile can get reset.
  *
  *
  *     @author Howard Chu, Symas Corporation.
  *
- *     @copyright Copyright 2011-2014 Howard Chu, Symas Corp. All rights reserved.
+ *     @copyright Copyright 2011-2017 Howard Chu, Symas Corp. All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted only as authorized by the OpenLDAP
@@ -184,7 +200,7 @@ typedef int mdb_filehandle_t;
 /** Library minor version */
 #define MDB_VERSION_MINOR      9
 /** Library patch version */
-#define MDB_VERSION_PATCH      14
+#define MDB_VERSION_PATCH      22
 
 /** Combine args a,b,c into a single integer for easy version comparisons */
 #define MDB_VERINT(a,b,c)      (((a) << 24) | ((b) << 16) | (c))
@@ -194,7 +210,7 @@ typedef int mdb_filehandle_t;
        MDB_VERINT(MDB_VERSION_MAJOR,MDB_VERSION_MINOR,MDB_VERSION_PATCH)
 
 /** The release date of this library version */
-#define MDB_VERSION_DATE       "September 15, 2014"
+#define MDB_VERSION_DATE       "March 21, 2018"
 
 /** A stringifier for the version info */
 #define MDB_VERSTR(a,b,c,d)    "LMDB " #a "." #b "." #c ": (" d ")"
@@ -296,12 +312,12 @@ typedef void (MDB_rel_func)(MDB_val *item, void *oldptr, void *newptr, void *rel
 #define MDB_REVERSEKEY 0x02
        /** use sorted duplicates */
 #define MDB_DUPSORT            0x04
-       /** numeric keys in native byte order.
+       /** numeric keys in native byte order: either unsigned int or size_t.
         *  The keys must all be of the same size. */
 #define MDB_INTEGERKEY 0x08
        /** with #MDB_DUPSORT, sorted dup items have fixed size */
 #define MDB_DUPFIXED   0x10
-       /** with #MDB_DUPSORT, dups are numeric in native byte order */
+       /** with #MDB_DUPSORT, dups are #MDB_INTEGERKEY-style integers */
 #define MDB_INTEGERDUP 0x20
        /** with #MDB_DUPSORT, use reverse string dups */
 #define MDB_REVERSEDUP 0x40
@@ -373,7 +389,9 @@ typedef enum MDB_cursor_op {
        MDB_PREV_NODUP,                 /**< Position at last data item of previous key */
        MDB_SET,                                /**< Position at specified key */
        MDB_SET_KEY,                    /**< Position at specified key, return key + data */
-       MDB_SET_RANGE                   /**< Position at first key greater than or equal to specified key. */
+       MDB_SET_RANGE,                  /**< Position at first key greater than or equal to specified key. */
+       MDB_PREV_MULTIPLE               /**< Position at previous page and return key and up to
+                                                               a page of duplicate data items. Only for #MDB_DUPFIXED */
 } MDB_cursor_op;
 
 /** @defgroup  errors  Return Codes
@@ -391,7 +409,7 @@ typedef enum MDB_cursor_op {
 #define MDB_PAGE_NOTFOUND      (-30797)
        /** Located page was wrong type */
 #define MDB_CORRUPTED  (-30796)
-       /** Update of meta page failed, probably I/O error */
+       /** Update of meta page failed or environment had fatal error */
 #define MDB_PANIC              (-30795)
        /** Environment version mismatch */
 #define MDB_VERSION_MISMATCH   (-30794)
@@ -413,11 +431,18 @@ typedef enum MDB_cursor_op {
 #define MDB_PAGE_FULL  (-30786)
        /** Database contents grew beyond environment mapsize */
 #define MDB_MAP_RESIZED        (-30785)
-       /** MDB_INCOMPATIBLE: Operation and DB incompatible, or DB flags changed */
+       /** Operation and DB incompatible, or DB type changed. This can mean:
+        *      <ul>
+        *      <li>The operation expects an #MDB_DUPSORT / #MDB_DUPFIXED database.
+        *      <li>Opening a named DB when the unnamed DB has #MDB_DUPSORT / #MDB_INTEGERKEY.
+        *      <li>Accessing a data record as a database, or vice versa.
+        *      <li>The database was dropped and recreated with different flags.
+        *      </ul>
+        */
 #define MDB_INCOMPATIBLE       (-30784)
        /** Invalid reuse of reader locktable slot */
 #define MDB_BAD_RSLOT          (-30783)
-       /** Transaction cannot recover - it must be aborted */
+       /** Transaction must abort, has a child, or is invalid */
 #define MDB_BAD_TXN                    (-30782)
        /** Unsupported size of key/DB name/data, or wrong DUPFIXED size */
 #define MDB_BAD_VALSIZE                (-30781)
@@ -512,12 +537,14 @@ int  mdb_env_create(MDB_env **env);
         *              allowed. LMDB will still modify the lock file - except on read-only
         *              filesystems, where LMDB does not use locks.
         *      <li>#MDB_WRITEMAP
-        *              Use a writeable memory map unless MDB_RDONLY is set. This is faster
-        *              and uses fewer mallocs, but loses protection from application bugs
+        *              Use a writeable memory map unless MDB_RDONLY is set. This uses
+        *              fewer mallocs but loses protection from application bugs
         *              like wild pointer writes and other bad updates into the database.
+        *              This may be slightly faster for DBs that fit entirely in RAM, but
+        *              is slower for DBs larger than RAM.
         *              Incompatible with nested transactions.
-        *              Processes with and without MDB_WRITEMAP on the same environment do
-        *              not cooperate well.
+        *              Do not mix processes with and without MDB_WRITEMAP on the same
+        *              environment.  This can defeat durability (#mdb_env_sync etc).
         *      <li>#MDB_NOMETASYNC
         *              Flush system buffers to disk only once per transaction, omit the
         *              metadata flush. Defer that until the system flushes files to disk,
@@ -588,8 +615,8 @@ int  mdb_env_create(MDB_env **env);
         *              reserved in that case.
         *              This flag may be changed at any time using #mdb_env_set_flags().
         * </ul>
-        * @param[in] mode The UNIX permissions to set on created files. This parameter
-        * is ignored on Windows.
+        * @param[in] mode The UNIX permissions to set on created files and semaphores.
+        * This parameter is ignored on Windows.
         * @return A non-zero error value on failure and 0 on success. Some possible
         * errors are:
         * <ul>
@@ -653,6 +680,7 @@ int  mdb_env_copyfd(MDB_env *env, mdb_filehandle_t fd);
         *      <li>#MDB_CP_COMPACT - Perform compaction while copying: omit free
         *              pages and sequentially renumber all pages in output. This option
         *              consumes more CPU and runs more slowly than the default.
+        *              Currently it fails if the environment has suffered a page leak.
         * </ul>
         * @return A non-zero error value on failure and 0 on success.
         */
@@ -698,7 +726,8 @@ int  mdb_env_info(MDB_env *env, MDB_envinfo *stat);
         * Data is always written to disk when #mdb_txn_commit() is called,
         * but the operating system may keep it buffered. LMDB always flushes
         * the OS buffers upon commit as well, unless the environment was
-        * opened with #MDB_NOSYNC or in part #MDB_NOMETASYNC.
+        * opened with #MDB_NOSYNC or in part #MDB_NOMETASYNC. This call is
+        * not valid if the environment was opened with #MDB_RDONLY.
         * @param[in] env An environment handle returned by #mdb_env_create()
         * @param[in] force If non-zero, force a synchronous flush.  Otherwise
         *  if the environment has the #MDB_NOSYNC flag set the flushes
@@ -706,6 +735,7 @@ int  mdb_env_info(MDB_env *env, MDB_envinfo *stat);
         * @return A non-zero error value on failure and 0 on success. Some possible
         * errors are:
         * <ul>
+        *      <li>EACCES - the environment is read-only.
         *      <li>EINVAL - an invalid parameter was specified.
         *      <li>EIO - an error occurred during synchronization.
         * </ul>
@@ -765,6 +795,10 @@ int  mdb_env_get_flags(MDB_env *env, unsigned int *flags);
 int  mdb_env_get_path(MDB_env *env, const char **path);
 
        /** @brief Return the filedescriptor for the given environment.
+        *
+        * This function may be called after fork(), so the descriptor can be
+        * closed before exec*().  Other LMDB file descriptors have FD_CLOEXEC.
+        * (Until LMDB 0.9.18, only the lockfile had that.)
         *
         * @param[in] env An environment handle returned by #mdb_env_create()
         * @param[out] fd Address of a mdb_filehandle_t to contain the descriptor.
@@ -944,6 +978,17 @@ int  mdb_txn_begin(MDB_env *env, MDB_txn *parent, unsigned int flags, MDB_txn **
         */
 MDB_env *mdb_txn_env(MDB_txn *txn);
 
+       /** @brief Return the transaction's ID.
+        *
+        * This returns the identifier associated with this transaction. For a
+        * read-only transaction, this corresponds to the snapshot being read;
+        * concurrent readers will frequently have the same transaction ID.
+        *
+        * @param[in] txn A transaction handle returned by #mdb_txn_begin()
+        * @return A transaction ID, valid if input is an active transaction.
+        */
+size_t mdb_txn_id(MDB_txn *txn);
+
        /** @brief Commit all the operations of a transaction into the database.
         *
         * The transaction handle is freed. It and its cursors must not be used
@@ -1019,19 +1064,22 @@ int  mdb_txn_renew(MDB_txn *txn);
         * The database handle may be discarded by calling #mdb_dbi_close().
         * The old database handle is returned if the database was already open.
         * The handle may only be closed once.
+        *
         * The database handle will be private to the current transaction until
         * the transaction is successfully committed. If the transaction is
         * aborted the handle will be closed automatically.
-        * After a successful commit the
-        * handle will reside in the shared environment, and may be used
-        * by other transactions. This function must not be called from
-        * multiple concurrent transactions. A transaction that uses this function
-        * must finish (either commit or abort) before any other transaction may
-        * use this function.
+        * After a successful commit the handle will reside in the shared
+        * environment, and may be used by other transactions.
+        *
+        * This function must not be called from multiple concurrent
+        * transactions in the same process. A transaction that uses
+        * this function must finish (either commit or abort) before
+        * any other transaction in the process may use this function.
         *
         * To use named databases (with name != NULL), #mdb_env_set_maxdbs()
-        * must be called before opening the environment.  Database names
-        * are kept as keys in the unnamed database.
+        * must be called before opening the environment.  Database names are
+        * keys in the unnamed database, and may be read but not written.
+        *
         * @param[in] txn A transaction handle returned by #mdb_txn_begin()
         * @param[in] name The name of the database to open. If only a single
         *      database is needed in the environment, this value may be NULL.
@@ -1048,18 +1096,19 @@ int  mdb_txn_renew(MDB_txn *txn);
         *              keys may have multiple data items, stored in sorted order.) By default
         *              keys must be unique and may have only a single data item.
         *      <li>#MDB_INTEGERKEY
-        *              Keys are binary integers in native byte order. Setting this option
-        *              requires all keys to be the same size, typically sizeof(int)
-        *              or sizeof(size_t).
+        *              Keys are binary integers in native byte order, either unsigned int
+        *              or size_t, and will be sorted as such.
+        *              The keys must all be of the same size.
         *      <li>#MDB_DUPFIXED
         *              This flag may only be used in combination with #MDB_DUPSORT. This option
         *              tells the library that the data items for this database are all the same
         *              size, which allows further optimizations in storage and retrieval. When
-        *              all data items are the same size, the #MDB_GET_MULTIPLE and #MDB_NEXT_MULTIPLE
-        *              cursor operations may be used to retrieve multiple items at once.
+        *              all data items are the same size, the #MDB_GET_MULTIPLE, #MDB_NEXT_MULTIPLE
+        *              and #MDB_PREV_MULTIPLE cursor operations may be used to retrieve multiple
+        *              items at once.
         *      <li>#MDB_INTEGERDUP
-        *              This option specifies that duplicate data items are also integers, and
-        *              should be sorted as such.
+        *              This option specifies that duplicate data items are binary integers,
+        *              similar to #MDB_INTEGERKEY keys.
         *      <li>#MDB_REVERSEDUP
         *              This option specifies that duplicate data items should be compared as
         *              strings in reverse order.
@@ -1268,12 +1317,12 @@ int  mdb_get(MDB_txn *txn, MDB_dbi dbi, MDB_val *key, MDB_val *data);
         *              the next update operation or the transaction ends. This saves
         *              an extra memcpy if the data is being generated later.
         *              LMDB does nothing else with this memory, the caller is expected
-        *              to modify all of the space requested.
+        *              to modify all of the space requested. This flag must not be
+        *              specified if the database was opened with #MDB_DUPSORT.
         *      <li>#MDB_APPEND - append the given key/data pair to the end of the
-        *              database. No key comparisons are performed. This option allows
-        *              fast bulk loading when keys are already known to be in the
-        *              correct order. Loading unsorted keys with this flag will cause
-        *              data corruption.
+        *              database. This option allows fast bulk loading when keys are
+        *              already known to be in the correct order. Loading unsorted keys
+        *              with this flag will cause a #MDB_KEYEXIST error.
         *      <li>#MDB_APPENDDUP - as above, but for sorted dup data.
         * </ul>
         * @return A non-zero error value on failure and 0 on success. Some possible
@@ -1425,13 +1474,15 @@ int  mdb_cursor_get(MDB_cursor *cursor, MDB_val *key, MDB_val *data,
         *              the database supports duplicates (#MDB_DUPSORT).
         *      <li>#MDB_RESERVE - reserve space for data of the given size, but
         *              don't copy the given data. Instead, return a pointer to the
-        *              reserved space, which the caller can fill in later. This saves
-        *              an extra memcpy if the data is being generated later.
+        *              reserved space, which the caller can fill in later - before
+        *              the next update operation or the transaction ends. This saves
+        *              an extra memcpy if the data is being generated later. This flag
+        *              must not be specified if the database was opened with #MDB_DUPSORT.
         *      <li>#MDB_APPEND - append the given key/data pair to the end of the
         *              database. No key comparisons are performed. This option allows
         *              fast bulk loading when keys are already known to be in the
         *              correct order. Loading unsorted keys with this flag will cause
-        *              data corruption.
+        *              a #MDB_KEYEXIST error.
         *      <li>#MDB_APPENDDUP - as above, but for sorted dup data.
         *      <li>#MDB_MULTIPLE - store multiple contiguous data elements in a
         *              single request. This flag may only be specified if the database
@@ -1449,7 +1500,7 @@ int  mdb_cursor_get(MDB_cursor *cursor, MDB_val *key, MDB_val *data,
         * <ul>
         *      <li>#MDB_MAP_FULL - the database is full, see #mdb_env_set_mapsize().
         *      <li>#MDB_TXN_FULL - the transaction has too many dirty pages.
-        *      <li>EACCES - an attempt was made to modify a read-only database.
+        *      <li>EACCES - an attempt was made to write in a read-only transaction.
         *      <li>EINVAL - an invalid parameter was specified.
         * </ul>
         */
@@ -1469,7 +1520,7 @@ int  mdb_cursor_put(MDB_cursor *cursor, MDB_val *key, MDB_val *data,
         * @return A non-zero error value on failure and 0 on success. Some possible
         * errors are:
         * <ul>
-        *      <li>EACCES - an attempt was made to modify a read-only database.
+        *      <li>EACCES - an attempt was made to write in a read-only transaction.
         *      <li>EINVAL - an invalid parameter was specified.
         * </ul>
         */