B树的java源码实现

fmms 13年前

B树是为磁盘或其他直接存取辅助存储设置而设计的一种平衡查找树。其能够有效降低磁盘I/O操作次数。许多数据库系统使用B树或B树的变形来储存信息。参考《算法导论》第二版第十八章的思想使用java语言实现了一颗简单的B树,在此跟大家分享下:

package com.discover;    import java.util.ArrayList;  import java.util.LinkedList;  import java.util.List;  import java.util.Queue;  import java.util.Random;    import org.apache.commons.logging.Log;  import org.apache.commons.logging.LogFactory;    /**   * 一颗B树的简单实现。   * <p/>   * 其实现原理参考《算法导论》第二版第十八章。   * <p/>   * 如果大家想读懂这些源代码,不妨先看看上述章节。   *    * @author WangPing   *   * @param <K> - 键类型   * @param <V> - 值类型   */  public class BTree<K, V>  {   private static Log logger = LogFactory.getLog(BTree.class);      /**    * 在B树节点中搜索给定键值的返回结果。    * <p/>     * 该结果有两部分组成。第一部分表示此次查找是否成功,    * 如果查找成功,第二部分表示给定键值在B树节点中的位置,    * 如果查找失败,第二部分表示给定键值应该插入的位置。    */   private static class SearchResult   {    private boolean result;    private int index;        public SearchResult(boolean result, int index)    {     this.result = result;     this.index = index;    }        public boolean getResult()    {     return result;    }        public int getIndex()    {     return index;    }   }      /**    * 为了简单起见,暂时只支持整型的key,    * 等到工作完成后,支持泛型。     * <p/>    *     * TODO 需要考虑并发情况下的存取。    */   private static class BTreeNode   {    /** 节点的关键字,以非降序存放 */    private List<Integer> keys;    /** 内节点的子节点 */    private List<BTreeNode> children;    /** 是否为叶子节点 */    private boolean leaf;        public BTreeNode()    {     keys = new ArrayList<Integer>();     children = new ArrayList<BTreeNode>();     leaf = false;    }        public boolean isLeaf()    {     return leaf;    }        public void setLeaf(boolean leaf)    {     this.leaf = leaf;    }        /**     * 返回关键字的个数。如果是非叶子节点,该节点的     * 子节点个数为({@link #size()} + 1)。     *      * @return 关键字的个数     */    public int size()    {     return keys.size();    }        /**     * 在节点中查找给定的<code>key</code>,如果节点中存在给定的     * <code>key</code>,则返回一个<code>SearchResult</code>,     * 标识此次查找成功,给定<code>key</code>在节点中的索引和给定     * <code>key</code>对应的值。如果不存在,则返回<code>SearchResult</code>     * 标识此次查找失败,给定<code>key</code>应该插入的位置,该<code>key</code>     * 对应的值为null。     * <p/>     * 如果查找失败,返回结果中的索引域为[0, {@link #size()}];     * 如果查找成功,返回结果中的索引域为[0, {@link #size()} - 1]     * <p/>     * 这是一个二分查找算法,可以保证时间复杂度为O(log(t))。     *      * @param key - 给定的键值     * @return - 查找结果     */    public SearchResult searchKey(Integer key)    {     int l = 0;     int h = keys.size() - 1;     int mid = 0;     while(l <= h)     {      mid = (l + h) / 2; // 先这么写吧,BTree实现中,l+h不可能溢出      if(keys.get(mid) == key)       break;      else if(keys.get(mid) > key)       h = mid - 1;      else // if(keys.get(mid) < key)       l = mid + 1;     }     boolean result = false;     int index = 0;     if(l <= h) // 说明查找成功     {      result = true;      index = mid; // index表示元素所在的位置     }     else     {      result = false;      index = l; // index表示元素应该插入的位置     }     return new SearchResult(result, index);    }        /**     * 将给定的<code>key</code>追加到节点的末尾,     * 一定要确保调用该方法之后,节点中的关键字还是     * 以非降序存放。     *      * @param key - 给定的键值     */    public void addKey(Integer key)    {     keys.add(key);    }        /**     * 删除给定索引的键值。     * <p/>     * 你需要自己保证给定的索引是合法的。     *      * @param index - 给定的索引     */    public void removeKey(int index)    {     keys.remove(index);    }        /**     * 得到节点中给定索引的键值。     * <p/>     * 你需要自己保证给定的索引是合法的。     *      * @param index - 给定的索引     * @return 节点中给定索引的键值     */    public Integer keyAt(int index)    {     return keys.get(index);    }        /**     * 在该节点中插入给定的<code>key</code>,     * 该方法保证插入之后,其键值还是以非降序存放。     * <p/>     * 不过该方法的时间复杂度为O(t)。     * <p/>     * TODO 需要考虑键值是否可以重复。     *      * @param key - 给定的键值     */    public void insertKey(Integer key)    {     SearchResult result = searchKey(key);     insertKey(key, result.getIndex());    }        /**     * 在该节点中给定索引的位置插入给定的<code>key</code>,     * 你需要自己保证<code>key</code>插入了正确的位置。     *      * @param key - 给定的键值     * @param index - 给定的索引     */    public void insertKey(Integer key, int index)    {     /* TODO      * 通过新建一个ArrayList来实现插入真的很恶心,先这样吧      * 要是有类似C中的reallocate就好了。      */     List<Integer> newKeys = new ArrayList<Integer>();     int i = 0;          // index = 0或者index = keys.size()都没有问题     for(; i < index; ++ i)      newKeys.add(keys.get(i));     newKeys.add(key);     for(; i < keys.size(); ++ i)      newKeys.add(keys.get(i));     keys = newKeys;    }        /**     * 返回节点中给定索引的子节点。     * <p/>     * 你需要自己保证给定的索引是合法的。     *      * @param index - 给定的索引     * @return 给定索引对应的子节点     */    public BTreeNode childAt(int index)    {     if(isLeaf())      throw new UnsupportedOperationException("Leaf node doesn't have children.");     return children.get(index);    }        /**     * 将给定的子节点追加到该节点的末尾。     *      * @param child - 给定的子节点     */    public void addChild(BTreeNode child)    {     children.add(child);    }        /**     * 删除该节点中给定索引位置的子节点。     * </p>     * 你需要自己保证给定的索引是合法的。     *      * @param index - 给定的索引     */    public void removeChild(int index)    {     children.remove(index);    }        /**     * 将给定的子节点插入到该节点中给定索引     * 的位置。     *      * @param child - 给定的子节点     * @param index - 子节点带插入的位置     */    public void insertChild(BTreeNode child, int index)    {     List<BTreeNode> newChildren = new ArrayList<BTreeNode>();     int i = 0;     for(; i < index; ++ i)      newChildren.add(children.get(i));     newChildren.add(child);     for(; i < children.size(); ++ i)      newChildren.add(children.get(i));     children = newChildren;    }   }      private static final int DEFAULT_T = 2;      /** B树的根节点 */   private BTreeNode root;   /** 根据B树的定义,B树的每个非根节点的关键字数n满足(t - 1) <= n <= (2t - 1) */   private int t = DEFAULT_T;   /** 非根节点中最小的键值数 */   private int minKeySize = t - 1;   /** 非根节点中最大的键值数 */   private int maxKeySize = 2*t - 1;      public BTree()   {    root = new BTreeNode();    root.setLeaf(true);   }      public BTree(int t)   {    this();    this.t = t;    minKeySize = t - 1;    maxKeySize = 2*t - 1;   }      /**    * 搜索给定的<code>key</code>。    * <p/>    * TODO 需要重新定义返回结果,应该返回    * <code>key</code>对应的值。    *     * @param key - 给定的键值    * @return TODO 得返回值类型    */   public int search(Integer key)   {    return search(root, key);   }      /**    * 在以给定节点为根的子树中,递归搜索    * 给定的<code>key</code>    *     * @param node - 子树的根节点    * @param key - 给定的键值    * @return TODO    */   private static int search(BTreeNode node, Integer key)   {    SearchResult result = node.searchKey(key);    if(result.getResult())     return result.getIndex();    else    {     if(node.isLeaf())      return -1;     else       search(node.childAt(result.getIndex()), key);          }    return -1;   }      /**    * 分裂一个满子节点<code>childNode</code>。    * <p/>    * 你需要自己保证给定的子节点是满节点。    *     * @param parentNode - 父节点    * @param childNode - 满子节点    * @param index - 满子节点在父节点中的索引    */   private void splitNode(BTreeNode parentNode, BTreeNode childNode, int index)   {    assert childNode.size() == maxKeySize;        BTreeNode siblingNode = new BTreeNode();    siblingNode.setLeaf(childNode.isLeaf());    // 将满子节点中索引为[t, 2t - 2]的(t - 1)个关键字插入新的节点中    for(int i = 0; i < minKeySize; ++ i)     siblingNode.addKey(childNode.keyAt(t + i));    // 提取满子节点中的中间关键字,其索引为(t - 1)    Integer key = childNode.keyAt(t - 1);    // 删除满子节点中索引为[t - 1, 2t - 2]的t个关键字    for(int i = maxKeySize - 1; i >= t - 1; -- i)     childNode.removeKey(i);    if(!childNode.isLeaf()) // 如果满子节点不是叶节点,则还需要处理其子节点    {     // 将满子节点中索引为[t, 2t - 1]的t个子节点插入新的节点中     for(int i = 0; i < minKeySize + 1; ++ i)      siblingNode.addChild(childNode.childAt(t + i));     // 删除满子节点中索引为[t, 2t - 1]的t个子节点     for(int i = maxKeySize; i >= t; -- i)      childNode.removeChild(i);    }    // 将key插入父节点    parentNode.insertKey(key, index);    // 将新节点插入父节点    parentNode.insertChild(siblingNode, index + 1);   }      /**    * 在一个非满节点中插入给定的<code>key</code>。    *     * @param node - 非满节点    * @param key - 给定的键值    */   private void insertNotFull(BTreeNode node, Integer key)   {    assert node.size() < maxKeySize;        if(node.isLeaf()) // 如果是叶子节点,直接插入     node.insertKey(key);    else    {     /* 找到key在给定节点应该插入的位置,那么key应该插入      * 该位置对应的子树中      */     SearchResult result = node.searchKey(key);     BTreeNode childNode = node.childAt(result.getIndex());     if(childNode.size() == 2*t - 1) // 如果子节点是满节点     {      // 则先分裂      splitNode(node, childNode, result.getIndex());      /* 如果给定的key大于分裂之后新生成的键值,则需要插入该新键值的右边,       * 否则左边。       */      if(key > node.keyAt(result.getIndex()))       childNode = node.childAt(result.getIndex() + 1);     }     insertNotFull(childNode, key);    }   }      /**    * 在B树中插入给定的<code>key</code>。    *     * @param key - 给定的键值    */   public void insert(Integer key)   {    if(root.size() == maxKeySize) // 如果根节点满了,则B树长高    {     BTreeNode newRoot = new BTreeNode();     newRoot.setLeaf(false);     newRoot.addChild(root);     splitNode(newRoot, root, 0);     root = newRoot;    }    insertNotFull(root, key);   }      /**    * 从B树中删除一个给定的<code>key</code>。    *     * @param key - 给定的键值    */   public void delete(Integer key)   {    // root的情况还需要做一些特殊处理    delete(root, key);   }      /**    * 从以给定<code>node</code>为根的子树中删除指定的<code>key</code>。    * <p/>    * 删除的实现思想请参考《算法导论》第二版的第18章。    * <p/>    * TODO 需要重构,代码太长了    *     * @param node - 给定的节点    * @param key - 给定的键值    */   public void delete(BTreeNode node, Integer key)   {    // 该过程需要保证,对非根节点执行删除操作时,其关键字个数至少为t。    assert node.size() >= t || node == root;        SearchResult result = node.searchKey(key);    /*     * 因为这是查找成功的情况,0 <= result.getIndex() <= (node.size() - 1),     * 因此(result.getIndex() + 1)不会溢出。     */    if(result.getResult())    {     // 1.如果关键字在节点node中,并且是叶节点,则直接删除。     if(node.isLeaf())      node.removeKey(result.getIndex());     else     {      // 2.a 如果节点node中前于key的子节点包含至少t个关键字      BTreeNode leftChildNode = node.childAt(result.getIndex());      if(leftChildNode.size() >= t)      {       // 使用leftChildNode中的最后一个键值代替node中的key       node.removeKey(result.getIndex());       node.insertKey(leftChildNode.keyAt(leftChildNode.size() - 1), result.getIndex());       delete(leftChildNode, leftChildNode.keyAt(leftChildNode.size() - 1));       // node.      }      else      {       // 2.b 如果节点node中后于key的子节点包含至少t个关键字       BTreeNode rightChildNode = node.childAt(result.getIndex() + 1);       if(rightChildNode.size() >= t)       {        // 使用rightChildNode中的第一个键值代替node中的key        node.removeKey(result.getIndex());        node.insertKey(rightChildNode.keyAt(0), result.getIndex());        delete(rightChildNode, rightChildNode.keyAt(0));       }       else // 2.c 前于key和后于key的子节点都只包含t-1个关键字       {        node.removeKey(result.getIndex());        node.removeChild(result.getIndex() + 1);        // 将key和rightChildNode中的键值合并进leftChildNode        leftChildNode.addKey(key);        for(int i = 0; i < rightChildNode.size(); ++ i)         leftChildNode.addKey(rightChildNode.keyAt(i));        // 将rightChildNode中的子节点合并进leftChildNode,如果有的话        if(!rightChildNode.isLeaf())        {         for(int i = 0; i <= rightChildNode.size(); ++ i)          leftChildNode.addChild(rightChildNode.childAt(i));        }        delete(leftChildNode, key);       }      }     }    }    else    {     /*      * 因为这是查找失败的情况,0 <= result.getIndex() <= node.size(),      * 因此(result.getIndex() + 1)会溢出。      */     if(node.isLeaf()) // 如果关键字不在节点node中,并且是叶节点,则什么都不做,因为该关键字不在该B树中     {      logger.info("The key: " + key + " isn't in this BTree.");      return;     }     BTreeNode childNode = node.childAt(result.getIndex());     if(childNode.size() >= t)      delete(childNode, key); // 递归删除     else // 3     {      // 先查找右边的兄弟节点      BTreeNode siblingNode = null;      int siblingIndex = -1;      if(result.getIndex() < node.size()) // 存在右兄弟节点      {       if(node.childAt(result.getIndex() + 1).size() >= t)       {        siblingNode = node.childAt(result.getIndex() + 1);        siblingIndex = result.getIndex() + 1;       }      }      // 如果右边的兄弟节点不符合条件,则试试左边的兄弟节点      if(siblingNode == null)      {       if(result.getIndex() > 0) // 存在左兄弟节点       {        if(node.childAt(result.getIndex() - 1).size() >= t)        {         siblingNode = node.childAt(result.getIndex() - 1);         siblingIndex = result.getIndex() - 1;        }       }      }      // 3.a 有一个相邻兄弟节点至少包含t个关键字      if(siblingNode != null)      {       if(siblingIndex < result.getIndex()) // 左兄弟节点满足条件       {        childNode.insertKey(node.keyAt(siblingIndex), 0);        node.removeKey(siblingIndex);        node.insertKey(siblingNode.keyAt(siblingNode.size() - 1), siblingIndex);        siblingNode.removeKey(siblingNode.size() - 1);        // 将左兄弟节点的最后一个孩子移到childNode        if(!siblingNode.isLeaf())        {         childNode.insertChild(siblingNode.childAt(siblingNode.size()), 0);         siblingNode.removeChild(siblingNode.size());        }       }       else // 右兄弟节点满足条件       {        childNode.insertKey(node.keyAt(result.getIndex()), childNode.size() - 1);        node.removeKey(result.getIndex());        node.insertKey(siblingNode.keyAt(0), result.getIndex());        siblingNode.removeKey(0);        // 将右兄弟节点的第一个孩子移到childNode        // childNode.insertChild(siblingNode.childAt(0), childNode.size() + 1);        if(!siblingNode.isLeaf())        {         childNode.addChild(siblingNode.childAt(0));         siblingNode.removeChild(0);        }       }       delete(childNode, key);      }      else // 3.b 如果其相邻左右节点都包含t-1个关键字      {       if(result.getIndex() < node.size()) // 存在右兄弟       {        BTreeNode rightSiblingNode = node.childAt(result.getIndex() + 1);        childNode.addKey(node.keyAt(result.getIndex()));        node.removeKey(result.getIndex());        node.removeChild(result.getIndex() + 1);        for(int i = 0; i < rightSiblingNode.size(); ++ i)         childNode.addKey(rightSiblingNode.keyAt(i));        if(!rightSiblingNode.isLeaf())        {         for(int i = 0; i <= rightSiblingNode.size(); ++ i)          childNode.addChild(rightSiblingNode.childAt(i));        }       }       else // 存在左节点       {        BTreeNode leftSiblingNode = node.childAt(result.getIndex() - 1);        childNode.addKey(node.keyAt(result.getIndex() - 1));        node.removeKey(result.getIndex() - 1);        node.removeChild(result.getIndex() - 1);        for(int i = leftSiblingNode.size() - 1; i >= 0; -- i)         childNode.insertKey(leftSiblingNode.keyAt(i), 0);        if(!leftSiblingNode.isLeaf())        {         for(int i = leftSiblingNode.size(); i >= 0; -- i)          childNode.insertChild(leftSiblingNode.childAt(i), 0);        }       }       // 如果node是root并且node不包含任何关键字了       if(node == root && node.size() == 0)        root = childNode;       delete(childNode, key);      }     }    }   }      /**    * 一个简单的层次遍历B树实现,用于输出B树。    * <p/>    * TODO 待改进,使显示更加形象化。    */   public void output()   {    Queue<BTreeNode> queue = new LinkedList<BTreeNode>();    queue.offer(root);    while(!queue.isEmpty())    {     BTreeNode node = queue.poll();     for(int i = 0; i < node.size(); ++ i)      System.out.print(node.keyAt(i) + " ");     System.out.println();     if(!node.isLeaf())     {      for(int i = 0; i <= node.size(); ++ i)       queue.offer(node.childAt(i));     }    }   }      public static void main(String[] args)   {    Random random = new Random();    BTree<Integer, Byte[]> btree = new BTree<Integer, Byte[]>();    for(int i = 0; i < 10; ++ i)    {     int r = random.nextInt(100);     System.out.println(r);     btree.insert(r);    }    System.out.println("----------------------");    btree.output();   }  }
转自:http://blog.csdn.net/wangpingfang/article/details/7426943