请问在座的程序员心里都有点B树吗?

请问在座的程序员心里都有点B树吗?

序:

    这几天周杰伦霸占微博超话榜首,并且这种势头势必会延续下去。作为“奶茶伦”的二十年老粉的我深以为傲,但却苦于抢不到我伦的演唱会门票。据说周杰伦演唱会10万人观看已经创下全国纪录,忽而灵光一现,10万人的会场如何快速找到属于自己的座位呢?这个问题好像和数据库索引的使用场景有些相似?那么问题来了,数据库索引的底层原理究竟是怎么一回事,各位心里究竟有没有点B树呢?(请原谅我的粗口~)

    要了解数据库索引的底层原理,我们就得先了解一种叫树的数据结构,而树中很经典的一种数据结构就是二叉树!所以下面我们就从二叉树到平衡二叉树,再到B-树,最后到B+树来一步一步了解数据库索引底层的原理!

二叉树

    二叉树是每个节点最多有两个子树的树结构。通常子树被称作“左子树”(left subtree)和右子树(right subtree)。二叉树常被用于实现二叉查找树和二叉堆。二叉树有如下特性:

  • 每个节点都包含一个元素以及n个子树,这里0<=n<=2。

  • 左子树和右子树是有顺序的,次序不能任意颠倒。左子树的值要小于父节点,右子树的值要大于父节点。

    光看概念当然是枯燥的了。假设我们现在有这样一组数[35 27 48 12 29 38 55],顺序的插入到一个数的结构中,步骤如下:

    OK,大功告成。经过了一系列的插入我们将无序的数组转成有序的数组,手工组成了一棵二叉树,满足上面提到的二叉树的两条特性,并且还是一颗特殊的二叉树——平衡二叉树。

    但是,如果将上面给出的无序数组自己升序处理后再插入,也就是按照[12 27 29 35 38 48 55]的顺序插入会是怎样的结果呢。

    由于是升序插入的,所以“下一节点总是在当前节点的右下方”,此时的数据结构更像是一个线性链表。这样的数据结构查询效率当然就低了,完全没有了“树”结构的意义,所以说,为了提高效率,二叉树要进化成“平衡二叉树”。

平衡二叉树

平衡二叉树是一种特殊的二叉树,所以他也满足前面说到的二叉树的两个特性,同时还有一个特性:

  • 它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。

大家也看到了前面[35 27 48 12 29 38 55]插入完成后的图,其实就已经是一颗平衡二叉树啦。

  那如果按照[12 27 29 35 38 48 55]的顺序插入一颗平衡二叉树,会怎么样呢?我们看看插入以及平衡的过程:

    这棵树始终满足平衡二叉树的几个特性而保持平衡!这样我们的树也不会退化为线性链表了!我们需要查找一个数的时候就能沿着树根一直往下找,这样的查找效率和二分法查找是一样的呢!

    一棵平衡二叉树能容纳多少节点与树的高度是有关系的,假设树的高度为h,那每一层最多容纳的节点数量为2^(n-1),整棵树最多容纳节点数为2^0+2^1+2^2+…+2^(h-1)。这样计算,100w数据树的高度大概在20左右,那也就是说从有100w数据的平衡二叉树中找一个数据,最坏的情况下需要20此查找,如果是内存操作,效率也是很高的!但是我们数据库中的数据基本都是放在磁盘中的,每读取一个二叉树的节点就是一次磁盘IO,这样我们找一条数据如果要经过20次磁盘的IO,那么性能就成了一个很大的问题!那么我们是不是把这颗树压缩一下,让每一层能容纳更多的节点呢?虽然我是个矮子,但是我也是个胖子,所谓的B-Tree就是这样的“矮胖子”。

B-Tree

一棵m阶的B-Tree有如下特性:

1、每个结点最多m个子结点。

2、除了根结点和叶子结点外,每个结点最少有m/2(向上取整)个子结点。

3、如果根结点不是叶子结点,那根结点至少包含两个子结点。

4、所有的叶子结点都位于同一层。

5、每个结点都包含k个元素(关键字),这里m/2≤k<m,这里m 2向下取整。

6、每个元素(关键字)字左结点的值,都小于或等于该元素(关键字)。

7、右结点的值都大于或等于该元素(关键字)。

    初读以上几点的时候是不是和产品的需求文档一样,列一堆需求,晦涩难懂,完全不知所云,并且每一条需求都让你十分的懵逼。下面我们以一个[0,1,2,3,4,5,6,7]的数组插入一颗3阶的B-Tree为例,将所有的条件都串起来,你就明白了!

    在二叉树中,每个节点只有一个元素。但是在B-tree中,每个节点都可能包含多个元素,并且非叶子节点在元素的左右都有指向子节点的指针。

    如果需要查找一个元素,那流程是怎么样的呢?我们看下图,如果我们要在下面的B-Tree中找到关键字24,那流程如下:

    从这个流程我们能看出,B-Tree的查询效率好像也并不比平衡二叉树高。但是查询所经过的结点数量要少很多,也就意味着要少很多次的磁盘IO,这对 性能的提升是很大的。

    前面对B-Tree操作的图我们能看出来,元素就是类似1、2、3这样的数值,但是数据库的数据都是一条条的数据,如果某个数据库以B-Tree的数据结构存储数据,那数据怎么存放的呢?我们看下一张图:

    普通的B-Tree的结点中,元素就是一个个的数字。但是上图中,我们把元素部分拆分成了key-data的形式,key就是数据的主键,data就是具体的数据。这样我们在找一条数的时候,就沿着根结点往下找就ok了,效率是比较高的。

B+Tree

B+Tree是在B-Tree基础上的一种优化,使其更适合实现外存储索引结构。B-Tree与B-Tree的结构很像,但是也有几个自己的特性:

  • 所有的非叶子节点只存储关键字信息。

  • 所有卫星数据(具体数据)都存在叶子节点中。

  • 所有的叶子节点中包含了全部元素的信息。

  • 所有的叶子节点之间都有一个链指针。

如果上面B-Tree的图变成B+Tree,那应该如下:

    大家仔细对比于B-Tree的图能发现什么不同?   

1、非叶子结点上已经只有key信息了,满足上面第1点特性!   

2、所有叶子结点下面都有一个data区域,满足上面第2点特性!   

3、非叶子结点的数据在叶子结点上都能找到,如根结点的元素4、8在最底层的叶子结点上也能找到,满足上面第3点特性!

4、注意图中叶子结点之间的箭头,满足满足上面第4点特性!

注意:

    B+Tree的这种子叶子结点互相指向的数据结构,我们可以参照双向链表,这种数据结构在做区间查询的时候效率非常高,所以当面试官问到为什么数据库的主键要有索引的时候可以套用B+Tree的知识点来进行回答。

B-Tree or B+Tree

    在说明这两种数据结构在数据库中的选择之前,我们还需要了解的一个知识点是操作系统从磁盘读取数据到内存是以磁盘块(block)为基本单位的,位于同一个磁盘块中的数据会被一次性读取出来,而不是需要什么取什么。即使只需要一个字节,磁盘也会从这个位置开始,顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理:当一个数据被用到时,其附近的数据也通常会马上被使用。

    预读的长度一般为页(page)的整倍数。页是计算机管理存储器的逻辑块,硬件及操作系统往往将主存和磁盘存储区分割为连续大小相等的块,每个存储块称为一页(在许多操作系统中,页的大小通常为4k)。

那么B-Tree or B+Tree该如何选择呢?都有哪些优势呢?

1、B-Tree因为非叶子结点也保存具体数据,所以在查找某个关键字的时候找到即可返回。而B+Tree所有的数据都在叶子结点,每次查找都得到叶子结点。所以在同样高度的B-Tree和B+Tree中,B-Tree查找某个关键字的效率更高。

2、由于B+Tree所有的数据都在叶子结点,并且结点之间有指针连接,在找大于某个关键字或者小于某个关键字的数据的时候,B+Tree只需要找到该关键字然后沿着链表遍历就可以了,而B-Tree还需要遍历该关键字结点的根结点去搜索。

3、由于B-Tree的每个结点(这里的结点可以理解为一个数据页)都存储主键+实际数据,而B+Tree非叶子结点只存储关键字信息,而每个页的大小有限是有限的,所以同一页能存储的B-Tree的数据会比B+Tree存储的更少。这样同样总量的数据,B-Tree的深度会更大,增大查询时的磁盘I/O次数,进而影响查询效率。

    由于B-Tree的每个结点(这里的结点可以理解为一个数据页)都存储主键+实际数据,而B+Tree非叶子结点只存储关键字信息,而每个页的大小有限是有限的,所以同一页能存储的B-Tree的数据会比B+Tree存储的更少。这样同样总量的数据,B-Tree的深度会更大,增大查询时的磁盘I/O次数,进而影响查询效率。

innodb引擎数据存储

    在InnoDB存储引擎中,也有页的概念,默认每个页的大小为16K,也就是每次读取数据时都是读取4*4k的大小!假设我们现在有一个用户表,我们往里面写数据:

        这里需要注意的一点是,在某个页内插入新行时,为了不减少数据的移动,通常是插入到当前行的后面或者是已删除行留下来的空间,所以在某一个页内的数据并不是完全有序的(后面页结构部分有细讲),但是为了为了数据访问顺序性,在每个记录中都有一个指向下一条记录的指针,以此构成了一条单向有序链表,不过在这里为了方便演示我是按顺序排列的!

  由于数据还比较少,一个页就能容下,所以只有一个根结点,主键和数据也都是保存在根结点(左边的数字代表主键,右边名字、性别代表具体的数据)。假设我们写入10条数据之后,Page1满了,再写入新的数据会怎么存放呢?我们继续看下图

    有个叫“秦寿生”的朋友来了,但是Page1已经放不下数据了,这时候就需要进行页分裂,产生一个新的Page。在innodb中的流程是怎么样的呢?

1、产生新的Page2,然后将Page1的内容复制到Page2。

2、产生新的Page3,“秦寿生”的数据放入Page3。

3、原来的Page1依然作为根结点,但是变成了一个不存放数据只存放索引的页,并且有两个子结点Page2、Page3。

    这里有两个问题需要注意的是
1、为什么以page1为蓝本复制出page2而不是创建一个新的页作为根结点,这样就少了一步复制的开销了?

    如果是重新创建根结点,那根结点存储的物理地址可能经常会变,不利于查找。并且在innodb中根结点是会预读到内存中的,所以结点的物理地址固定会比较好!

2、原来Page1有10条数据,在插入第11条数据的时候进行裂变,根据前面对B-Tree、B+Tree特性的了解,那这至少是一颗11阶的树,裂变之后每个结点的元素至少为11/2=5个,那是不是应该页裂变之后主键1-5的数据还是在原来的页,主键6-11的数据会放到新的页,根结点存放主键6?

    如果是这样的话新的页空间利用率只有50%,并且会导致更为频繁的页分裂。所以innodb对这一点做了优化,新的数据放入新创建的页,不移动原有页面的任何记录。这样每次空间的利用率都能接近100%。

随着数据的不断写入,这棵树也逐渐枝繁叶茂,如下图:

注意:

    为什么在innodb中建议设置主键自增?这个问题也是一个很经典的面试题。原因是,主键自增写入时新插入的数据不会影响到原有页,插入效率高!且页的利用率高!但是如果主键是无序的或者随机的,那每次的插入可能会导致原有页频繁的分裂,影响插入效率!降低页的利用率!

    这棵树的非叶子结点上存的都是主键,那如果一个表没有主键会怎么样?在innodb中,如果一个表没有主键,那默认会找建了唯一索引的列,如果也没有,则会生成一个隐形的字段作为主键。所以说在innodb的数据库存储引擎中,每一张数据库表都有一个主键。

     有数据插入那就有删除,如果这个用户表频繁的插入和删除,那会导致数据页产生碎片,页的空间利用率低,还会导致树变的“虚高”,降低查询效率!这可以通过索引重建来消除碎片提高查询效率!

innodb引擎数据查找

数据插入后如何查找呢?

1、找到数据所在的页。这个查找过程就跟前面说到的B+Tree的搜索过程是一样的,从根结点开始查找一直到叶子结点。

2、在页内找具体的数据。读取第1步找到的叶子结点数据到内存中,然后通过分块查找的方法找到具体的数据。

    这跟我们在新华字典中找某个汉字是一样的,先通过字典的索引定位到该汉字拼音所在的页,然后到指定的页找到具体的汉字。innodb中定位到页后用了哪种策略快速查找某个主键呢?这我们就需要从页结构开始了解。

页结构如下图:

1.左边蓝色区域称为Page Directory,这块区域由多个slot组成,是一个稀疏索引结构,即一个槽中可能属于多个记录,最少属于4条记录,最多属于8条记录。槽内的数据是有序存放的,所以当我们寻找一条数据的时候可以先在槽中通过二分法查找到一个大致的位置。

2.右边区域为数据区域,每一个数据页中都包含多条行数据。注意看图中最上面和最下面的两条特殊的行记录Infimum和Supremum,这是两个虚拟的行记录。在没有其他用户数据的时候Infimum的下一条记录的指针指向Supremum,当有用户数据的时候,Infimum的下一条记录的指针指向当前页中最小的用户记录,当前页中最大的用户记录的下一条记录的指针指向Supremum,至此整个页内的所有行记录形成一个单向链表

3.行记录被Page Directory逻辑的分成了多个块,块与块之间是有序的,也就是说“4”这个槽指向的数据块内最大的行记录的主键都要比“8”这个槽指向的数据块内最小的行记录的主键要小。但是块内部的行记录不一定有序

4.每个行记录的都有一个nowned的区域(图中粉红色区域),nowned标识这个这个块有多少条数据,伪记录Infimum的nowned值总是1,记录Supremum的nowned的取值范围为[1,8],其他用户记录nowned的取值范围[4,8],并且只有每个块中最大的那条记录的nowned才会有值,其他的用户记录的n_owned为0。

5.所以当我们要找主键为6的记录时,先通过二分法稀疏索引中找到对应的槽,也就是Page Directory中“8”这个槽,“8”这个槽指向的是该数据块中最大的记录,而数据是单向链表结构所以无法逆向查找,所以需要找到上一个槽即“4”这个槽,然后通过“4”这个槽中最大的用户记录的指针沿着链表顺序查找到目标记录。

聚簇索引&非聚簇索引

以上数据存储的演示都属于聚簇索引,如果上面的用户表需要以用户名字创建一个“非聚簇索引”,是怎么实现的呢?我们看下图:

      非聚集索引的存储结构与前面是一样的,不同的是在叶子结点的数据部分存的不再是具体的数据,而数据的聚集索引的key。所以通过非聚集索引查找的过程是先找到该索引key对应的聚集索引的key,然后再拿聚集索引的key到主键索引树上查找对应的数据,这个过程称为回表

innodb与MyISAM两种存储引擎对比

     上面包括存储和搜索都是拿的innodb引擎为例,那MyISAM与innodb在存储上有啥不同呢?憋缩话,看图(MyISAM主键索引的存储结构):

      不同的是:

1、主键索引树的叶子结点的数据区域没有存放实际的数据,存放的是数据记录的地址。

2、数据的存储不是按主键顺序存放的,按写入的顺序存放。

      也就是说innodb引擎数据在物理上是按主键顺序存放,而MyISAM引擎数据在物理上按插入的顺序存放。并且MyISAM的叶子结点不存放数据,所以非聚集索引的存储结构与聚集索引类似,在使用非聚集索引查找数据的时候通过非聚集索引树就能直接找到数据的地址了,不需要回表,这比innodb的搜索效率会更高呢!

结:

    1.文章参考《数据结构与算法经典问题解析》、《MySQL数据库应用》。其次感谢知乎老刘提供的图片内容。

    2.文章中提及到的人名均来源于网络,如有雷同就是为了针对你嘻嘻嘻。

    3.有关于索引相关的知识还有很多,会随着不断的深入学习与实战总结出,分享到平台上。

    4.如果你也想在技术的道路上一往无前,欢迎关注!

......

我变秃了!也变强了!

发布了36 篇原创文章 · 获赞 46 · 访问量 7871

猜你喜欢

转载自blog.csdn.net/weixin_41860630/article/details/97136170
今日推荐