数据结构-BTree B+Tree 红黑树二叉树 lucene数据结构倒排索引。总结。

数据结构很好的示例网站：
https://www.cs.usfca.edu/~galles/visualization/Algorithms.html
该网站将数据结构图动态的分析出来了里面有各种种类数据结构
在这里插入图片描述
二叉树：
二叉树会将新增的数据进行排序小的在左侧打的在右侧新增时每一个节点进行判断。

缺点：若相同都会往右侧添加。

因此衍生红黑树。
红黑树：
红黑树每次新增时会进行判断将小的添加到左侧大的添加到右侧相同都会往右侧进行新增然后提取数据中间部分提取出做分母节点。
在这里插入图片描述
缺点：层级太多要是查询较大数据会进行太多次IO 固衍生B TREE
B Tree：
B Tree 将层级缩小一次IO取多个数据然后进行判断比对大的将加入到右侧小的加入到右侧
缺点：B Tree 中每一个数据ID 会跟一个Data 这样每次对比IO流数据量较大则揽胜出B+Tree 会将data加入到叶子节点每个分母节点都有对应的叶子节点用于存储data。
B+Tree:
B+Tree 数据从左到右从小到大若是中文则根据二进制数据比对大小进行存放 B+Tree 的data 都存放在叶子节点中 B+Tree 和B Tree 还有不同在于叶子节点会有指正有小到大指向在末尾在指向到头。这也就是说明 data都存储在叶子节点中。
目前Mysql innodb结构默认使用的就是B+Tree 索引数据结构
当然 Mysql中还有hash索引结构 Hash索引结构查询ID相等的数据非常快速但是满足的业务较少比如说要检索大于小于速度会比B+Tree慢很多所以一般使用B+Tree 索引结构在这里插入图片描述

另外还有Lucene 数据结构
倒排索引：
每一个分词过的Key 对应的一个ID
ID相同词不同一个词可以对应多个ID 我猜想 ID 可能是1,2,3,4这样存储所以可以通过该词查出这些ID
lucene 分页取数据纯内存操作如果要做分页千万不能分太多页如果有千万级数据分页到最后一页内存吃不消会炸掉。相当于for循环了千万以前的数据在取后面的数据。
lucene取数据当然也不是单纯的从1到100 lucene取数据有跳表的概念类似于 B+Tree 有分母节点用于判断是否大于或小于
lucene存数据是将数据压缩后进行存储的，存储数据时也会将TF/IDF 进行计算
通过TF/IDF 进行排序
TF：词频
DF：该词在别的文章中出现的次数比如说的在所有文章都有则 ‘的’ 的DF很大那么IDF 很小
IDF：DF取反 DF越小IDF越大

本文到此结束，希望能给予大家帮助。

数据结构-BTree B+Tree 红黑树 二叉树 lucene数据结构倒排索引。总结。

猜你喜欢

数据结构-BTree B+Tree 红黑树二叉树 lucene数据结构倒排索引。总结。