表的主键和索引

出处:深入浅出索引原理

技术贴:索引建立、删除及使用

--------------------------------------------

主键是啥

唯一标识一条记录,不能有重复的,不允许为空。

索引是啥

索引就像书的目录, 通过书的目录就准确的定位到了书籍具体的内容

这句话描述的非常正确, 但说了跟没说一样,所以还是要看原理。想要理解索引原理必须清楚一种数据结构「平衡树」(非二叉),也就是b tree或者 b+ tree。

平衡树(b tree)

(原理不写了)

不设主键的表,只是一条条数据;设置了主键的表,存储结构就变成了树状结构,如下图所示。

查询的时候:

假如一张表有一亿条数据 ,需要查找其中某一条数据,按照常规逻辑, 一条一条的去匹配的话, 最坏的情况下需要匹配一亿次才能得到结果,用大O标记法就是O(n)最坏时间复杂度,这是无法接受的,而且这一亿条数据显然不能一次性读入内存供程序使用, 因此, 这一亿次匹配在不经缓存优化的情况下就是一亿次IO开销,以现在磁盘的IO能力和CPU的运算能力, 有可能需要几个月才能得出结果 。如果把这张表转换成平衡树结构(一棵非常茂盛和节点非常多的树),假设这棵树有10层,那么只需要10次IO开销就能查找到所需要的数据, 速度以指数级别提升,用大O标记法就是O(log n),n是记录总树,底数是树的分叉数,结果就是树的层次数。换言之,查找次数是以树的分叉数为底,记录总数的对数,用公式来表示就是

用程序来表示就是Math.Log(100000000,10),100000000是记录数,10是树的分叉数(真实环境下分叉数远不止10), 结果就是查找次数,这里的结果从亿降到了个位数。因此,利用索引会使数据库查询有惊人的性能提升。

But!

事物都是有两面的, 索引能让数据库查询数据的速度上升, 而使写入数据的速度下降,原因很简单的, 因为平衡树这个结构必须一直维持在一个正确的状态, 增删改数据都会改变平衡树各节点中的索引数据内容,破坏树结构, 因此,在每次数据改变时, DBMS必须去重新梳理树(索引)的结构以确保它的正确,这会带来不小的性能开销,也就是为什么索引会给查询以外的操作带来副作用的原因。

note:

1. 索引就是对一个表的某个字段,或者多个字段(联合索引)建立一种特殊的存储结构(b tree)。

    主键是索引的一种,是唯一索引的特殊类型。创建主键的时候,数据库默认会为主键创建一个唯一索引。

2. 使用索引的注意事项:

  • 联合索引必须按照字段依次使用,否则后面字段不生效
  • 当联合索引嵌套函数的时候,索引不生效

3. 以下几种情况不适合建索引:

  • 表记录太少
  • 经常插入、删除、修改的表
  • 数据重复且分布平均的表字段。如一个表有10万行记录,其中字段column1只有A和B两种值,且每个值的分布概率大约为50%,那么对这种表column1字段建索引一般不会提高数据库的查询速度。

猜你喜欢

转载自blog.csdn.net/zdz0200/article/details/81774056