数据库大表优化

单表优化

除非单表数据未来会一直不断上涨，否则不要一开始就考虑拆分，拆分会带来逻辑、部署、运维的各种复杂度，一般以整型值为主的表在千万级以下，字符串为主的表在五百万级以下是没有太大问题的。
字段：
1.尽量使用TINYINT、SMALLINT、MEDIUM_INT作为整数类型而非INT，如果非负则加上UNSIGNED
2.VARCHAR的长度只分配真正需要的空间
3.使用枚举或整数代替字符串类型
4.尽量使用TIMESTAMP而非DATETIME，
5.单表不要有太多字段，建议在20以内
6.避免使用NULL字段，很难查询优化且占用额外索引空间
索引
1.索引并不是越多越好（会占用表空间），要根据查询有针对性的创建，考虑在WHERE和ORDER BY命令上涉及的列建立索引，可根据EXPLAIN来查看是否用了索引还是全表扫描
2.应尽量避免在WHERE子句中对字段进行NULL值判断，否则将导致引擎放弃使用索引而进行全表扫描
3.值分布很稀少的字段不适合建索引，例如"性别"这种只有两三个值的字段
4.字符字段只建前缀索引
5.字符字段最好不要做主键
6.不用外键，由程序保证约束
7.尽量不用UNIQUE，由程序保证约束
8.使用多列索引时主意顺序和查询条件保持一致，同时删除不必要的单列索引
查询
1.不做列运算：SELECT id WHERE age + 1 = 10，任何对列的操作都将导致全表扫描，它包括数据库教程函数、计算表达式等等，查询时要尽可能将操作移至等号右边
2.sql语句尽可能简单：一条sql只能在一个cpu运算；大语句拆小语句，减少锁时间；一条大sql可以堵死整个库
3.不用SELECT *,尽量只用所需字段
4.OR改写成IN：OR的效率是n级别，IN的效率是log(n)级别，in的个数建议控制在200以内
5.不用函数和触发器，在应用程序实现
6.避免%xxx式查询
7.少用子查询，建议改成JOIN，由于子查询会产生大量的临时表也没有索引，所以会消耗过多的 CPU 和 IO 资源，产生大量的慢查询
8.使用同类型进行比较，比如用’123’和’123’比，123和123比
9.尽量避免在WHERE子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描
10.对于连续数值，使用BETWEEN不用IN：SELECT id FROM t WHERE num BETWEEN 1 AND 5
11.列表数据不要拿全表，要使用LIMIT来分页，每页数量也不要太大

垂直分表

数据表列的拆分，把⼀张列⽐较多的表拆分为多张表。
在这里插入图片描述
优点：可以使得列数据变⼩，在查询时减少读取的Block数，减少I/O次数。此外，垂直分区可以简化表的结构，易于维护；
缺点：主键会出现冗余，需要管理冗余列，并会引起Join操作，可以通过在应⽤层进⾏Join来解决。此外，垂直分区会让事务变得更加复杂。

水平分表

⽔平拆分是指数据表行的拆分，把⼀张的表的数据拆成多张表来存放。数据表结构不变，通过某种策略存储数据分片。这样每⼀⽚数据分散到不同的表或者库中，达到了分布式的⽬的。
在这里插入图片描述
⽔平拆分可以⽀持⾮常⼤的数据量。需要注意的⼀点是：分表仅仅是解决了单⼀表数据过⼤的问题，但由于表的数据还是在同⼀台机器上，其实对于提升MySQL并发能⼒没有什么意义，所以⽔平拆分最好分库。
⽔平拆分能够⽀持⾮常⼤的数据量存储，应⽤端改造也少，但分片事务难以解决 ，跨节点Join性能差，逻辑复杂。所以尽量不要对数据进⾏分⽚，因为拆分会带来逻辑、部署、运维的各种复杂度 ，⼀般的数据表在优化得当的情况下⽀撑千万以下的数据量是没有太⼤问题的。如果实在要分⽚，尽量选择客户端分⽚架构，这样可以减少⼀次和中间件的网络I/O。

数据库分片的两种常见方案

客户端代理：分⽚逻辑在应⽤端，封装在jar包中，通过修改或者封装JDBC层来实现。当当⽹的Sharding-JDBC 、阿⾥的TDDL是两种比较常⽤的实现。
中间件代理：在应⽤和数据中间加了⼀个代理层。分⽚逻辑统⼀维护在中间件服务中。Mycat 、360的Atlas、⽹易的DDB等等都是这种架构的实现。

单表优化

垂直分表

水平分表

数据库分片的两种常见方案

猜你喜欢