一、背景

这是电商数据库设计及优化学习笔记的一个部分，这个部分主要是数据库设计规范的内容。

二、数据库设计规范

主要分为逻辑设计和物理设计
在实际工作中在进行逻辑设计时也会进行相应的物理设计。
物理设计包括设计表名、字段名、字段类型等等。
在公司中工作时如果公司中已经有的数据库设计规范，那么一定要按照公司中的规范来设计数据库，如果公司还没有规范，要尽快建立起规范。
在本次项目中的规范：
*数据库命名规范：
用数据库命名策略，帮助我们从数据库名称就能了解数据库的内容以及作用。
*数据库基本设计规范：
常见的数据库的设计方式
*数据库索引设计规范：
提供了一些索引选择的常规方式和索引优化的建议和技巧。
*数据库字段设计规范：
正常情况下该如何选择字段的类型
*SQL开发规范
帮助开发人员编写更好的SQL语句
*数据库操作行为规范
统一运维标准，减少因为运维因素而导致的数据库故障

6.本项目中数据库规范的具体内容

6.1 数据库命名规范：

所有的数据库名、列名必须使用小写字母，每个词语之间用下划线进行分割；

所有的数据库名称禁止使用MySQL保留关键字；

数据库对象的命名要能做到见名识义，最好不要超过32个字符；
表名列名太长了不仅不方便使用，还会增加网络传输开销。

临时库表必须以tmp为前缀，以日期为后缀；

备份库，备份表必须以bak为前缀并以日期为后缀；

所以存储相同数据的列名和列类型必须一致；

6.2 数据库存储规范：

所有表必须使用Innodb存储引擎；
如今的mysql版本来说，所有的新开发的应用，如果没有特殊需求都应该使用Innodb存储引擎。
这是mysql5.6以后的默认引擎，支持事务，行级锁，具有更好的恢复性，高并发下性能更好

数据库和表的字符集统一使用UTF8
原因：兼容性好。统一可以避免由于字符集不统一而产生乱码。 mysql中 UTF8汉字占用3个字节，ASCLL码占用1个字节。

所有的表和字段都要添加注释；

在建表时使用comment从句添加表和列的备注。这样做的目的是从一开始就进行数据字典的维护。

尽量控制单表数据量大小，建议控制在500w行以内
但是500w不是数据库的限制，限制取决于存储设备和文件系统。控制大小的方法：可以用历史数据归档和分库分表（主要用于业务数据上）等手段。

谨慎使用mysql分区表；
分区表在物理上表现为多个文件，逻辑上表现为一个表。使用分区表要谨慎选择分区键，跨分区查询效率可能更低。建议采用物理分表的方式管理大数据

尽量做到冷热数据分离，减少表的宽度；
是为了减少磁盘io，保证热数据的内存缓存命中率。更有效地利用缓存，避免读入无用的冷数据。经常一起使用的列放到同一个表中

禁止在表中使用预留字段
预留字段的命名很难做到见名识义预留字段无法确认存储的数据类型，所以无法选择合适的类型对预留字段类型的修改会对表进行锁定
修改字段类型的成本远大于增加字段

禁止在数据库中存储图片，文件等二进制数据
正确的做法是图片文件存储到服务器中，在数据库中存储地址

禁止在线上做数据库压力测试环境；

禁止从开发环境、测试环境、来直接连接生产环境的数据库；

6.3 索引设计规范：

索引对数据库的查询性能非常重要不要滥用索引

限制每张表上索引的数量，建议单张表索引不超过5个；
索引不是越多越好，索引可以提高效率，同样可以降低效率禁止给表中的每一列都建立单独的索引

每个Innodb表必须有一个主键
不能使用更新频繁的列作为主键，不适用多列主键。不使用UUID,MD5,HASH，字符串列作为主键。主键建议选择使用自增ID值

避免建立冗余索引和重复索引

对于频繁查询优先考虑使用覆盖索引
好处：避免Innodb表进行索引的二次查找，可以把随机IO变为顺序IO，加快查询效率

尽量避免使用外键约束
外键可用于保证数据的参照完整性，但建议在业务端实现，外键会影响父表和子表的写操作从而降低性能

常见索引列建议

select、update、delete语句的where从句中的列包含order by、group by、distinct中的字段
多表join的关联列

索引列的顺序

索引是从左到右来使用的索引作用：查询时可以通过索引进行查找，减少磁盘随机IO，增加磁盘性能

区分度最高的列放在联合索引的最左侧

主键，值唯一的列

尽量把字段长度小的列放在联合索引的最左侧

使用最频繁的列放在最左侧

6.4 数据库字段设计规范

优先选择符合存储需要的最小的数据类型
将字符串转化为数字类型来存储对于非负整数来说，优先使用无符号整型数据进行存储
VARCHAR(n)中的n代表的是字符数，而不是字节数使用UTF8存储汉字Varchar（255）=765个字节
过大的长度会消耗更多的内存

尽量避免在表中使用TEXT,BLOB数据类型
建议把blob或者text列分离到单独的扩展列表中 text或者blob类型只能使用前缀索引

避免使用ENUM数据类型
修改ENUM值需要使用ALTER语句 ENUM类型的ORDER BY操作效率低禁止使用数值作为ENUM的枚举值

尽可能把所有列定义为NOT NULL
索引NULL列需要额外的空间来保存，所以需要占用更多的空间进行比较和计算时对NULL做特别处理

不要用字符串存储日期型的数据，使用TIMSTAMP或DATETIME
缺点： 1、无法使用日期函数进行计算和比较 2、占空间

同财务相关的金额类数据，必须使用decimal类型
double和float是非精准数据类型，decimal是精准数据类型，在计算时不会丢失精度，其占用的空间由定义的宽度决定，可用于存储比bigint更大的数。
* 6.5 数据库SQL开发规范*

建议使用编译语句进行数据库操作
优点1：除了第一次进行预编译外，其他时间进行语句调用时，只传递相关参数就可以了，比每次都传递SQL更节省带宽，性能更高。
优点2：使用预编译时可以进行一次解析，多次使用。可以防范SQL注入的风险

避免数据类型的隐式转换
隐式转换会导致索引丢失

充分利用表上已经存在的索引
避免使用双%好的查询条件一个SQL只能利用到符合索引中的一列进行范围查询使用left join 或 not exists来优化not
in

在数据库开发时应该考虑到以后的数据库拓展
程序连接不痛的数据库要使用不同账号，禁止跨库查询
为数据库迁移和分库分表留出余地降低业务耦合度

禁止使用 SELECT *，必须使用SELECT <字段列表>查询
消耗更多的CPU和IO以及带宽无法使用覆盖索引可减少表结构的变更带来的影响

禁止使用不含字段列表的INSERT语句
可减少表结构的变更带来的影响

禁止使用子查询，可以把子查询转化为关系查询 join操作
子查询性能差子查询的结果集无法使用索引或影响临时表操作，如果查询数据量大则严重影响效率消耗过多的CPU以及IO资源

避免使用JOIN关联太多的表
每join一个表会多占用一部分内存会产生临时表操作，影响查询效率。 MySQL最毒允许关联61个表，建议不超过5个

减少同数据库进行交互次数
数据库更适合处理批量操作合并多个相同操作到一起，可以提高处理效率使用in代替or 但in的值不要超过500个
in操作可以有效地利用索引

禁止使用order by rand()进行随机排序
对MYSQL性能会有很大影响，会吧所有符合条件的数据装到内存中，然后在排序，会消耗大量CPU IO
以及内存资源，推荐在程序中获取一个随机值，然后从数据库中获取数据的方式

禁止在Where从句中对列进行函数转换和计算
会导致索引无法使用

在明显不会有重复值时使用UNION ALL 而非UNION
UNION会把所有的数据放到临时表中后再去重操作 UNION ALL 不会再对结果集进行去重操作

拆分复杂的大SQL为多个小SQL
Mysql一个SQL只能使用一个CPU计算，如果计算逻辑过于复杂，会影响查询性能，拆分后可以通过并行执行来提高效率

6.6 数据库行为操作规范

超过100万行的批量操作，要分批多次进行操作

对于大表使用pt-online-schema-change修改
对大表数据结构的修改一定要谨慎，会造成严重的锁表操作，尤其是产生环境，是不能忍受的这样做的好处:避免大表修改产生的主从延迟
避免在对表字段进行修改时

禁止为程序使用的账户赋予super权限

对于程序连接数据库账号，遵循权限最小原则
不准跨库不准有DROP权限

三、小结

数据库设计规范在数据分析阶段，用数据依赖的概念分析和表示各项数据项之间的关系。在设计概念结构阶段，用规范化理论消除初步ER图冗余的联系。有ER图像数据模型转化阶段，用模式分解的概念和方法指导设计。
本项目的设计规范涉及了以下几个方面：
数据库命名规范;
数据库基本设计规范;
数据库索引设计规范;
数据库字段设计规范;
SQL开发规范；
数据库操作行为规范。

开发过程中应该严格遵循数据库设计规范进行设计。

数据库设计规范-电商数据库设计及优化学习笔记

一、背景

二、数据库设计规范

常见索引列建议

索引列的顺序

三、小结

猜你喜欢