Mysql优化之选择合适的数据类型

一：背景

在建表的时候，如果选择合适的数据类型，不仅会节省mysql服务器的内存，而且对提高查询的速度也是有影响的。

二：如何选择合适的数据类型

1.选择合适的存储引擎

（1）MyISAM数据存储引擎和数据列

MyISAM数据表，最好使用固定长度的数据列代替可变长度的数据列。

（2）MEMORY存储引擎和数据列

MEMORY数据表目前都使用固定长度的数据行存储，因此无论使用CHAR或VARCHAR列都没有关系。两者都是作为CHAR类型处理的。

（3）InnoDB存储引擎和数据列

建议使用VARCHAR类型对于InnoDB数据表，内部的行存储格式没有区分固定长度和可变长度列（所有数据行都使用指向数据列值的头指针），因此在本质上，使用固定长度的CHAR列不一定比使用可变长度VARCHAR列简单。因而，主要的性能因素是数据行使用的存储总量。由于CHAR平均占用的空间多于VARCHAR，因此使用VARCHAR来最小化需要处理的数据行的存储总量和磁盘I/O是比较好的。

2.选择合适的数据列

2.1 char与varchar

CHAR和VARCHAR类型类似，但它们保存和检索的方式不同。它们的最大长度和是否尾部空格被保留等方面也不同。在存储或检索过程中不进行大小写转换。一般来说，char会把尾部的空格删除掉，也就是如果使用了char来存储的话，那么即使字符原来是有空格的，存储在数据库以后，空格是会被去掉的。但是varchar的话，默认是会保留空格的。在mysql中，varchar(10)表示的是可以显示的长度是10个字节。而且使用不同的字符集，每一个字符占用的字节数都是不一样的。这一点需要我们弄清楚。在不同的字符集中，一个字符可能占1,2,3个字节。

2.2 text与 blob

在使用text和blob字段类型时要注意以下几点,以便更好的发挥数据库的性能.

(1) BLOB和TEXT值也会引起自己的一些问题，特别是执行了大量的删除或更新操作的时候。删除这种值会在数据表中留下很大的"空洞"，以后填入这些"空洞"的记录可能长度不同,为了提高性能,建议定期使用OPTIMIZETABLE功能对这类表进行碎片整理.

(2)使用合成的（synthetic）索引。合成的索引列在某些时候是有用的。一种办法是根据其它的列的内容建立一个散列值，并把这个值存储在单独的数据列中。接下来你就可以通过检索散列值找到数据行了。但是，我们要注意这种技术只能用于精确匹配的查询（散列值对于类似<或>=等范围搜索操作符是没有用处的）。我们可以使用MD5()函数生成散列值，也可以使用SHA1()或CRC32()，或者使用自己的应用程序逻辑来计算散列值。请记住数值型散列值可以很高效率地存储。同样，如果散列算法生成的字符串带有尾部空格，就不要把它们存储在CHAR或VARCHAR列中，它们会受到尾部空格去除的影响。合成的散列索引对于那些BLOB或TEXT数据列特别有用。用散列标识符值查找的速度比搜索BLOB列本身的速度快很多。其实简单的来说就是将text或者blob的内容用md5()等函数来取值，并且独立成为一列。查找的时候，通过查找字符的md5的值就可以找到该字符了。在后面会介绍合成索引。

(3)在不必要的时候避免检索大型的BLOB或TEXT值。例如，SELECT*查询就不是很好的想法，除非你能够确定作为约束条件的WHERE子句只会找到所需要的数据行。否则，你可能毫无目的地在网络上传输大量的值。这也是BLOB或TEXT标识符信息存储在合成的索引列中对我们有所帮助的例子。你可以搜索索引列，决定那些需要的数据行，然后从合格的数据行中检索BLOB或TEXT值。

(4)把BLOB或TEXT列分离到单独的表中。在某些环境中，如果把这些数据列移动到第二张数据表中，可以让你把原数据表中的数据列转换为固定长度的数据行格式，那么它就是有意义的。这会减少主表中的碎片，使你得到固定长度数据行的性能优势。它还使你在主数据表上运行SELECT*查询的时候不会通过网络传输大量的BLOB或TEXT值。

2.3 定点数和浮点数

为了能够引起大家的重视，在介绍浮点数与定点数以前先让大家看一个例子：

mysql>CREATETABLEtest(c1float(10,2),c2decimal(10,2));

QueryOK,0rowsaffected(0.29sec)

mysql>insertintotestvalues(131072.32,131072.32);

QueryOK,1rowaffected(0.07sec)

mysql>select*from test;

+-----------+-----------+

|c1      |c2

|

+-----------+-----------+

|131072.31|131072.32|

+-----------+-----------+

1rowinset(0.00sec)

从上面的例子中我们看到c1列的值由131072.32变成了131072.31，这就是浮点数的不精确性造成的。在mysql中float、double（或real）是浮点数，decimal（或numberic）是定点数。浮点数相对于定点数的优点是在长度一定的情况下，浮点数能够表示更大的数据范围；它的缺点是会引起精度问题。在今后关于浮点数和定点数的应用中，要记住以下几点：

（1）浮点数存在误差问题；

（2）对货币等对精度敏感的数据，应该用定点数表示或存储；

（3）编程中，如果用到浮点数，要特别注意误差问题，并尽量避免做浮点数比较；

（4）要注意浮点数中一些特殊值的处理。

三：参考资料

mysql 数据库中varchar的长度与字节，字符串的关系