关于mysql大批量数据的索引优化与备份问题

mysql索引优化：

1，创建索引

对于查询占主要的应用来说，索引显得尤为重要。很多时候性能问题很简单的就是因为我们忘了添加索引而造成的，或者说没有添加更为有效的索引导致。如果不加

索引的话，那么查找任何哪怕只是一条特定的数据都会进行一次全表扫描，如果一张表的数据量很大而符合条件的结果又很少，那么不加索引会引起致命的性能下

降。但是也不是什么情况都非得建索引不可，比如性别可能就只有两个值，建索引不仅没什么优势，还会影响到更新速度，这被称为过度索引。

2，复合索引

比如有一条语句是这样的：select * from users where area=’beijing’ and age=22;

如果我们是在area和age上分别创建单个索引的话，由于mysql查询每次只能使用一个索引，所以虽然这样已经相对不做索引时全表扫描提高了很多效

率，但是如果在area、age两列上创建复合索引的话将带来更高的效率。如果我们创建了 (area, age,

salary)的复合索引，那么其实相当于创建了 (area,age,salary)、(area,age)、(area)三个索引，这被称为最佳左前缀

特性。因此我们在创建复合索引时应该将最常用作限制条件的列放在最左边，依次递减。

3，索引不会包含有NULL值的列

只要列中包含有NULL值都将不会被包含在索引中，复合索引中只要有一列含有NULL值，那么这一列对于此复合索引就是无效的。所以我们在数据库设计时不要让字段的默认值为NULL。

4，使用短索引

对串列进行索引，如果可能应该指定一个前缀长度。例如，如果有一个CHAR(255)的列，如果在前10 个或20 个字符内，多数值是惟一的，那么就不要对整个列进行索引。短索引不仅可以提高查询速度而且可以节省磁盘空间和I/O操作。

5，排序的索引问题

mysql查询只使用一个索引，因此如果where子句中已经使用了索引的话，那么 order by中的列是不会使用索引的。因此数据库默认排序可以符合要求的情况下不要使用排序操作；尽量不要包含多个列的排序，如果需要最好给这些列创建复合索引。

6，like语句操作

一般情况下不鼓励使用like操作，如果非使用不可，如何使用也是一个问题。like “%aaa%” 不会使用索引而like “aaa%”可以使用索引。

7，不要在列上进行运算

select * from users where

YEAR(adddate)

8，不使用NOT IN和操作

NOT IN和操作都不会使用索引将进行全表扫描。NOT IN可以NOT EXISTS代替，id3则可使用id>3 or id

数据备份：

如果是数据量大于5G，且包含大量文本文件数据的话，为了提高问价备份的时间和节省磁盘空间，可以尝试使用将数据写成txt文件形式，然后再回复的时候直接load data的方式就可以了，官方文档上表示采用load 方式比传统的insert文件的速度快20倍。

转成txt格式命令：【只选中id,doc_assets两个字段举例子】

SELECT id,doc_assets into OUTFILE './data.txt' fields terminated by '\t' LINES TERMINATED BY '\n' from sm_document_copy;

导入数据命令：

LOAD DATA INFILE './data.txt' INTO TABLE new_sm_document FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'(id,doc_assets)

注意：

使用load data命令时，要确保有file使用权限【./data.txt路径是我直接设置成当前目录的路径】

通过命令：show variables like '%secure%';来查看 secure_file_priv 的值

这里是无值，说明file地址不受限制看，可以自己任意设置

那如果是其他值该如何解决呢？

如果是Null【默认值】需要进行如下操作：

打开my.cnf 或 my.ini，【linux系统是/etc/mysql/my.cnf,如果是windows在my.ini】加入以下语句后重启mysql。

secure_file_priv=''

这里还出现了一个坑,使用LOAD DATA 命令时报错，大意是：提示此命令不适用于此版本！这时需要在 infile前面加上local

LOAD DATA LOCAL INFILE './data.txt' INTO TABLE new_sm_document FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'(id,doc_assets)

但是使用此命令必须在在mysql 的配置中加上这一条，才能执行

[mysql]

local-infile = 1

我数据库里边数据超过10G，而且很多多事文本数据，传统的备份非常耗时间，占空间，用这种方法

转成txt文件只需要不到6分钟【复制数据备份那就遥遥无期了，没个把小时下不来】

load data 真是神级炒作，只需要二十几秒就搞掂了，大爱，吐血推荐。

分页批量处理：

分页批次处理可以大大提高I/O效率，我之前都是使用

select * from tablename;

这样一次性去处理数据对资源消耗非常大，就相当于让你一口气把一碗饭全部吃下去，采用分页批量执行，效果要好很多【以我执行70w数据为例】

附上部分python代码：

def get_addr():
    conn = pymysql.connect(
    host='localhost',
    port=3306,
    user='username',
    password='******',
    database='dbname',
    charset='utf8',
    cursorclass=pymysql.cursors.DictCursor)  # 默认返回元祖，加上这个参数返回的是字典结构
    with conn.cursor() as cur1:
        t1 = time.time()
        for n in range(700):
            m = n*1000
            sql1 = """SELECT id, doc_assets from sm_document_copy limit {},1000 """.format(m)
            cur1.execute(sql1)
            #设定游标从第一个开始移动
            cur1.scroll(0, mode='absolute')
            #获取此字段的所有信息
            results = cur1.fetchall()

关于mysql大批量数据的索引优化与备份问题

猜你喜欢