数据库数据定期同步实现

实现这个需求，首先想到的是直接通过sql 进行同步，表之间数据同步无非是三种操作：更新，删除，插入，假设两个表 dst,src，dst中有id,name,auth三个字段，src中有id,name,dsc三个字段，需要将src 中的id,name同步到dst中去，如图所示：
在dst和src中都存在的数据，只需要按照src中的数据，批量更新dst中的数据即可，sql语句可能是这样：

update dst, src set dst.id=src.id,dst.name=src.name where src.id=dst.id;
1
更新完成之后，需要向dst表中插入在src存在，而dst中不存在的数据，简单的sql可能是这样：

insert dst (id,name,auth) select src.id,src.name,’1′ from src where not exists(select dst.id from dst where src.id=dst.id);
1
再接着是删除，将dst中存在src中不存在的数据称从dst中删除，sql如下：

delete from dst where not exists(select src.id from src where src.id=dst.id );
1
注意：如果是用的mysql上述同步删除语句中的dst表明不能简写

有了这三条语句，写个定时任务，依次执行即可，如果是用的spring，通常会用@Scheduled具体使用可以google一下，非常方便。如果需要事务可以使用@Transactional，这些是spring通过aop集成好的，可以声明式使用，但是提供的粒度不够灵活，使用也会有些限制，如果想更灵活点话，可以使用编程式事务。而如果数据库开启了autocommit功能，其本身就会有事务，不需要逻辑代码中再加事务（不是绝对的，当然要看自己需要，要记住autocommit只保证每一条sql是一个事务）。如果要看看自己的数据库是否开启了autocommit，可以用下面的sql：

show variables like ‘autocommit’
1
这种方式的特点就是思路很简单。不需要写太多的java代码（定时任务都可以直接用spring封装好的注解，只需要写个类，写个函数，如果使用orm的话，然后实现mybatis或hibernate相关的dao和service）。而这种实现的问题也很明显，就是你对整个同步过程可控的东西很有限，最多通过事务保证如果同步失败了，整体回滚。而且当同步逻辑比较复杂的时候，比如说表中字段比较多，而且同步部分字段，同步的字段需要join其他表才能决定需不需要同步，这些逻辑全部写在sql中会导致sql很臃肿，而且更容易出错，更严重的是出错了你却什么都做不了，也不知道具体哪里同步出错了。肿么办？那就一条一条的来呗。

要想对同步过程拥有足够的控制，就只能将需要同步的数据全部load到内存，然后通过写程序进行遍历。具体过程应该是这样的：
1. 将src中的数据全部load到内存中，如果数据量比较大（通常都是这样，内存一次性放不下），就进行分页load，sql语句如下：

select * from src limit ‘pageSize’ offset ‘offset’
1
其中’pageSize’通过程序设定，而’offset’就是pageSize*pageNo,比如说每页100条数据，取第一页的数据就是select * from src limit 100 offset 100*1

对取出来的数据进行循环遍历,java程序简写如下：

private void syncData(){
Date curTime = new Date();
List<MyData> datas = myDataDao.getDatas(pageNo,pageSize);//访问的是src表
for(MyData data : datas){
if(needToUpdate(data))//src表中的数据在dst中已经存在就update，否则就insert
update(data);
else insert(data);
}
deleteDatasFromNow(curTime); //删除当前同步时间之前的数据
}
1
2
3
4
5
6
7
8
9
10
那么needToUpdate做的就是判断一下data是否在dst中存在，这里需要一个唯一标识来确定当前data，通常是一个字段或几个联合确定唯一的data。所以needToUpdate可能如下：

private boolean needToUpdate(MyData data){
Optional<MyData> myData = myDataDao.findByName(data.getName);//这里访问的是dst表
if(myData.isPresent()){
return true;
}
else return false;
}
1
2
3
4
5
6
7
update和insert都会改变dst中的updateTime，所以在删除的时候就可以通过updateTime是否晚于curTime来判断当前数据是否更新过或新插入的，如果不是，那就是需要删除的数据，所以deleteDatasFromNow()如下：

private void deleteDatasFromNow(Date curTime){
List<MyData> datasNeedToDel = myDataDao.getDatasNeedToDel(curTime);
for(MyData data : datasNeedToDel){
delete(data);
}
}
1
2
3
4
5
6
这样整个同步过程就完成了，如果想要打印同步日志或将同步过程记录下来，就可以在update(),insert(),delete()中插入日志操作就行了，就拿update()来说的话，可能像下面的情况：

private void update(MyData data){
try{
myDataDao.update(data);
}
catch(Exception e){
logger.error(“数据”+data.getName()+”同步出错”);//这里是打印日志，如果需要也可以保存到数据库
return;
}
logger.info(“数据”+data.getName()+”同步成功”);
}
1
2
3
4
5
6
7
8
9
10
通过日志文件分析（如果将操作保存到数据库的话也可以直接查询数据库），可以清晰的知道哪些数据进行了更新，哪些数据是新插入的，哪些是删除了的，然后还可以进行统计，共更新了多少数据，多少成功了，多少失败了。业务层面就可以了解更多有关数据同步的信息。而且这种操作使sql非常简单，也不太容易出错。但是一个很明显的问题也暴露出来了，那就是效率问题，如果通过这种方式，势必要遍历每一条数据，对需要update,insert,delete的数据需要一个一个地进行访问数据库，而且对于needToUpdate(MyData data)中也额外访问了一次数据库，亲测这个效率真是低惊人。而且这种实现中会导致，即便什么数据都不更新，也会完全遍历一遍数据，访问同样多的数据库，所需的时间还是那么久，这是在业务层面无法容忍的。于是就有了思路三。

既然上述方法的主要问题就是访问数据库过多导致效率底下，那么就必须尽可能减少数据库的访问和遍历的次数。那就需要紧贴业务需求，针对具体的需求进行改善。我遇到的需求就是每次数据同步的过程中，大部分数据都是不变的，只有少部分新增和删除，针对这个需求进行了下面的优化：
* 不再每次将所有的src中的数据取出来，而是将需要删除的和需要更新的，以及需要新插入的分别取出来，这样数据取来之后就可以直接进行update,insert,delete了，不需要再进行额外的比较判断的了
* 大部分数据不变，因此进行update的时候不再单条进行更新，直接进行分页批量更新，比如说每次更新100条或者更多，以提高更新的效率。
通过这些优化大副提高了同步的效率，其中需要注意的是当写稍微复杂点的sql的时候一定要注意，虽然都能得到相同的查询结果，可能效率相差十万八千里，在实现这个数据同步是，就因为join位置放的不对，导致查询需要插入的数据时灰常慢，所以好好学学sql优化还是很有必要的，网上有很多大牛介绍，可以多看看，或者用的时候再学（我通常是这样。。。）

数据库数据定期同步实现

猜你喜欢