Java实现大批量数据导入(100W以上)

最近业务方有一个需求,需要一次导入超过100万数据到系统数据库。可能大家首先会想,这么大的数据,干嘛通过程序去实现导入,为什么不直接通过SQL导入到数据库。

一、为什么一定要在代码实现

说说为什么不能通过SQL直接导入到数据库,而是通过程序实现:

1. 首先,这个导入功能开始提供页面导入,只是开始业务方保证的一次只有<3W的数据导入;

2. 其次,业务方导入的内容需要做校验,比如门店号,商品号等是否系统存在,需要程序校验;

3. 最后,业务方导入的都是编码,数据库中还要存入对应名称,方便后期查询,SQL导入也是无法实现的。

基于以上上三点,就无法直接通过SQL语句导入数据库。那就只能老老实实的想办法通过程序实现。

二、程序实现有以下技术难点

1. 一次读取这么大的数据量,肯定会导致服务器内存溢出;

2. 调用接口保存一次传输数据量太大,网络传输压力会很大;

3. 最终通过SQL一次批量插入,对数据库压力也比较大,如果业务同时操作这个表数据,很容易造成死锁。

三、解决思路

根据列举的技术难点我的解决思路是:

1. 既然一次读取整个导入文件,那就先将文件流上传到服务器磁盘,然后分批从磁盘读取(支持多线程读取),这样就防止内存溢出;

2. 调用插入数据库接口也是根据分批读取的内容进行调用;

3. 分批插入数据到数据库。

四、具体实现代码

1. 流式上传文件到服务器磁盘

 略,一般Java上传就可以实现,这里就不贴出。

2. 多线程分批从磁盘读取

批量读取文件:

  1 import org.slf4j.Logger;
  2 import org.slf4j.LoggerFactory;
  3 
  4 import java.io.File;
  5 import java.io.FileNotFoundException;
  6 import java.io.RandomAccessFile;
  7 import java.nio.ByteBuffer;
  8 import java.nio.channels.FileChannel;
  9 
 10 /**
 11  * 类功能描述:批量读取文件
 12  *
 13  * @author WangXueXing create at 19-3-14 下午6:47
 14  * @version 1.0.0
 15  */
 16 public class BatchReadFile {
 17     private final Logger LOGGER = LoggerFactory.getLogger(BatchReadFile.class);
 18     /**
 19      * 字符集UTF-8
 20      */
 21     public static final String CHARSET_UTF8 = "UTF-8";
 22     /**
 23      * 字符集GBK
 24      */
 25     public static final String CHARSET_GBK = "GBK";
 26     /**
 27      * 字符集gb2312
 28      */
 29     public static final String CHARSET_GB2312 = "gb2312";
 30     /**
 31      * 文件内容分割符-逗号
 32      */
 33     public static final String SEPARATOR_COMMA = ",";
 34 
 35     private int bufSize = 1024;
 36     // 换行符
 37     private byte key = "\n".getBytes()[0];
 38     // 当前行数
 39     private long lineNum = 0;
 40     // 文件编码,默认为gb2312
 41     private String encode = CHARSET_GB2312;
 42     // 具体业务逻辑监听器
 43     private ReaderFileListener readerListener;
 44 
 45     public void setEncode(String encode) {
 46         this.encode = encode;
 47     }
 48 
 49     public void setReaderListener(ReaderFileListener readerListener) {
 50         this.readerListener = readerListener;
 51     }
 52 
 53     /**
 54      * 获取准确开始位置
 55      * @param file
 56      * @param position
 57      * @return
 58      * @throws Exception
 59      */
 60     public long getStartNum(File file, long position) throws Exception {
 61         long startNum = position;
 62         FileChannel fcin = new RandomAccessFile(file, "r").getChannel();
 63         fcin.position(position);
 64         try {
 65             int cache = 1024;
 66             ByteBuffer rBuffer = ByteBuffer.allocate(cache);
 67             // 每次读取的内容
 68             byte[] bs = new byte[cache];
 69             // 缓存
 70             byte[] tempBs = new byte[0];
 71             while (fcin.read(rBuffer) != -1) {
 72                 int rSize = rBuffer.position();
 73                 rBuffer.rewind();
 74                 rBuffer.get(bs);
 75                 rBuffer.clear();
 76                 byte[] newStrByte = bs;
 77                 // 如果发现有上次未读完的缓存,则将它加到当前读取的内容前面
 78                 if (null != tempBs) {
 79                     int tL = tempBs.length;
 80                     newStrByte = new byte[rSize + tL];
 81                     System.arraycopy(tempBs, 0, newStrByte, 0, tL);
 82                     System.arraycopy(bs, 0, newStrByte, tL, rSize);
 83                 }
 84                 // 获取开始位置之后的第一个换行符
 85                 int endIndex = indexOf(newStrByte, 0);
 86                 if (endIndex != -1) {
 87                     return startNum + endIndex;
 88                 }
 89                 tempBs = substring(newStrByte, 0, newStrByte.length);
 90                 startNum += 1024;
 91             }
 92         } finally {
 93             fcin.close();
 94         }
 95         return position;
 96     }
 97 
 98     /**
 99      * 从设置的开始位置读取文件,一直到结束为止。如果 end设置为负数,刚读取到文件末尾
100      * @param fullPath
101      * @param start
102      * @param end
103      * @throws Exception
104      */
105     public void readFileByLine(String fullPath, long start, long end) throws Exception {
106         File fin = new File(fullPath);
107         if (!fin.exists()) {
108             throw new FileNotFoundException("没有找到文件:" + fullPath);
109         }
110         FileChannel fileChannel = new RandomAccessFile(fin, "r").getChannel();
111         fileChannel.position(start);
112         try {
113             ByteBuffer rBuffer = ByteBuffer.allocate(bufSize);
114             // 每次读取的内容
115             byte[] bs = new byte[bufSize];
116             // 缓存
117             byte[] tempBs = new byte[0];
118             String line;
119             // 当前读取文件位置
120             long nowCur = start;
121             while (fileChannel.read(rBuffer) != -1) {
122                 int rSize = rBuffer.position();
123                 rBuffer.rewind();
124                 rBuffer.get(bs);
125                 rBuffer.clear();
126                 byte[] newStrByte;
127                 //去掉表头
128                 if(nowCur == start){
129                     int firstLineIndex = indexOf(bs, 0);
130                     int newByteLenth = bs.length-firstLineIndex-1;
131                     newStrByte = new byte[newByteLenth];
132                     System.arraycopy(bs, firstLineIndex+1, newStrByte, 0, newByteLenth);
133                 } else {
134                     newStrByte = bs;
135                 }
136 
137                 // 如果发现有上次未读完的缓存,则将它加到当前读取的内容前面
138                 if (null != tempBs && tempBs.length != 0) {
139                     int tL = tempBs.length;
140                     newStrByte = new byte[rSize + tL];
141                     System.arraycopy(tempBs, 0, newStrByte, 0, tL);
142                     System.arraycopy(bs, 0, newStrByte, tL, rSize);
143                 }
144                 // 是否已经读到最后一位
145                 boolean isEnd = false;
146                 nowCur += bufSize;
147                 // 如果当前读取的位数已经比设置的结束位置大的时候,将读取的内容截取到设置的结束位置
148                 if (end > 0 && nowCur > end) {
149                     // 缓存长度 - 当前已经读取位数 - 最后位数
150                     int l = newStrByte.length - (int) (nowCur - end);
151                     newStrByte = substring(newStrByte, 0, l);
152                     isEnd = true;
153                 }
154                 int fromIndex = 0;
155                 int endIndex = 0;
156                 // 每次读一行内容,以 key(默认为\n) 作为结束符
157                 while ((endIndex = indexOf(newStrByte, fromIndex)) != -1) {
158                     byte[] bLine = substring(newStrByte, fromIndex, endIndex);
159                     line = new String(bLine, 0, bLine.length, encode);
160                     lineNum++;
161                     // 输出一行内容,处理方式由调用方提供
162                     readerListener.outLine(line.trim(), lineNum, false);
163                     fromIndex = endIndex + 1;
164                 }
165                 // 将未读取完成的内容放到缓存中
166                 tempBs = substring(newStrByte, fromIndex, newStrByte.length);
167                 if (isEnd) {
168                     break;
169                 }
170             }
171             // 将剩下的最后内容作为一行,输出,并指明这是最后一行
172             String lineStr = new String(tempBs, 0, tempBs.length, encode);
173             readerListener.outLine(lineStr.trim(), lineNum, true);
174         } finally {
175             fileChannel.close();
176             fin.deleteOnExit();
177         }
178     }
179 
180     /**
181      * 查找一个byte[]从指定位置之后的一个换行符位置
182      *
183      * @param src
184      * @param fromIndex
185      * @return
186      * @throws Exception
187      */
188     private int indexOf(byte[] src, int fromIndex) throws Exception {
189         for (int i = fromIndex; i < src.length; i++) {
190             if (src[i] == key) {
191                 return i;
192             }
193         }
194         return -1;
195     }
196 
197     /**
198      * 从指定开始位置读取一个byte[]直到指定结束位置为止生成一个全新的byte[]
199      *
200      * @param src
201      * @param fromIndex
202      * @param endIndex
203      * @return
204      * @throws Exception
205      */
206     private byte[] substring(byte[] src, int fromIndex, int endIndex) throws Exception {
207         int size = endIndex - fromIndex;
208         byte[] ret = new byte[size];
209         System.arraycopy(src, fromIndex, ret, 0, size);
210         return ret;
211     }
212 }

以上是关键代码:利用FileChannel与ByteBuffer从磁盘中分批读取数据

多线程调用批量读取:

 1 /**
 2  * 类功能描述: 线程读取文件
 3  *
 4  * @author WangXueXing create at 19-3-14 下午6:51
 5  * @version 1.0.0
 6  */
 7 public class ReadFileThread extends Thread {
 8     private ReaderFileListener processDataListeners;
 9     private String filePath;
10     private long start;
11     private long end;
12     private Thread preThread;
13 
14     public ReadFileThread(ReaderFileListener processDataListeners,
15                           long start,long end,
16                           String file) {
17         this(processDataListeners, start, end, file, null);
18     }
19 
20     public ReadFileThread(ReaderFileListener processDataListeners,
21                           long start,long end,
22                           String file,
23                           Thread preThread) {
24         this.setName(this.getName()+"-ReadFileThread");
25         this.start = start;
26         this.end = end;
27         this.filePath = file;
28         this.processDataListeners = processDataListeners;
29         this.preThread = preThread;
30     }
31 
32     @Override
33     public void run() {
34         BatchReadFile readFile = new BatchReadFile();
35         readFile.setReaderListener(processDataListeners);
36         readFile.setEncode(processDataListeners.getEncode());
37         try {
38             readFile.readFileByLine(filePath, start, end + 1);
39             if(this.preThread != null){
40                 this.preThread.join();
41             }
42         } catch (Exception e) {
43            throw new RuntimeException(e);
44         }
45     }
46 }

监听读取:

 1 import java.util.ArrayList;
 2 import java.util.List;
 3 
 4 /**
 5  * 类功能描述:读文件监听父类
 6  *
 7  * @author WangXueXing create at 19-3-14 下午6:52
 8  * @version 1.0.0
 9  */
10 public abstract class ReaderFileListener<T> {
11     // 一次读取行数,默认为1000
12     private int readColNum = 1000;
13 
14     /**
15      * 文件编码
16      */
17     private String encode;
18 
19     /**
20      * 分批读取行列表
21      */
22     private List<String> rowList = new ArrayList<>();
23 
24     /**
25      *其他参数
26      */
27     private T otherParams;
28 
29     /**
30      * 每读取到一行数据,添加到缓存中
31      * @param lineStr 读取到的数据
32      * @param lineNum 行号
33      * @param over 是否读取完成
34      * @throws Exception
35      */
36     public void outLine(String lineStr, long lineNum, boolean over) throws Exception {
37         if(null != lineStr && !lineStr.trim().equals("")){
38             rowList.add(lineStr);
39         }
40 
41         if (!over && (lineNum % readColNum == 0)) {
42             output(rowList);
43             rowList = new ArrayList<>();
44         } else if (over) {
45             output(rowList);
46             rowList = new ArrayList<>();
47         }
48     }
49 
50     /**
51      * 批量输出
52      *
53      * @param stringList
54      * @throws Exception
55      */
56     public abstract void output(List<String> stringList) throws Exception;
57 
58     /**
59      * 设置一次读取行数
60      * @param readColNum
61      */
62     protected void setReadColNum(int readColNum) {
63         this.readColNum = readColNum;
64     }
65 
66     public String getEncode() {
67         return encode;
68     }
69 
70     public void setEncode(String encode) {
71         this.encode = encode;
72     }
73 
74     public T getOtherParams() {
75         return otherParams;
76     }
77 
78     public void setOtherParams(T otherParams) {
79         this.otherParams = otherParams;
80     }
81 
82     public List<String> getRowList() {
83         return rowList;
84     }
85 
86     public void setRowList(List<String> rowList) {
87         this.rowList = rowList;
88     }
89 }

实现监听读取并分批调用插入数据接口:

  1 import com.today.api.finance.ImportServiceClient;
  2 import com.today.api.finance.request.ImportRequest;
  3 import com.today.api.finance.response.ImportResponse;
  4 import com.today.api.finance.service.ImportService;
  5 import com.today.common.Constants;
  6 import com.today.domain.StaffSimpInfo;
  7 import com.today.util.EmailUtil;
  8 import com.today.util.UserSessionHelper;
  9 import com.today.util.readfile.ReadFile;
 10 import com.today.util.readfile.ReadFileThread;
 11 import com.today.util.readfile.ReaderFileListener;
 12 import org.slf4j.Logger;
 13 import org.slf4j.LoggerFactory;
 14 import org.springframework.beans.factory.annotation.Value;
 15 import org.springframework.stereotype.Service;
 16 import org.springframework.util.StringUtils;
 17 
 18 import java.io.File;
 19 import java.io.FileInputStream;
 20 import java.util.ArrayList;
 21 import java.util.Arrays;
 22 import java.util.List;
 23 import java.util.concurrent.FutureTask;
 24 import java.util.stream.Collectors;
 25 
 26 /**
 27  * 类功能描述:报表导入服务实现
 28  *
 29  * @author WangXueXing create at 19-3-19 下午1:43
 30  * @version 1.0.0
 31  */
 32 @Service
 33 public class ImportReportServiceImpl extends ReaderFileListener<ImportRequest> {
 34     private final Logger LOGGER = LoggerFactory.getLogger(ImportReportServiceImpl.class);
 35     @Value("${READ_COL_NUM_ONCE}")
 36     private String readColNum;
 37     @Value("${REPORT_IMPORT_RECEIVER}")
 38     private String reportImportReceiver;
 39     /**
 40      * 财务报表导入接口
 41      */
 42     private ImportService service = new ImportServiceClient();
 43 
 44     /**
 45      * 读取文件内容
 46      * @param file
 47      */
 48     public void readTxt(File file, ImportRequest importRequest) throws Exception {
 49         this.setOtherParams(importRequest);
 50         ReadFile readFile = new ReadFile();
 51         try(FileInputStream fis = new FileInputStream(file)){
 52             int available = fis.available();
 53             long maxThreadNum = 3L;
 54             // 线程粗略开始位置
 55             long i = available / maxThreadNum;
 56 
 57             this.setRowList(new ArrayList<>());
 58             StaffSimpInfo staffSimpInfo = ((StaffSimpInfo)UserSessionHelper.getCurrentUserInfo().getData());
 59             String finalReportReceiver = getEmail(staffSimpInfo.getEmail(), reportImportReceiver);
 60             this.setReadColNum(Integer.parseInt(readColNum));
 61             this.setEncode(ReadFile.CHARSET_GB2312);
 62             //这里单独使用一个线程是为了当maxThreadNum大于1的时候,统一管理这些线程
 63             new Thread(()->{
 64                 Thread preThread = null;
 65                 FutureTask futureTask = null ;
 66                 try {
 67                     for (long j = 0; j < maxThreadNum; j++) {
 68                         //计算精确开始位置
 69                         long startNum = j == 0 ? 0 : readFile.getStartNum(file, i * j);
 70                         long endNum = j + 1 < maxThreadNum ? readFile.getStartNum(file, i * (j + 1)) : -2L;
 71 
 72                         //具体监听实现
 73                         preThread = new ReadFileThread(this, startNum, endNum, file.getPath(), preThread);
 74                         futureTask = new FutureTask(preThread, new Object());
 75                         futureTask.run();
 76                     }
 77                     if(futureTask.get() != null) {
 78                         EmailUtil.sendEmail(EmailUtil.REPORT_IMPORT_EMAIL_PREFIX, finalReportReceiver, "导入报表成功", "导入报表成功" );  //todo 等文案
 79                     }
 80                 } catch (Exception e){
 81                     futureTask.cancel(true);
 82                     try {
 83                         EmailUtil.sendEmail(EmailUtil.REPORT_IMPORT_EMAIL_PREFIX, finalReportReceiver, "导入报表失败", e.getMessage());
 84                     } catch (Exception e1){
 85                         //ignore
 86                         LOGGER.error("发送邮件失败", e1);
 87                     }
 88                     LOGGER.error("导入报表类型:"+importRequest.getReportType()+"失败", e);
 89                 } finally {
 90                     futureTask.cancel(true);
 91                 }
 92             }).start();
 93         }
 94     }
 95 
 96     private String getEmail(String infoEmail, String reportImportReceiver){
 97         if(StringUtils.isEmpty(infoEmail)){
 98             return reportImportReceiver;
 99         }
100         return infoEmail;
101     }
102 
103     /**
104      * 每批次调用导入接口
105      * @param stringList
106      * @throws Exception
107      */
108     @Override
109     public void output(List<String> stringList) throws Exception {
110         ImportRequest importRequest = this.getOtherParams();
111         List<List<String>> dataList = stringList.stream()
112                                                 .map(x->Arrays.asList(x.split(ReadFile.SEPARATOR_COMMA)).stream().map(String::trim).collect(Collectors.toList()))
113                                                 .collect(Collectors.toList());
114         LOGGER.info("上传数据:{}", dataList);
115         importRequest.setDataList(dataList);
116 //        LOGGER.info("request对象:{}",importRequest, "request增加请求字段:{}", importRequest.data);
117         ImportResponse importResponse = service.batchImport(importRequest);
118         LOGGER.info("===========SUCESS_CODE======="+importResponse.getCode());
119         //导入错误,输出错误信息
120         if(!Constants.SUCESS_CODE.equals(importResponse.getCode())){
121             LOGGER.error("导入报表类型:"+importRequest.getReportType()+"失败","返回码为:", importResponse.getCode() ,"返回信息:",importResponse.getMessage());
122             throw new RuntimeException("导入报表类型:"+importRequest.getReportType()+"失败"+"返回码为:"+ importResponse.getCode() +"返回信息:"+importResponse.getMessage());
123         }
124 //        if(importResponse.data != null && importResponse.data.get().get("batchImportFlag")!=null) {
125 //            LOGGER.info("eywa-service请求batchImportFlag不为空");
126 //        }
127         importRequest.setData(importResponse.data);
128 
129     }
130 }
注意:
第53行代码:

long maxThreadNum = 3L;
就是设置分批读取磁盘文件的线程数,我设置为3,大家不要设置太大,不然多个线程读取到内存,也会造成服务器内存溢出。

以上所有批次的批量读取并调用插入接口都成功发送邮件通知给导入人,任何一个批次失败直接发送失败邮件。

数据库分批插入数据:

 1   /**
 2     * 批量插入非联机第三方导入账单
 3     * @param dataList
 4     */
 5   def insertNonOnlinePayment(dataList: List[NonOnlineSourceData]) : Unit = {
 6     if (dataList.nonEmpty) {
 7       CheckAccountDataSource.mysqlData.withConnection { conn =>
 8         val sql =
 9           s""" INSERT INTO t_pay_source_data
10                           (store_code,
11                           store_name,
12                           source_date,
13                           order_type,
14                           trade_type,
15                           third_party_payment_no,
16                           business_type,
17                           business_amount,
18                           trade_time,
19                           created_at,
20                           updated_at)
21               VALUES (?,?,?,?,?,?,?,?,?,NOW(),NOW())"""
22 
23         conn.setAutoCommit(false)
24         var stmt = conn.prepareStatement(sql)
25         var i = 0
26         dataList.foreach { x =>
27           stmt.setString(1, x.storeCode)
28           stmt.setString(2, x.storeName)
29           stmt.setString(3, x.sourceDate)
30           stmt.setInt(4, x.orderType)
31           stmt.setInt(5, x.tradeType)
32           stmt.setString(6, x.tradeNo)
33           stmt.setInt(7, x.businessType)
34           stmt.setBigDecimal(8, x.businessAmount.underlying())
35           stmt.setString(9, x.tradeTime.getOrElse(null))
36           stmt.addBatch()
37           if ((i % 5000 == 0) && (i != 0)) { //分批提交
38             stmt.executeBatch
39             conn.commit
40             conn.setAutoCommit(false)
41             stmt = conn.prepareStatement(sql)
42 
43           }
44           i += 1
45         }
46         stmt.executeBatch()
47         conn.commit()
48       }
49     }
50   }

 以上代码实现每5000 行提交一次批量插入,防止一次提较数据库的压力。

 以上,如果大家有更好方案,请留言。

猜你喜欢

转载自www.cnblogs.com/barrywxx/p/10700221.html