pandas读取tsv大文件(GB)方法

TSV文件和CSV的文件的区别是：前者使用\t作为分隔符，后者使用,作为分隔符。

使用pandas读取tsv文件的代码如下：

train=pd.read_csv('test.tsv', sep='\t')

如果已有表头，则可使用header参数：

train=pd.read_csv('test.tsv', sep='\t', header=0)

如果已有主键列：

train=pd.read_csv('test.tsv', sep='\t', header=0, index_col='id')

在读取一个超大csv文件的时候，遇到困难：

使用Notepad++打不开
在python中使用基本的pandas.read_csv打开文件要等待很长时间却打不开
最后查阅read_csv文档发现可以分块读取。
read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader
指定iterator=True 也可以返回一个可迭代对象TextFileReader ：

 reader = pd.read_table('tmp.sv', sep='\t', iterator=True)
 
In : reader.get_chunk(5)
Out: 
   Unnamed: 0         0         1         2         3
0           0  0.469112 -0.282863 -1.509059 -1.135632
1           1  1.212112 -0.173215  0.119209 -1.044236
2           2 -0.861849 -2.104569 -0.494929  1.071804
3           3  0.721555 -0.706771 -1.039575  0.271860
4           4 -0.424972  0.567020  0.276232 -1.087401

需要打开的数据集是个tsv文件，大小为10.1G，并且对于数据一无所知，所以首先打开前5行观察数据的类型，列标签等等：

chunks = pd.read_csv('chemicals_smiles.tsv',sep='\t',error_bad_lines=False,iterator = True)
chunk = chunks.get_chunk(5)

chemical	name	molecular_weight	SMILES_string
0	CIDs00000001	acetylcarnitine	203.235580	CC(=O)OC(CC(=O)[O-])CN+©C
1	CIDs00000003	2,3-dihydro-2,3-dihydroxybenzoate	156.136020	C1=CC(C(C(=C1)C(=O)O)O)O
2	CIDs00000004	1-aminopropan-2-ol	75.109660	CC(CN)O
3	CIDs00000005	3-amino-2-oxopropyl phosphate	169.073082	C(C(=O)COP(=O)(O)O)N
4	CIDs00000006	DNCB	202.552020	C1=CC(=C(C=C1N+[O-])N+[O-])Cl

然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取（此参数用于设定每批读入多少行数据）。一般设置为一个稍大的整数即可明显提速。
封装成以下的函数，可以直接调用：
说明：此函数针对csv文件，如果文件不是基于逗号分隔，在read_csv函数中设置对应的sep参数（分隔符）

def read_single_csv(input_path):
    import pandas as pd
    df_chunk=pd.read_csv(input_path,chunksize=1000)
    res_chunk=[]
    for chunk in df_chunk:
        res_chunk.append(chunk)
    res_df=pd.concat(res_chunk)
    return res_df

刚开始还报了一个错是文件格式不规范，导致有些行的列数过多，以为只是少数，所以设置了error_bad_lines=False，不让其报错而是直接忽略这些行。

问题可能由该设置引起。最后仔细查看原始文件，发现原始文件第一行是一串文字，所以导致pandas以第一行的格式为准，让后面所有行都被识别为bad line，而pandas对badline的判断是由异常扑捉实现的，当异常发生，异常捕捉实际上是个相对耗时的过程，而该文件的行数也很多，从而导致不断触发异常，故时间累积就变得很长，产生卡死的现象。

最后，通过设置skiprows=1或者skiprows=[0]之后，就能够很快的成功读取了。因此，之后发现读取较大文件卡死现象，要先仔细分析原始文件的格式，还要注意在设置error_bad_lines参数为False之后，意识到badline的数量问题，数量太多可能会造成IO时间过长。

pandas读取tsv大文件(GB)方法

猜你喜欢