pandas读取tsv大文件(GB)方法

TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。

使用pandas读取tsv文件的代码如下:

train=pd.read_csv('test.tsv', sep='\t')

如果已有表头,则可使用header参数:

train=pd.read_csv('test.tsv', sep='\t', header=0)

如果已有主键列:

train=pd.read_csv('test.tsv', sep='\t', header=0, index_col='id')

在读取一个超大csv文件的时候,遇到困难:

  • 使用Notepad++打不开

  • 在python中使用基本的pandas.read_csv打开文件要等待很长时间却打不开

  • 最后查阅read_csv文档发现可以分块读取。

  • read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReader

  • 指定iterator=True 也可以返回一个可迭代对象TextFileReader :

 reader = pd.read_table('tmp.sv', sep='\t', iterator=True)
 
In : reader.get_chunk(5)
Out: 
   Unnamed: 0         0         1         2         3
0           0  0.469112 -0.282863 -1.509059 -1.135632
1           1  1.212112 -0.173215  0.119209 -1.044236
2           2 -0.861849 -2.104569 -0.494929  1.071804
3           3  0.721555 -0.706771 -1.039575  0.271860
4           4 -0.424972  0.567020  0.276232 -1.087401
  • 需要打开的数据集是个tsv文件,大小为10.1G,并且对于数据一无所知,所以首先打开前5行观察数据的类型,列标签等等:
chunks = pd.read_csv('chemicals_smiles.tsv',sep='\t',error_bad_lines=False,iterator = True)
chunk = chunks.get_chunk(5)
chemical name molecular_weight SMILES_string
0 CIDs00000001 acetylcarnitine 203.235580 CC(=O)OC(CC(=O)[O-])CN+©C
1 CIDs00000003 2,3-dihydro-2,3-dihydroxybenzoate 156.136020 C1=CC(C(C(=C1)C(=O)O)O)O
2 CIDs00000004 1-aminopropan-2-ol 75.109660 CC(CN)O
3 CIDs00000005 3-amino-2-oxopropyl phosphate 169.073082 C(C(=O)COP(=O)(O)O)N
4 CIDs00000006 DNCB 202.552020 C1=CC(=C(C=C1N+[O-])N+[O-])Cl

然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取(此参数用于设定每批读入多少行数据)。一般设置为一个稍大的整数即可明显提速。
封装成以下的函数,可以直接调用:
说明:此函数针对csv文件,如果文件不是基于逗号分隔,在read_csv函数中设置对应的sep参数(分隔符)

def read_single_csv(input_path):
    import pandas as pd
    df_chunk=pd.read_csv(input_path,chunksize=1000)
    res_chunk=[]
    for chunk in df_chunk:
        res_chunk.append(chunk)
    res_df=pd.concat(res_chunk)
    return res_df

刚开始还报了一个错是文件格式不规范,导致有些行的列数过多,以为只是少数,所以设置了error_bad_lines=False,不让其报错而是直接忽略这些行。

问题可能由该设置引起。最后仔细查看原始文件,发现原始文件第一行是一串文字,所以导致pandas以第一行的格式为准,让后面所有行都被识别为bad line,而pandas对badline的判断是由异常扑捉实现的,当异常发生,异常捕捉实际上是个相对耗时的过程,而该文件的行数也很多,从而导致不断触发异常,故时间累积就变得很长,产生卡死的现象。

​ 最后,通过设置skiprows=1或者skiprows=[0]之后,就能够很快的成功读取了。因此,之后发现读取较大文件卡死现象,要先仔细分析原始文件的格式,还要注意在设置error_bad_lines参数为False之后,意识到badline的数量问题,数量太多可能会造成IO时间过长。

猜你喜欢

转载自blog.csdn.net/kilotwo/article/details/108477227