分割データファイルCSV(効果的なプロのテスト)を大量に使ってPython

転載します。https://www.cnblogs.com/FYZHANG/p/11629075.html

成功し実行すると、ブロガーのシェアに感謝

 

#!/ Usrの/ binに/ ENVのpython3 - * -コーディング:UTF - 8  - * - @filename :Test.py @Software PyCharm 

インポートのOS 
インポートPANDAS ASは、PD 

、ファイルパスのための分割後file_numを#ファイル名をラインのファイル番号は
#ヘッダが異なるプログラムを実行するかどうかに応じて、Aデフォルトヘッダがある
DEF Data_split(ファイル名、file_num、ヘッダ= TRUE):
     IF :ヘッダ
        各ファイルの#設定は1000Wに初期化、行の一部の数を必要とする
        チャンク= 10000 
        DATAL = pd.read_table(ファイル名、チャンク=チャンク、オン9月= ' '、エンコード= ' GBK ' 
        #の印刷(DATAL)
        #NUMは、行の数を表し
        NUM = 0 のためのチャンクDATALを:
            NUM + = LEN (チャンク)
        #の印刷(NUM)
        それぞれに割り当てる#CHUNKSIZEファイルニーズが表します行数
        CHUNKSIZE = ラウンド(NUM / file_numの+ 1 
        #の印刷(チャンク) os.path.split(ファイル名)
         
        #は、ファイル名拡張子os.path.split(ファイル名)から分離しました
        頭部、尾= 
        DATA2 = pd.read_table(ファイル名、チャンク=チャンク、9月= ' '、コード= ' GBK ' 
        iは= 0 のためのチャンクDATA2:
            chunk.to_csvを(' {0} _ {1} {2 } ' .format(ヘッド、I、尾)、ヘッダ=なし、インデックス= 偽)
             プリント' 保存第{0}个数据' .format(I))
            、I + = 1 さもなければ
        
     
        各所望のファイル#について得られた行の数
        チャンク= 10000 
        DATA1 = pd.read_table(ファイル名、チャンク=チャンク、ヘッダ=なし、9月= ' ' 
        NUM = 0 のためのチャンクDATA1:
            NUM + = LEN (チャンク)
            チャンク= ラウンド(NUM / file_num + 1 
            頭、尾= os.path.split(ファイル名)
            DATA2 = pd.read_table(ファイル名、チャンク
        
 =CHUNKSIZE、ヘッダ=なし、オン9月= ' ' 
            私は= 0のためのチャンクDATA2:
                chunk.to_csv(' {_} {0} {2} 1 ' .format(ヘッド、I、尾)、ヘッダ=なし、インデックス= 偽)は、
                 印刷' データ{0}保存' ).format(I)
                I + = 1 = ' ファイルパス' 
#NUMファイルの数に分割され
Data_split(ファイル名、NUM、ヘッダ=真)
            

その理由のバージョンので、おそらく、あなたは、実行中のread_csv求めるメッセージが表示されます

コード、分割したいアドレスを記入するファイルのファイル名、あなたがに分割する方法を多くのファイルでNUMフィルの最後の行

おすすめ

転載: www.cnblogs.com/bravesunforever/p/12075670.html