使用Python拆分数据量大的CSV文件（亲测有效） - 代码天地

使用Python拆分数据量大的CSV文件（亲测有效）

其他 2019-12-21 08:34:14 阅读次数: 0

转载：https://www.cnblogs.com/FYZHANG/p/11629075.html

一次就运行成功了，感谢博主分享

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
# @FileName :Test.py
# @Software PyCharm

import os
import pandas as pd

# filename为文件路径，file_num为拆分后的文件行数
# 根据是否有表头执行不同程序，默认有表头的
def Data_split(filename,file_num,header=True):
    if header:
        # 设置每个文件需要有的行数,初始化为1000W
        chunksize=10000
        data1=pd.read_table(filename,chunksize=chunksize,sep=',',encoding='gbk')
        # print(data1)
        # num表示总行数
        num=0
        for chunk in data1:
            num+=len(chunk)
        # print(num)
        # chunksize表示每个文件需要分配到的行数
        chunksize=round(num/file_num+1)
        # print(chunksize)
        # 分离文件名与扩展名os.path.split(filename)
        head,tail=os.path.split(filename)
        data2=pd.read_table(filename,chunksize=chunksize,sep=',',encoding='gbk')
        i=0
        for chunk in data2:
            chunk.to_csv('{0}_{1}{2}'.format(head,i,tail),header=None,index=False)
            print('保存第{0}个数据'.format(i))
            i+=1
    else:
        # 获得每个文件需要的行数
        chunksize=10000
        data1=pd.read_table(filename,chunksize=chunksize,header=None,sep=',')
        num=0
        for chunk in data1:
            num+=len(chunk)
            chunksize=round(num/file_num+1)

            head,tail=os.path.split(filename)
            data2=pd.read_table(filename,chunksize=chunksize,header=None,sep=',')
            i=0
            for chunk in data2:
                chunk.to_csv('{0}_{1}{2}'.format(head,i,tail),header=None,index=False)
                print('保存第{0}个数据'.format(i))
                i+=1

filename='文件路径'
#num为拆分为的文件个数
Data_split(filename,num,header=True)

可能因为版本的原因，运行时会提示 read_csv，

最后一行代码，filename处填上你自己想要拆分的文件地址，num填想要拆分成多少个文件

猜你喜欢

转载自www.cnblogs.com/bravesunforever/p/12075670.html

使用Python拆分数据量大的CSV文件（亲测有效）

Python的.py文件生成exe(亲测有效)

Python3.8如何安装dlib库（亲测有效，附带文件）

python发布exe程序，亲测有效

Python调用C++代码，亲测有效

使用IDEA部署Myeclipse项目----亲测有效

ubuntu系统安装并使用svn(亲测有效)

MatLab的下载、安装与使用(亲测有效)

Python拆分大型CSV文件（亲测拆分178G）注释超全

pycharm激活（亲测有效）

Jrebel激活，亲测有效

IDEA破解-亲测有效

破解webstorm 亲测有效

vmware密钥（亲测有效）

tensorflow安装亲测有效

Libsvm格式数据的转化，利用表格文件转化为txt,亲测有效，欢迎学习交流！生成libSVM的数据格式及使用方法总结

Elasticsearch：导入本地数据和使用Kibana管理数据(楼主亲测，真实有效)

idea 使用exe4j生成exe文件并且附带jre运行环境(亲测有效)

阿里云服务器(Ubuntun)安装MySql，并使用Navicat连接MySql数据库(亲测有效)

亲测有效，低调使用，这里有个白票ChatGPT的方法

模仿CIFAR-10数据集制作自己的数据集（亲测有效）

数据库插入数据时添加校验判定（亲测有效）

ubuntu与windows物理机如何相互共享文件夹（亲测有效）

c#获取Amr文件的时长（毫秒）亲测有效

如何搭建FTP服务器实现文件的上传及下载？（亲测有效）

【20180419】【Matlab】解决Maltab文件关联的问题，亲测有效，问题已解决~

Ubuntu亲测简单有效的共享文件夹(Shared Folders)自动挂载方法

unity3d安卓中读取xml文件（亲测有效）

AetherUpload-Laravel 大文件上传神器（亲测有效）

Javascript js结合axios上传文件阿里云oss 亲测有效

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)