前言
最近接到一个需求,有一个大该有几十万条的Excel的文件,需要以某一列进行去重后并保存,下面我改了一个小测试,一起来看看吧!
结果
1、用到的库
pip install pandas
2、目录结构
文件夹:数据源–用来存放准备去重的excel(csv)文件
文件夹:–用来存放保存结果
3、奉上所有的代码与注释
import os
import pandas
df = pandas.read_excel("./数据源/"+os.listdir("./数据源/")[0],dtype=str,keep_default_na="")# 读取文件
df.drop_duplicates(subset=['想要删除的列名'], keep='first', inplace=True) # 以某列去重
df.to_excel("./结果/去重结果.xlsx",index=None) # 保存