[python] .csv 파일의 데이터 처리: 디렉터리 파일 아래의 모든 .csv 파일에서 특정 열을 추출하고 중복을 제거하여 새 .csv 파일로 저장

 
 

원시 데이터:

처리 후:

해결책:

import pandas as pd
import os
import csv

path = r"D:\xxx\数据"
for dirpath,dirnames,filenames in os.walk(path):
   for filename in filenames:
      # 使用pandas读入
      data = pd.read_csv(os.path.join(dirpath,filename)) #读取文件中所有数据
      x = data[['x','y','z']]#读取x,y,z列
      print(x)
      a=x.drop_duplicates(subset=['x','y','z'],keep='first', inplace=False) #去重
      print(a)
      a.to_csv(r'./userid.csv',sep=",")#储存为新的文件,userid.csv:为文件名

추천

출처blog.csdn.net/weixin_61745097/article/details/128359181