Python を使用してフォルダー内のすべてのテーブルをマージおよび重複排除する


E ドライブのテーブル フォルダーに保存されている 3 つのテーブル table01.xlsx、table02.xlsx、および table03.xlsx をマージして重複を排除する必要がある場合、複数のテーブルをマージして重複を排除する必要がある場合がありますそれらを .xlsx のファイル merge_table
table01。
テーブル01
table02:
テーブル02
table03:
テーブル03
全体的なアイデア:
フォルダー内の Excel ファイルを走査します - 読み取ったファイル データをリストに追加します - pd.concat() メソッドを使用してリストを追加しますすべてのデータをマージします - data.drop_duplicates() を使用します。 マージされたデータの重複を排除します - 新しい Excel ファイルを作成します - 重複排除されたデータをデータフレーム形式に変換し、Excel ファイルに保存します - ファイルを保存します コードは次のとおりです

import pandas as pd
import os
os.chdir('E:\\origin_file\\table')
list=[]   #建立新列表
#1.遍历目标文件夹
for root,dirs,files in os.walk('./'):
	for file in files:
#2.读取excel文件
        data=pd.read_excel(file)
#3.将excel文件加入到新建列表中
        list.append(data)
#4.合并
merge_data=pd.concat(list,axis=0)
#pd.concat()第一个参数为连接对象,格式为列表,axis=0为连接方向,这里等于0表示水平方向连接(默认也是0),等于1表示垂直方向
#更多参数可查看博文https://blog.csdn.net/smf1208/article/details/110726271
#5.去重
merge_quchong=merge_data.drop_duplicates(subset=['filename'],keep='first',inplace=False)
#data.drop_duplicates的参数subset=['filename']表示需要去重的列名,这里是需要去重“filename”字段;keep='first'表示保留第几次出现的重复行,删除后面的重复行,这里是保留第一次出现的行(默认也是‘first’);inplace=False表示是否删除所有重复项,这里表示是(默认也是'False')
#详细内容可查看https://zhuanlan.zhihu.com/p/116884554
#6.转化为dataframe格式
df=pd.DataFrame(merge_quchong)
#7.建立excel文件
writer=pd.ExcelWriter('./merge_table.xlsx')
#8.储存到excel文件
df.to_excel(writer,'sheet1',startcol=0,index=False)
#9.保存文件
writer.save()

merge_table:
ここに画像の説明を挿入知識ポイント:
1. フォルダーの移動
2. マージ
3. 重複排除
4. 保存
作成は簡単ではありません。いいね、ブックマーク、フォロー、サポートをお願いします。ブロガー向けに、より詳細で実践的なチュートリアルを順次公開していきます。

おすすめ

転載: blog.csdn.net/weixin_47970003/article/details/121792711