パンダは、データを読み取り、Excelがデータタグを複製または削除します

パンダは、典型的には、データの読み出しに優れ後の重量二つの方法に必要であれば、一方は他方が再直接パンダである、標識されて
、以下に示す、データをエクセル:
ここに画像を挿入説明
(1)使用drop_duplicates(サブセット=なし、キープ=「最初 」、インプレース= False)が削除重複
パラメータの:
パラメータ
----------
サブセット:ラベルまたは列ラベルのシーケンス、オプションが
唯一の重複を識別するための特定の列を考えてみましょう、によって
すべての列のデフォルトの使用(列が指定された標識され、各行が完全にデフォルトのレコード
、重複として識別される同じ)
キープ:{「最初の」、「最終」、FALSE}、デフォルトの「最初の」
- firstドロップ重複を除くために最初に出現した。
- lastドロップ最後に出現で重複を除く。
-偽:.ドロップすべての重複
(最初または最後に予約重複行を削除するか、すべてを削除)
インプレース:ブール、デフォルトはFalse
重複は、内場のモデルタイプにドロップするか、Aのコピーに戻ります
(直接交換するか、コピーを保持します)

>>> import pandas as pd
>>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet1')
>>> df
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93
# 如上图所示,df中其实是没有重复的,因此在做删除时,是不会删除任一行的
>>> df.drop_duplicates()
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93
# 删除Name中的相同数据,并保留最后重复中的最后一行记录
>>> df1 = df.drop_duplicates(['Name'], keep='last')
>>> df1
   ID         Name  Test_1  Test_2  Test_3
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93
# 只有当Name, Test_1中两列重复时,才删除重复行
>>> df2 = df.drop_duplicates(['Name', 'Test_1'], keep='first')
>>> df2
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
# 由于此时inreplace默认为false,因此df并不会发生变化
>>> df
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93

(2)df.duplicated(サブセット=なし、キープ=「最初の」)を用いて標識された重複行に

>>> df['res'] = df.duplicated(['Name'], keep='last')
>>> df
   ID         Name  Test_1  Test_2  Test_3    res
0   0  Student_001      41      31      54   True
1   1  Student_002      86      22      59  False
2   2  Student_003      54      25      68  False
3   3  Student_004      82      36      92  False
4   4  Student_001      41      31      93  False
# 这样便对原数据进行了标记,可以将结果输入到excel中,做进一步处理
>>> df.to_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet2', index=None)

ここに画像を挿入説明
Pythonのガジェット:ハハ、それはあなたが私の公共の番号に興味を持って、してください注意を払うしている場合、重複したデータに対処する方法を学ぶパンダのためです。それがより便利にするために一緒に働きます
ここに画像を挿入説明

リリース5元の記事 ウォンの賞賛1 ビュー96

おすすめ

転載: blog.csdn.net/weixin_45144170/article/details/104307931