パンダは、典型的には、データの読み出しに優れ後の重量二つの方法に必要であれば、一方は他方が再直接パンダである、標識されて
、以下に示す、データをエクセル:
(1)使用drop_duplicates(サブセット=なし、キープ=「最初 」、インプレース= False)が削除重複
パラメータの:
パラメータ
----------
サブセット:ラベルまたは列ラベルのシーケンス、オプションが
唯一の重複を識別するための特定の列を考えてみましょう、によって
すべての列のデフォルトの使用(列が指定された標識され、各行が完全にデフォルトのレコード
、重複として識別される同じ)
キープ:{「最初の」、「最終」、FALSE}、デフォルトの「最初の」
- first
:ドロップ重複を除くために最初に出現した。
- last
:ドロップ最後に出現で重複を除く。
-偽:.ドロップすべての重複
(最初または最後に予約重複行を削除するか、すべてを削除)
インプレース:ブール、デフォルトはFalse
重複は、内場のモデルタイプにドロップするか、Aのコピーに戻ります
(直接交換するか、コピーを保持します)
>>> import pandas as pd
>>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet1')
>>> df
ID Name Test_1 Test_2 Test_3
0 0 Student_001 41 31 54
1 1 Student_002 86 22 59
2 2 Student_003 54 25 68
3 3 Student_004 82 36 92
4 4 Student_001 41 31 93
# 如上图所示,df中其实是没有重复的,因此在做删除时,是不会删除任一行的
>>> df.drop_duplicates()
ID Name Test_1 Test_2 Test_3
0 0 Student_001 41 31 54
1 1 Student_002 86 22 59
2 2 Student_003 54 25 68
3 3 Student_004 82 36 92
4 4 Student_001 41 31 93
# 删除Name中的相同数据,并保留最后重复中的最后一行记录
>>> df1 = df.drop_duplicates(['Name'], keep='last')
>>> df1
ID Name Test_1 Test_2 Test_3
1 1 Student_002 86 22 59
2 2 Student_003 54 25 68
3 3 Student_004 82 36 92
4 4 Student_001 41 31 93
# 只有当Name, Test_1中两列重复时,才删除重复行
>>> df2 = df.drop_duplicates(['Name', 'Test_1'], keep='first')
>>> df2
ID Name Test_1 Test_2 Test_3
0 0 Student_001 41 31 54
1 1 Student_002 86 22 59
2 2 Student_003 54 25 68
3 3 Student_004 82 36 92
# 由于此时inreplace默认为false,因此df并不会发生变化
>>> df
ID Name Test_1 Test_2 Test_3
0 0 Student_001 41 31 54
1 1 Student_002 86 22 59
2 2 Student_003 54 25 68
3 3 Student_004 82 36 92
4 4 Student_001 41 31 93
(2)df.duplicated(サブセット=なし、キープ=「最初の」)を用いて標識された重複行に
>>> df['res'] = df.duplicated(['Name'], keep='last')
>>> df
ID Name Test_1 Test_2 Test_3 res
0 0 Student_001 41 31 54 True
1 1 Student_002 86 22 59 False
2 2 Student_003 54 25 68 False
3 3 Student_004 82 36 92 False
4 4 Student_001 41 31 93 False
# 这样便对原数据进行了标记,可以将结果输入到excel中,做进一步处理
>>> df.to_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet2', index=None)
Pythonのガジェット:ハハ、それはあなたが私の公共の番号に興味を持って、してください注意を払うしている場合、重複したデータに対処する方法を学ぶパンダのためです。それがより便利にするために一緒に働きます