pandas数据清洗--处理重复数据

import pandas as pd

data = pd.DataFrame(
    {
    
    'age': [28, 31, 27, 28],
    'gender': ['M', 'M', 'M', 'F'],
    'surname': ['Liu', 'Li', 'Chen', 'Liu']}
)
data
#判断有无重复数据
data.duplicated()
#判断两列'age', 'surname'有无重复数据
data.duplicated(subset=['age', 'surname'])
#去掉重复数据
data.drop_duplicates(subset=['age', 'surname'])
#去掉重复数据 保留后者
data.drop_duplicates(subset=['age', 'surname'], keep='last')


猜你喜欢

转载自blog.csdn.net/lildn/article/details/114585316
今日推荐