20.数据预处理之重复值处理 - 代码天地

20.数据预处理之重复值处理

其他 2020-04-02 08:59:46 阅读次数: 0

数据清洗一般是现从重复值和缺失值开始处理的
重复值一般采用删除法来处理
但有些重复值不能删除，例如订单明细数据或交易明细数据等

#使用duplicated()方法判断数据是否重复
df[df.duplicated()]
np.sum(df.duplicated())
df.drop_duplicates()
df.drop_duplicates(subset=['appname','size'],inplace=True)

#实操
import pandas as pd
import numpy  as np
import os

os.chdir(r'your path')
#na_values:把某一个值转化为空字符串，na_values='Man'，将数据Man转化为缺失值NaN
df=pd.read_csv('yourFile.csv',encoding='gbk',na_values='Man')
df.head(10)

#将$134.987转化为134987
def f(x)
    if '$' in str(x):
        x=str(x).strip('$')
        x=str(x).replace(',','')
    else:
        x=str(x).replace(',','')
    return float(x)

df['Price']=df['Price'].apply(f)
#对每一行进行判断，是否有重复值，返回bool向量
df.duplicated()
#只要有一个重复值，即返回True
any(df.duplicated())

#输出重复的行数据
df[df.duplicated()]
#重复的数据的个数
np.sum(df.duplicated())

#除去重复数据后的数据的视图
df.drop_duplicated()

#除去重复数据后的数据的文件
df.drop_duplicated(inplace=True)

#
df.columns

#判断指定的字段直接是否有重复值
df.drop_duplicates(subset=['Id','Sex','Price','Location'],inplace=True)

df.info()

DLANDML

发布了94 篇原创文章 · 获赞 22 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/l641208111/article/details/104241485

20.数据预处理之重复值处理

机器学习之数据预处理——数据清洗(缺失值、异常值和重复值的处理)

数据预处理查看重复值删除--python

20.异常处理

20.事件处理

21.数据预处理之缺失值处理

数据清洗之重复值处理

数据预处理-缺失值

数据预处理_缺失值

预处理之缺失值处理

数据预处理：缺失值处理

数据预处理--缺失值处理

数据预处理：处理缺失值

二、数据预处理——缺失值处理

数据预处理──缺失值处理

机器学习之数据预处理——缺失值

机器学习之数据预处理——缺失值填充

4.pandas数据预处理（上）（重复值、异常值、缺失值）（完）

weka之数据预处理

keras之数据预处理

PaddlePaddle之数据预处理

数据预处理之清洗

20. 数据集的标准化处理

数据预处理之异常值处理

数据集缺失值预处理

python数据预处理之缺失值简单处理，特征选择

数据预处理_数据清理（缺失值、噪声等详细处理）

[数据挖掘]数据预处理-缺失值处理

数据预处理--缺失值和异常值的处理

数据的预处理基础：如何处理缺失值

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)