python - 常用数据清洗方法-重复项处理 - 代码天地

python - 常用数据清洗方法-重复项处理

其他 2019-11-22 12:17:31 阅读次数: 0

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

1.重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除.

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测: 
 True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作.

猜你喜欢

转载自www.cnblogs.com/tinglele527/p/11910693.html

python - 常用数据清洗方法-重复项处理

Python数据清洗 | 常用的数据清洗方法

数据处理常用方法及示例——Python数据清洗

python清洗Excel数据常用方法

学习笔记(07):Python数据清洗实战-重复值处理

学习笔记(32):Python数据清洗实战-重复值处理

python数据清洗的三个常用的处理方式！

【python】数据挖掘分析清洗——缺失值处理方法汇总

「Python」数据清洗常用正则

python大数据的数据清洗和准备（对缺失值的处理，对重复数据的处理，对异常值的处理，数据转换）

Python数据预处理 - 清洗你见过的各种类型的重复

python数据处理-数据清洗

python数据清洗工具、方法、过程整理归纳（一、数据清洗之常用工具——numpy，pandas）

python数据清洗之学习总结（一、数据预处理之常用工具）

Python：14个常用数据清洗代码

Python数据清洗--缺失值识别与处理

学习笔记(16):Python数据清洗实战-Pandas常用数据结构dataframe和方法

学习笔记(38):Python数据清洗实战-Pandas常用数据结构dataframe和方法

学习笔记(37):Python数据清洗实战-Pandas常用数据结构series和方法

学习笔记(05):Python数据清洗实战-Pandas常用数据结构dataframe和方法

学习笔记(04):Python数据清洗实战-Pandas常用数据结构series和方法

【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总

【python】数据挖掘分析清洗——离群点(异常值)处理方法汇总

python常用的数据预处理方法

python pandas常用数据处理方法

python常用的数据集处理方法

【Python数据处理篇——DataFrame数据清洗】重复值处理、缺失值处理、特定值替换、删除指定条件行

Python数据攻略-Pandas常用数据操作与数据清洗

【Python数据分析】数据预处理1——数据清洗

python3 数据处理（二）-- 清洗数据

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)