Python数据分析5——数据清洗

编程语言 2023-04-07 01:13:59 阅读次数: 0

目录

Python数据清洗

数据清洗介绍

处理缺失值

判断数据是否为NaN

过滤缺失值

补全缺失值

处理重复数据

判断重复值

删除重复值

向量化字符串函数

Python数据清洗

数据清洗介绍

数据清洗实际上也是数据质量分析，检查原始数据中是否存在脏数据(不符合要求，或者不能直接进行分析的数据)，并且处理脏数据。

常见情况如下

缺失值
异常值
重复数据

处理缺失值

Pandas使用浮点值NaN(not a Number)表示缺失值，并且缺失值在数据中时常出现。那么Pandas的目的之一就是"无痛地"处理缺失值。

判断数据是否为NaN

pd.isnull(df) 返回哪些值是缺失值的布尔值
pd.notnull(df) 返回值是isnull的反集

注意

Python内建的None值也被当作NaN

过滤缺失值

dropna(axis=0,how='any',inplace=False)

- axis 指定轴默认为0 代表行
- how 默认为any 代表删除含有NaN的行当为all 时代表删除所有值为NaN的行
- inplace 修改被调用的对象而不是一个备份

补全缺失值

df.fillna(value=None,method=None,axis=None,inplace=False,limit=None)

- value 标量或字典对象用于填充缺失值
- method 插值方法默认为"ffill"
- axis 需填充的轴默认为0
- inplace 修改被调用的对象而不是一个备份
- limit 用于向前或向后填充时最大的填充范围

异常值

脏数据也包含不符合要求的数据，那么对这块数据处理不能直接使用fillna填充。使用replace更加灵活。

df.replace(to_replace=None,value=None)

- to_replace 去替换的值
- value 替换的值

处理重复数据

判断重复值

df.duplicated(subset=None, keep='first') 返回的一个布尔值Series 默认反映的是每一行是否与之前出现过的行相同

- subset 指定子列判断重复
- keep 默认为first保留首个出现的 last保留最后出现的

删除重复值

df.drop_duplicates()，返回的是DataFrame 默认删除重复行

- subset 指定的数据任何子集是否有重复
- keep 默认为first保留首个出现的 last保留最后出现的

离散化

离散化是把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。

可以简单的理解为离散化就是将连续值进行分区间。

pd.cut(x,bins) 将连续数据x进行离散化

- x 要进行离散化的数据
- bins 分组
pd.value_counts(cates) 统计每个区间的数值分布

向量化字符串函数

使用例子：

（可以结合正则使用）

猜你喜欢

转载自blog.csdn.net/qq_52914337/article/details/125121125

Python数据分析5——数据清洗

5、Python 数据分析-Pandas数据清洗【2】

【Pandas数据分析5】数据清洗

【Python数据分析】数据预处理1——数据清洗

利用Python进行数据分析——数据清洗与准备

python数据分析与挖掘之数据清洗

python数据分析pandas中的DataFrame数据清洗

python数据分析之清洗数据：缺失值处理

python 数据分析8 pandas 数据清洗&预处理

4.Python 数据分析-基于pandas的数据清洗

【Python数据分析学习笔记-7】数据清洗与整理-数据清洗

Python数据分析实战基础 | 清洗常用4板斧

数据分析中如何清洗数据？

数据分析——数据清洗和准备

Python数据分析-5

数据分析-EXCEL操作-文本清洗

数据分析之清洗和整理

《Python数据分析与数据挖掘实战》第十章学习——数据清洗

用Python进行数据整合与数据清洗！资深数据分析师整理！

【100天精通Python】Day56：Python 数据分析_Pandas数据清洗和处理

茄子快传数据分析之原理分析及数据清洗

利用python对2012美国大选进行数据分析（二，数据清洗）

Python数据分析学习笔记（4）数据探索与清洗实战

python数据分析05——Pandas数据清洗、转换和面元划分

python 数据分析基础 day18－使用pandas进行数据清洗以及探索

利用Python进行数据分析第7章数据清洗和准备

利用Python进行数据分析第7章数据清洗和准备（2）

【Python数据分析-8】数据清洗与整理-字符串处理

利用python进行数据分析—8.数据清洗与准备

python 数据整理与清洗在水质自动监测数据分析中的应用

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)