Python数据挖掘学习3单属性分析（实战） - 代码天地

Python数据挖掘学习3单属性分析（实战）

其他 2019-04-11 11:21:45 阅读次数: 0

这里关键就是对每个属性进行各种查看，然后对其中异常的数值进行剔除，主要就是平均数、峰值啊等的查看，直接上常用的函数了。

例如

1.通过平均值和最大值最小值对比可能发现数据都是k附近的，但是最大值或者最小值远远偏离k，说明最大值或最小值可能是个异常值，处理方法：取边界值或者舍弃掉。

2.某个属性中为空，也说明位异常值。

3.如果计算的某个数值的范围为0-1，利用最大值最小值可以看出是否存在异常值。

（这些都是针对具体属性的要求来观察的）

import pandas as pd
import scipy.stats as ss
import numpy as np
df=pd.read_csv("/Users/ren/PycharmProjects/untitled7/data/HR_comma_sep.csv")
print(df)
#异常值分析
sl_s=df['satisfaction_level']
#查看所以数据的satisfaction_level
print(sl_s.isnull())
#仅查看异常的satisfaction_level
sl_s[sl_s.isnull]
#丢弃异常数据
sl_s=sl_s.dropna();
#查看均值
sl_s.mean()
#查看标准差
sl_s.std()
#最大值
sl_s.max()
#最小值
sl_s.min()
#中位数
sl_s.median()
#下4分位数
s_low=sl_s.quantile(q=0.25)
#上4分位数
s_high=sl_s.quantile(q=0.75)
#四分位间距
s_interval=s_high-s_low

#剔除异常值
k=1.5
sl_s=sl_s[sl_s<s_high+k*s_interval][sl_s>s_low-k*s_interval]

#偏度
sl_s.skew()
#峰度
sl_s.kurt()
#获取数据用np
#参数：数值，分布间隔
np.histogram(sl_s.values,bins=np.arange(sl_s.min(),sl_s.max(),0.1))
#分成十份
np.histogram(sl_s.values,bins=10)
#计算数字出现次数
np.sl_s.value_counts()
#计算数字出现次数的比例
np.sl_s.value_counts(normalize=True)
#计算数字出现次数的比例的排序
np.sl_s.value_counts(normalize=True).sort_index()
#ycounts也有bins属性，统计区间的出现次数
np.sl_s.value_counts(bins=(sl_s.min(),sl_s.max(),0.1))
#清除特定异常值,为xxx
sl_s.where(sl_s!='xxx').dropna()

猜你喜欢

转载自blog.csdn.net/RHJlife/article/details/89197230

Python数据挖掘学习3单属性分析（实战）

Python数据挖掘学习2单属性分析

学习python数据分析与挖掘实战

Python3数据分析与挖掘建模实战学习教程

Python3数据分析与挖掘建模实战视频

Python3数据分析与挖掘建模实战

Python3数据分析与挖掘实战

Python3数据分析与挖掘建模实战 ☝☝☝

Python数据分析与挖掘实战学习资料

python数据分析与挖掘实战学习笔记（二）

python数据分析与挖掘实战学习笔记（一）

[数据分析]Python3数据分析与挖掘实战价值899元

Python数据挖掘实战——相关分析

python数据分析与挖掘实战

Python数据分析与挖掘实战总结

python数据分析与挖掘实战（五）

python数据分析与挖掘实战（四）

python数据分析与挖掘实战（三）

【笔记】python数据分析与挖掘实战

Python数据挖掘学习6方差检验（单属性）

Python3数据分析与挖掘建模实战实战课程含源码

《Python数据分析与数据挖掘实战》第十五章学习——文本分析

python 数据挖掘（3）-- 数据特征分析

《Python数据分析与挖掘实战》代码纠错3-3

《Python数据分析与数据挖掘实战》第十章学习——数据清洗

《Python数据分析与数据挖掘实战》第十四章学习——层次聚类

《Python数据分析与数据挖掘实战》第十三章学习——预测

《Python数据分析与数据挖掘实战》第十一章学习——ARMA模型

《Python数据分析与数据挖掘实战》第九章学习——支持向量机

最新Python3数据分析与挖掘建模实战视频

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)