数据挖掘——EDA(数据探索性分析)

文章目录

数据挖掘——EDA(数据探索性分析)

通过对数据的可视化可以让我们对数据有一个直观的感受。但是我之前对于它们的仅仅只是简单的通过散点图，和直方图。

数据的预处理也是使用的前提。用pandas中一些普通统计方法。

下面就我的新收获和学习到的地方展开

了解预测值的分布
- 总体分布概况（无界约翰逊分布等）
- 查看skewness and kurtosis
- 查看预测值的具体频数
特征分为类别特征和数字特征，并对类别特征查看unique分布
- 数字特征分析
- 相关性分析
- 查看几个特征得偏度和峰值
- 每个数字特征得分布可视化
- 数字特征相互之间的关系可视化多变量互相回归关系可视化
类型特征分析
unique分布
类别特征箱形图可视化
类别特征的小提琴图可视化
类别特征的柱形图可视化类别
特征的每个类别频数可视化(count_plot)
用pandas_profiling生成数据报告

载入数据与缺失值的处理

dataframe.head(10)
#查看维数
dataframe.shape()
#查看详细信息
dataframe.info()
#查看列名
dataframe.columns
#查看统计信息，注意是统计信息
dataframe.describe()

数据并不一定是完美的，有Nan值是正常的

#通过pandas中isnull来判断并统计
dataframe.isnull().sum()
#进行柱状图的可视化
# nan可视化
missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

#修改一个对象时：inplace=True：不创建新的对象，直接对原始对象进行修改；inplace=False：对数据进行修改，创建并返回新的对象承载其修改结果。

missingno

这个缺失值可视化包missingno对于NULL的处理提供了更强大的功能，配合pandas使用

python import missingno as msno

# 可视化看下缺省值
msno.matrix(Train_data.sample(250))

msno.bar(Train_data.sample(1000))

除去缺失值到底是哪些，因为还有可能不是显式的指明缺失值

Train_data['notRepairedDamage'].value_counts()

缺失值处理

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
#再次查看，是否替换处理成功
Train_data['notRepairedDamage'].value_counts()

对于特征倾斜，如果特别严重，那么极大可能对于我们的预测是没有作用的。

Train_data["seller"].value_counts()

了解数据的分布

总体分布概况（无界约翰逊分布等）

#总体分布概况（无界约翰逊分布等）
import scipy.stats as st
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)

统计特征的偏度和峰度

查看skewness(偏度) and kurtosis(峰度)

查看skewness(偏度) and kurtosis(峰度)
sns.distplot(Train_data['price']);
print("Skewness: %f" % Train_data['price'].skew())
print("Kurtosis: %f" % Train_data['price'].kurt())

Train_data.skew(), Train_data.kurt()

利用seaborn进行可视化

sns.distplot(Train_data.skew(),color='blue',axlabel ='Skewness')
sns.distplot(Train_data.kurt(),color='orange',axlabel ='Kurtness')

skew、kurt说明参考1

skew、kurt说明参考2

查看预测值的具体频数

plt.hist(Train_data['price'], orientation = 'vertical',histtype = 'bar', color ='red')
plt.show()
# log变换 z之后的分布较均匀，可以进行log变换进行预测，这也是预测问题常用的trick
plt.hist(np.log(Train_data['price']), orientation = 'vertical',histtype = 'bar', color ='red') 
plt.show()

特征分为类别特征和数字特征，并对类别特征查看unique分布

Pandas nunique() 用于获取唯一值的统计次数。dropna 默认参数设置为True，因此在计算唯一值时排除了NULL值。

# 特征nunique分布
for cat_fea in categorical_features:
    print(cat_fea + "的特征分布如下：")
    print("{}特征有个{}不同的值".format(cat_fea, Train_data[cat_fea].nunique()))
    print(Train_data[cat_fea].value_counts())

# 特征nunique分布
for cat_fea in categorical_features:
    print(cat_fea + "的特征分布如下：")
    print("{}特征有个{}不同的值".format(cat_fea, Test_data[cat_fea].nunique()))
    print(Test_data[cat_fea].value_counts())

数字特征分析

查看几个特征得偏度和峰值

for col in numeric_features:
 print('{:15}'.format(col), 
 'Skewness: {:05.2f}'.format(Train_data[col].skew()) , 
 ' ' ,
 'Kurtosis: {:06.2f}'.format(Train_data[col].kurt()) 
 )

每个数字特征得分布可视化

f =pd.melt(Train_data,value_vars=numeric_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")

数字特征相互之间的关系可视化

sns.set()
columns = ['price', 'v_12', 'v_8' , 'v_0', 'power', 'v_5', 'v_2', 'v_6', 'v_1', 'v_14']
sns.pairplot(Train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde')
plt.show()

类别特征分析

盒图

它由五个数值点组成：最小值(min)，下四分位数(Q1)，中位数(median)，上四分位数(Q3)，最大值(max)。也可以往盒图里面加入平均值(mean)。如上图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线，这个延伸线成为“胡须(whisker)”。

由于现实数据中总是存在各式各样地“脏数据”，也成为“离群点”，于是为了不因这些少数的离群数据导致整体特征的偏移，将这些离群点单独汇出，而盒图中的胡须的两级修改成最小观测值与最大观测值。

# 因为 name和 regionCode的类别太稀疏了，这里我们把不稀疏的几类画一下
categorical_features = ['model',
'brand',
'bodyType',
'fuelType',
'gearbox',
'notRepairedDamage']
for c in categorical_features:
 Train_data[c] = Train_data[c].astype('category')
 if Train_data[c].isnull().any():
 Train_data[c] = Train_data[c].cat.add_categories(['MISSING'])
 Train_data[c] = Train_data[c].fillna('MISSING')
def boxplot(x, y, **kwargs):
 sns.boxplot(x=x, y=y)
 x=plt.xticks(rotation=90)
f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(boxplot, "value", "price")

类别特征的小提琴图可视化

小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征，主要用来显示数据的分布形状。跟箱形图类似，但是在密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。

catg_list = categorical_features
target = 'price'
for catg in catg_list :
 sns.violinplot(x=catg, y=target, data=Train_data)
 plt.show()

类别特征的柱形图可视化

def bar_plot(x, y, **kwargs):
 sns.barplot(x=x, y=y)
 x=plt.xticks(rotation=90)
f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(bar_plot, "value", "price")

类别特征的每个类别频数可视化(count_plot)

def count_plot(x, **kwargs):
 sns.countplot(x=x)
 x=plt.xticks(rotation=90)
f = pd.melt(Train_data, value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(count_plot, "value")

用pandas_profiling生成数据报告

pfr = pandas_profiling.ProfileReport(Train_data)
pfr.to_file("./example.html")