任务

关于数据类型转换以及缺失值处理（尝试不同的填充看效果）以及你能借鉴的数据探索

特征工程

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score
from sklearn.metrics import roc_auc_score,roc_curve,auc

数据探索

首先观察一下数据构成：

data = pd.read_csv('data.csv',encoding='gbk')
data.head()

data.shape

(4754, 90)

特征删除

#删除一些与识别个人身份相关的特征
data.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)
data.drop('Unnamed: 0',axis=1,inplace=True)

将数据划分成X,y,并将X划分为数值型和非数值型

#数据划分为数值型、非数值型、标签
X_num = (data.drop('status',axis=1)).select_dtypes('number').copy()
X_str = data.select_dtypes(exclude='number').copy()
y = data['status']

#删除只有单一值的数据
for col in X_str:
    if len(X_str[col].unique()) == 1:
        print(col)
for col in X_num:
    if len(X_num[col].unique()) == 1:
        print(col)
        
X_str.drop('source',axis=1,inplace=True)

缺失值处理

X_num_miss = ( X_num.isnull().sum()/len(X_num) ).sort_values(ascending=False)
X_num_miss.head()

X_str_miss = (X_str.isnull().sum() / len(X_str)).sort_values(ascending=False)
X_str_miss

可以看到，缺失率最高的特征是student_feature,超过一半的数据缺失，其他的特征缺失率都在10%以下。对于高缺失率的特征，有两种方法进行处理，一个是EM插补，另一个是多重插补。由于两种方法比较复杂，这里先将缺失值归为一类，用0填充。

#X_num['student_feature'].value_counts()
X_num.fillna(0,inplace=True)

其他特征用众数填充缺失值

X_num.fillna(X_num.mode().iloc[0,:],inplace=True)
X_str.fillna(X_str.mode().iloc[0,:],inplace=True)
#用前后数据填充
#X_num.fillna(method='pad',inplace=True)
#X_um.fillna(method='bfill',inplace=True)
#用插值法填充
#X_num = X_num.interpolate()

异常值处理

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
for i, col in enumerate(X_num.columns):
    plt.figure(i + 1,figsize=(10, 5))
    #小提琴图
    sns.violinplot(y=X_num[col],x=y)

用IQR方法处理极端值，IQR = 上四分位数（Q3）-下四分位数（Q1）。异常值为大于上四分位数、小于下四分位数的值，也就是说用Q3+1.5IQR和Q1-1.5IQR对极端值进行修正，成为新的极大、极小值。

#极端值处理函数
def iqr_outlier(x, thre=1.5):
    x_cl = x.copy()
    q25, q75 = x.quantile(q=[0.25,0.75])
    iqr = q75 - q25
    top = q75 + thre * iqr
    bottom = q25 - thre * iqr
    
    x_cl[x_cl > top] = top
    x_cl[x_cl < bottom] = bottom 
    
    return x_cl

#对进行缺失值填充后的数据进行极端值修正
X_num_cl = pd.DataFrame()
for col in X_num.columns:
    X_num_cl[col] = iqr_outlier(X_num[col])
    
X_num = X_num_cl

特征生成

在处理离散型特征时有几种编码方式：序号编码、独热编码、二进制编码。序号编码用于处理类别间有大小关系的数据，独热编码用于处理无序关系的数据，二进制编码是对数据先做序号编码，然后将序号转换为二进制得到0\1特征向量，这种方法相比于独热编码来说转换后的向量维数比较少，可以节约存储空间。所以当特征中的分类数较多的时候不妨使用二进制编码。
这里要处理的是reg_preference_for_trad特征，数据之间没有序关系，只有五类，适合用独热编码将之转换为哑变量。

X_str.head()

#独热编码
X_str_dummy = pd.get_dummies(X_str['reg_preference_for_trad'])
#序号编码
'''
dic = {}
for i,j in enumerate(set(X_str['reg_preference_for_trad']):
    dic[j] = i
X_str['reg_preference_for_trad'] = X_str['reg_preference_for_trad'].map(dic)
'''

#处理日期型特征
X_date = pd.DataFrame()
X_date['latest_query_time_year'] = pd.to_datetime(X_str['latest_query_time']).dt.year
X_date['latest_query_time_month'] = pd.to_datetime(X_str['latest_query_time']).dt.month
X_date['latest_query_time_weekday'] = pd.to_datetime(X_str['latest_query_time']).dt.weekday
X_date['loans_latest_time_year'] = pd.to_datetime(X_str['loans_latest_time']).dt.year
X_date['loans_latest_time_month'] = pd.to_datetime(X_str['loans_latest_time']).dt.month
X_date['loans_latest_time_weekday'] = pd.to_datetime(X_str['loans_latest_time']).dt.weekday

特征合并

X_cl = pd.concat([X_num,X_str_dummy,X_date],axis=1,sort=False)
X_cl.shape

（4754，91）

特征缩放

数据归一化

from sklearn.preprocessing import MinMaxScaler
X_min_max = MinMaxScaler().fit_transform(X_cl)

数据标准化

from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X_cl)

划分训练集、模型评估和选择

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost.sklearn import XGBClassifier
from lightgbm.sklearn import LGBMClassifier

X_std_train,X_std_test,y_train,y_test = train_test_split(X_std,y,test_size=0.3,random_state=1122)

print("逻辑回归")
lr = LogisticRegression()
lr.fit(X_std_train,y_train)
print("决策树")
dtc = DecisionTreeClassifier(max_depth=8)
dtc.fit(X_std_train,y_train)
print("svm线性核")
svm = SVC(kernel='linear',probability=True)
svm.fit(X_std_train,y_train)
print("xgboost")
xgbc = XGBClassifier()
xgbc.fit(X_std_train,y_train)
print("lightgbm")
lgbc = LGBMClassifier()
lgbc.fit(X_std_train,y_train)
print('all done!')

#模型评估
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import roc_auc_score, roc_curve, auc
import matplotlib.pyplot as plt

def model_metrics(clf, X_train, X_test, y_train, y_test):
    y_train_pred = clf.predict(X_train)
    y_test_pred = clf.predict(X_test)
    
    y_train_prob = clf.predict_proba(X_train)[:,1]
    y_test_prob = clf.predict_proba(X_test)[:,1]
    
    #准确率
    print('准确率:\n')
    print('训练集: ','%.4f'%accuracy_score(y_train,y_train_pred), end=' ')
    print('测试集: ','%4f'%accuracy_score(y_test,y_test_pred),end=' ')
    
    #精准率
    print('精准率:\n')
    print('训练集: ','%.4f'%precision_score(y_train,y_train_pred),end=' ')
    print('测试集: ','%.4f'%precision_score(y_test,y_test_pred),end=' ')
    
    #召回率
    print('召回率:\n')
    print('训练集: ','%.4f'%recall_score(y_train,y_train_pred),end=' ')
    print('测试集: ','%.4f'%recall_score(y_test,y_test_pred),end=' ')
    
    #f1_score
    print('f1-score:\n')
    print('训练集: ','%.4f'%f1_score(y_train,y_train_pred),end=' ')
    print('测试集: ','%.4f'%f1_score(y_test,y_test_pred),end=' ')
    
    #auc
    print('auc:\n')
    print('训练集: ','%.4f'%roc_auc_score(y_train,y_train_prob),end=' ')
    print('测试集: ','%.4f'%roc_auc_score(y_test,y_test_prob),end=' ')
    
    #roc曲线
    fpr_train, tpr_train, thred_train = roc_curve(y_train,y_train_prob,pos_label=1)
    fpr_test, tpr_test, thred_test = roc_curve(y_test,y_test_prob,pos_label=1)
    
    label = ['Train - AUC:{:.4f}'.format(auc(fpr_train,tpr_train)),
             'Test - AUC:{:.4f}'.format(auc(fpr_test,tpr_test))]
    plt.plot(fpr_train,tpr_train)
    plt.plot(fpr_test,tpr_test)
    plt.plot([0,1],[0,1],'d--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.legend(label, loc = 4)
    plt.title('ROC Curve')

model_metrics(lr,X_std_train,X_std_test,y_train,y_test)

model_metrics(svm,X_std_train,X_std_test,y_train,y_test)

model_metrics(dtc,X_std_train,X_std_test,y_train,y_test)

model_metrics(xgbc,X_std_train,X_std_test,y_train,y_test)

model_metrics(lgbc,X_std_train,X_std_test,y_train,y_test)

比较

评分相比于之前普遍有1%左右的提升。

参考

数据预处理总结

机器学习缺失值处理方法

百面机器学习

客户贷款逾期预测[5] - 特征工程

任务