Home Credit Default Risk比赛记录

2018/7/12

1、decription

Home Credict利用其他数据,包括电信和其他交易数据预测该客户的还款能力(概率)。

2、evaluation

ROC曲线面积

3、data

application.csv

性别、汽车、孩子数量、收入、消费贷款商品的价格、贷款信用额、贷款年金、申请贷款陪伴的人、收入来源、学历、家庭状况、房子类型、居住地方的人口数量

2018/7/14

EDA

对application_train进行数据可视化分析

"""
看一下标签的分布
"""
app_train['TARGET'].value_counts()
"""
可以看出类别不平衡
"""app_train['TARGET'].astype(int).plot.hist();
plt.show()

"""
检查缺失值
"""
def missing_values_table(df):
    mis_val = df.isnull().sum()
    
    mis_val_percent = 100*mis_val / len(df)
    
    mis_val_table = pd.concat([mis_val,mis_val_percent],axis=1)
    
    mis_val_table_ren_columns = mis_val_table.rename(columns = {0 : 'Missing Values',1:'% of Total Values'})
    
    mis_val_table_ren_columns = mis_val_table_ren_columns[mis_val_table_ren_columns.iloc[:,1] != 0].sort_values('% of Total Values',
                                                                                                                ascending = False).round(1)
    print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
        "There are " + str(mis_val_table_ren_columns.shape[0]) +
          " columns that have missing values.")

    # Return the dataframe with missing information
    return mis_val_table_ren_columns
# Missing values statistics
missing_values = missing_values_table(app_train)
missing_values.head(40)



猜你喜欢

转载自blog.csdn.net/owenfy/article/details/81021862