贷款违约预测第三周周报

进一步数据分析

  • 上一次对数据进行了简单的特征值处理,填补了缺失值,将数据格式做了处理,用基本原版的数据跑了一遍模型,成绩一般,所以这周将对数据进行进一步的分析处理,筛选出有更有意义的特征数据来进行训练,从而得出更好的结果。
  • 首先根据常识分析,判断是否违约,有几个特征值是一般来说比较关键的:贷款金额、贷款人的年收入。这两个变量是直观来看,一个人是否会违约的关键数据,比如我贷款1块钱,那我没道理违约,我年收入一亿元,那我大概率也不会违约。当然这只是直观的想法,具体的分析在统计图上看出:
    在这里插入图片描述
  • 首先是贷款金额的数据分布图,从图中可以看出,大部分的贷款金额在5K-25K之间,低于5K和高于25K的贷款金额量较少。
  • 再看贷款金额的违约情况:
    在这里插入图片描述
  • 图中1表示违约了,0表示没有违约,所以可以看出,在贷款金额小于10K左右的时候,违约的人数较少,而大于10K的时候,违约的人数较多,这也可以作为一个比较重要的特征值来加入模型的训练。
  • 然后再看年收入的情况:
    在这里插入图片描述
  • 图中可以看出,年收入差距非常大。再看和是否违约的关系图:
    在这里插入图片描述
  • 图中只能大致看出违约的人数较多,在高于一定值后基本是不会违约的。但是由于数据的差异太大,所以在此暂时不考虑作为特征值参与模型的训练。

小结

  • 本周主要是在上周的模型中,做了数据的分析处理,根据直观的感受,抓出两个特征值来进行分析,暂时将年收入这个特征值放弃,下周主要是继续进行数据分析处理,然后将处理后的数据再跑一遍模型,看看成绩是否比上次好一些,然后一步一步优化自己的模型,从而将结果做到最好。

猜你喜欢

转载自blog.csdn.net/zdxy921/article/details/109014987