货款违约预测第一周周报

AUC评估方法

  • AUC是一种机器学习的评估方法,通常的AUC是指在ROC曲线下的面积,那么要弄懂什么是AUC,首先要知道什么是ROC。
  • 初步理解的ROC是一个输出结果只有两种类型的模型,主要利用混淆矩阵来进行计算。
  • 其中的一些参数主要有:
    • 假正例(FP):若一个实例是负类,而被预测为正类。
    • 真正例(TP):若一个实例是正类,而被预测为正类。
  • 而ROC曲线的x轴为假正例率,y轴为真正例率。
  • AUC即为ROC曲线与坐标轴围成图形的面积,其值通常介于0.5和1之间,越接近1时真实性越高,反之则真实性越低。

初步数据分析

  • 首先对于整个训练集和测试集的样本数量、特征维度进行分析,使用shape函数得到后输出:

在这里插入图片描述

在这里插入图片描述

  • 再查看训练集和测试集数据的条目信息:
    在这里插入图片描述
  • 从数据中可以看出有些值有缺失,需要进行数据的处理。至于是将缺失的数据不予考虑或者选择补充,应该在后续的工作中进行思考。应该再画出相关缺失值的图像来进行分析数据的关键与否,本周没有进行图像的处理,只是进行的初步的数据预处理。

心得

  • 本周是数据挖掘的第一周,主要是对于竞赛题目的简介进行了大致的了解,并且了解了AUC评估方法的运作方式,然后将训练集以及测试集的数据进行的维度和条目的输出,寻找出了数据缺失的列,但是没有对于缺失的列进行处理,该工作将在下周进行。通过本周的学习,将以前所学的数据挖掘知识又重温了一遍,同时了解了AUC评估方法,感觉收获很多。同时许久不用的python又捡起来重新使用,一些库函数的使用不太熟练,需要边学边操作,感觉有点手生了。不过在后续的学习中,相信会重新熟练起来!

猜你喜欢

转载自blog.csdn.net/zdxy921/article/details/108859353