Pyspark+tensorflow-信用贷款数据分析实战(三)——数据提取

3.数据提取

  • 目的:建立因果关系模型
  • 数据提取的时候要对数据有一定的认识,不能是相关而应该是因果(区分相关关系和因果关系),预测的变量x要在被预测变量y之前取得

相关关系:一个小孩子身高的长高速度和GDP增长的速度就可以做相关关系,但这明显没有什么关系。

因果关系:家庭收入和全国GDP总量,这就明显具有一定的因果关系。
在这里插入图片描述
细分了特征变量之后,就有了下面的模型框架:
在这里插入图片描述

观察窗口(历史)看解释变量:

  • 如果是静态变量可以任意提取因为不管它在历史还是未来都不变;
  • 如果是时点变量可以提取放贷前(红蓝分界线)任意时间点的数据,例如余额,资产收入,资产支出等;
  • 如果是区间变量可以提取放贷日前一年或者前两年的数据,例如平均账户余额,平均账户余额的增长率

这就模拟了放贷人员在放贷之前的审批准则(能够看到客户的)

预测窗口(未来)看被解释变量y:

  • 是否拖欠贷款

观察窗口和预测窗口提取数据逻辑要符合实际情况,这样设计的窗口才能得到可用的有价值的模型。

例如:有些股票预测模型,买之前预测的很准,买之后准确率就下降了,这就是因为没有分清x是什么类型的变量,取的是所有时段的,导致预测与实际情况不符

如需数据:请添加QQ1240929749,备注:csdn数据

猜你喜欢

转载自blog.csdn.net/weixin_43676010/article/details/103778632