京东金融数据挖掘比赛

第一步 数据清洗,我们首先针对那些三个月内没有发生点击,没有发生购买,没有发生贷款同时没有白条贷款的用户,有529个用户,认为在未来一个月不带款,因此数据清洗掉。

第二步 数学建模 采用滑窗法采样扩充训练样本。

第三步 特征选择与筛选。在特征提取的时间窗口,分别为1,5,10,15,30,50,all.

针对loan表,提取贷款金额与贷款天数,贷款金额与贷款次数,贷款次数与贷款天数,贷款金额与时间窗口总天数,贷款次数与时间窗口总天数,贷款天数与时间窗口总天数,分别提取统计特征,统计特征包括均值,标准差,散度,偏度,变异系数,最大值和最小值,峰值到时间序列两端的统计值。针对里面的,贷款金额与贷款天数时间序列,贷款金额与贷款次数,贷款次数与贷款天数时间序列,分别求取微分序列,并同时将其统计特征作为特征用于训练。
针对click表,提取点击次数与点击天数,点击次数与窗口总天数,点击天数与窗口总天数。提取时间序列的统计特征,这包括均值,标准差,散度,偏度,变异系数,最大值和最小值,峰值到时间序列两端的统计值。
针对order表,提取部分品类的分布特征,购买的天数,购买次数等,分品类对次数的分布特征(方差和均值等)。
针对btloan表,提取分期的统计特征和是否免息的统计特征,和他们之间的关联特征。
针对固有特征,主要提取用户的性别,年龄,限额,激活日期等用户的固有属性特征。
交叉特征,提取loan-click交叉特征,loan-order交叉特征和loan-btloan交叉特征和order-btloan交叉特征。
第四步 模型stack。采用不同参数的xgb和不同参数的lgb,用LR做stack集成,得到最终的提交结果。

猜你喜欢

转载自blog.csdn.net/kkkkkkkkq/article/details/82192876
今日推荐