消费金融场景下的用户购买预测

数据形式

(1)个人属性与信用卡消费数据:包含80000名信用卡客户的个人属性与信用卡消费数据,其中包含枚举型特征和数值型特征,均已转为数值并进行了脱敏和标准化处理。数据样例如下:

USRID V1 V2 v3 … V30
000001 -1.2212 0.4523 1.3251 … -1.2212
000002 -1.0987 0.0165 -1.0684 … 0.0925
(2) APP操作行为日志:上述信用卡客户中,部分已绑定掌上生活APP的客户,在近一个月时间窗口内的所有点击行为日志。日志记录包含如下字段:

字段名 字段含义 说明
USRID 客户号 已匿名处理
EVT_LBL 点击模块名称 已清晰并编码
OCC_TIM 触发时间 用户触发该事件的精准时间
TCH_TYP 事件类型 0:APP,1:WEB,2:H5
其中,点击模块名称均为数字编码(形如231-145-18),代表了点击模块的三个级别(如饭票-代金券-门店详情)。

(3)标注数据:包括客户号及标签。其中,标签数据为用户是否会在未来一周,购买掌上生活APP上的优惠券。具体数据结构如下:

字段名 字段含义 说明
USRID 客户号 已匿名处理
FLAG 未来一周是否购买APP上的优惠券 0:未购买,1:购买
测试数据前两部分与训练数据相同,但不提供标注数据。

数据模型

1、缺失的补充
这里数据主要缺失的是日志数据,这里主要针对数值特征采用中位数,对于类别特征采用的是众数。
2、异常值处理
去除个人属性与信用卡消费数据中离群点,去除这种数据。
3、特征工程
个人属性与信用卡消费数据
a、个人属性与信用卡消费数据(30维数值特征)
针对日志数据提取
a、一月内每天点击的次数(30维)
b、1天24小时,每小时的点击次数(24维)
c、一周7天,每天的点击次数(7维)
针对点击不同位置特征信息
a、EVT_LBL 共有616类
EVT_LBL_1 共有21类
EVT_LBL_2 共有178类
EVT_LBL_3 共有616类
构造616为维特征,每一维度为点击的次数
因此总共可以得到 30+30+24+7+616=707

1.CNN模型
构造27*27 张量,这里首先是将数据归一化到0到 1之间,同时将三种类别的特征摆放在一起。
5*5网络的深度是6层,最后一层fc层。
数据量 80000用户

2、xgb模型,除了前面的提取的特征外,还另外提取一周次数衰减特征,还有部分手工的交叉特征。

最终将两个模型集成一起得到最后的结果。

猜你喜欢

转载自blog.csdn.net/kkkkkkkkq/article/details/82192276
今日推荐