京东金融登录行为识别赛题总结

一、对数据以及文件进行说明如下



评判标准如下

(这个式子是求F1公式的变形)

二、特征工程

1、由于比赛中提供了两张表,所以第一步需要将将两张表联系起来。采用的是将每个用户的交易记录与距离该交易记录时间最短的一次成功登录记录进行关联

2、针对登录时间戳,登录时长与交易时长,发现在午夜发生风险的可能比较大,取时间戳的小时数作为一个特征。

3、取用户发生交易的时间与用户用户的登录时间戳(前提是同一个id)取差值,作为一个新的特征。

4、city、ip、device、log_from、type是否发生了频繁变化作为新的特征(同时,原来的city、ip、device、log_from、type就可以舍掉了)。

5、对原来的log_from,type列进行one-hot(有关离散化、onehot、归一化等后续整理说明)处理。

三、模型与不足的总结

1、在train数据集进行划分的过程中,划分方式为随机划分,但是登录时间交易时间与是否有异常交易应该存在一个时间序列问题,所以严格上应该选择train文件最后的数据作为test集。

2、应该多尝试几种模型,例如svm、lr等,并进行bagging、stacking操作。

3、xgboost模型需要深入调参数








猜你喜欢

转载自blog.csdn.net/Jacoob1024/article/details/79961368