澳新银行数据科学竞赛第四名方案

简介

赛题链接:http://www.pkbigdata.com/common/cmpt/ANZ%20Chengdu%20Data%20Science%20Competition_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html?lang=en_US

本次比赛排名为:4/299 (因为纯英文答辩和提交,所以参加人较少)

队伍名:没事有我在

开源github:https://github.com/isthegoal/ANZ_Chengdu_rank4_solution

方案

github中有详细方案ppt,这里列举一下思路。

1.数据分析

    *分析每个特征的分布情况,可找到的数据分布特点。 
    *分析特征和目标特征的相关情况,对构建特征的指导意义。  
    *缺失特征情况展示。  
    *PCA降维分析图 

2.数据预处理

    *重要且缺失少的特征的补全  
    *类型转编码 

3.特征工程

    *构建分箱离散化特征  
    *构建交叉特征  
    *构建排序特征  
    *使用贪心+模型法进行特征筛选  
    *使用贪心+皮尔顿相关系数去除高相关性特征 

4.模型融合

    *lgb模型  
    *xgb模型  
    *GBDT模型  
    *NN+GBDT模型  
    *GBDT+LR模型  
    *五种模型的加权融合 

猜你喜欢

转载自blog.csdn.net/maqunfi/article/details/84503114