数据比赛整理：西南财经大学-新网银行杯数据科学竞赛

首先这个比赛我并没有认真完成，只用了lr模型写了个baseline，提交了有10次，之后就因为个人原因放弃了。现在比赛已经结束了，也有人在竞赛圈分享了自己的思路，我看了一下，对比自己为很么没有上分成功，因此做这么一个记录。

这是第二名的解决方案的github地址：https://github.com/TingNie/CreditForecast

他们分享了一下主要模型的代码，我跑了一下也可以跑到0.75+，而我的模型当初是0.72+，仔细看一下其实并没有对特征做什么高级的处理，但是看了它们的对应论文，感觉人家的确是做了不少东西。

1，缺失值分析：没有直接将缺失值过分严重的删除，而是通过对比发现保留缺失值会更好。同时不影响模型的表现。

2，缺失值处理：对数值型缺失值没有直接填充，而死分析论证均值填充表现最好，此外，没有对所有数值型都填充，而是计算了填充前5,10,15。。。等的效果进行对比。对于类别特征中的缺失值，论证分析保留不变最好。

3，用户缺失信息特征分析：分析提到了按行按列的不同角度，此外直接显示缺失信息有问题，因此对缺失信息分段处理。

4，对于类别特征：没有必须one-hot，而是论证了不进行one-hot的好处。

5，数值rank特征：对数值进行排序，这个我以前没有试过，论文中说有助于提高鲁棒性，以后可以尝试一下。

此外作者还求了组合特征，构造类别，是否缺失特征，自编码特征，进行了很多尝试，并通过树模型进行筛选，可惜怎么做的没有代码体现。

6，特征选择：在特征选择时作者提出了一个选择流程，成为迭代特征选择，具体就是会加入新的特征和特征子集，从而判断这些特征子集作用，可惜没有这个框架代码。

7，数据划分：作者也想过通过划分group的不同分组进行尝试，后来发现效果不好，因此还是5折划分。

8，模型选择：作者最后给出的是lgb和xgb，但是作者也尝试了很多的模型，同时最后没有盲目进行stacking，因为可能会过拟合，最后提交了单模型。

9，auc思考：作者提出了一点，关于某个特征是否有用，不应该只看最后平均成绩是否提高，而应该看5折auc是否都有提高。

10，过拟合思考：作者尝试的很多操作都在线下提升，线上下降，作者总结是因为是数据量太小，而后排名的变化也体现这一点。简单稳定的模型很重要。

好，暂时写到这，最后仅也在做新的比赛没有思路了，希望通过整理之前的可以获得新的思路。