数据比赛整理:西南财经大学-新网银行杯数据科学竞赛

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xckkcxxck/article/details/84533862

比赛地址:http://www.dcjingsai.com/common/cmpt/%E8%A5%BF%E5%8D%97%E8%B4%A2%E7%BB%8F%E5%A4%A7%E5%AD%A6%E2%80%9C%E6%96%B0%E7%BD%91%E9%93%B6%E8%A1%8C%E6%9D%AF%E2%80%9D%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6%E7%AB%9E%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E5%9C%88.html

首先这个比赛我并没有认真完成,只用了lr模型写了个baseline,提交了有10次,之后就因为个人原因放弃了。现在比赛已经结束了,也有人在竞赛圈分享了自己的思路,我看了一下,对比自己为很么没有上分成功,因此做这么一个记录。

这是第二名的解决方案的github地址:https://github.com/TingNie/CreditForecast

他们分享了一下主要模型的代码,我跑了一下也可以跑到0.75+,而我的模型当初是0.72+,仔细看一下其实并没有对特征做什么高级的处理,但是看了它们的对应论文,感觉人家的确是做了不少东西。

1,缺失值分析: 没有直接将缺失值过分严重的删除,而是通过对比发现保留缺失值会更好。同时不影响模型的表现。

2,缺失值处理:对数值型缺失值没有直接填充,而死分析论证均值填充表现最好,此外,没有对所有数值型都填充,而是计算了填充前5,10,15。。。等的效果进行对比。对于类别特征中的缺失值,论证分析保留不变最好。

3,用户缺失信息特征分析:分析提到了按行按列的不同角度,此外直接显示缺失信息有问题,因此对缺失信息分段处理。

4,对于类别特征:没有必须one-hot,而是论证了不进行one-hot的好处。

5,数值rank特征:对数值进行排序,这个我以前没有试过,论文中说有助于提高鲁棒性,以后可以尝试一下。

此外作者还求了组合特征,构造类别,是否缺失特征,自编码特征,进行了很多尝试,并通过树模型进行筛选,可惜怎么做的没有代码体现。

6,特征选择:在特征选择时作者提出了一个选择流程,成为迭代特征选择,具体就是会加入新的特征和特征子集,从而判断这些特征子集作用,可惜没有这个框架代码。

7,数据划分:作者也想过通过划分group的不同分组进行尝试,后来发现效果不好,因此还是5折划分。

8,模型选择:作者最后给出的是lgb和xgb,但是作者也尝试了很多的模型,同时最后没有盲目进行stacking,因为可能会过拟合,最后提交了单模型。

9,auc思考:作者提出了一点,关于某个特征是否有用,不应该只看最后平均成绩是否提高,而应该看5折auc是否都有提高。

10,过拟合思考:作者尝试的很多操作都在线下提升,线上下降,作者总结是因为是数据量太小,而后排名的变化也体现这一点。简单稳定的模型很重要。

好,暂时写到这,最后仅也在做新的比赛没有思路了,希望通过整理之前的可以获得新的思路。

猜你喜欢

转载自blog.csdn.net/xckkcxxck/article/details/84533862