数据挖掘竞赛的基本步骤

基本步骤:  

   *数据分析和可视化  (10%时间)

    *异常值和波动值处理,数据采样(也需要尝试)

     *feature是不断尝试的过程,最后自己能不能到 榜单主要靠的是特征,尝试各种特征,有些特征是起反效果的,要出去掉,之外就是加特征,各种加和各种尝试,在预处理数据之后,对数据特征的不断不断尝试(尝试特征效果)   (%40时间,   最后能不能占据排行榜,往往都是看加了多少有用的feature【不断思考加入新feature,排列组合】,反复尝试过程,    特征工程和模型是相互影响,对模型没多少用的feature【不相关】,要尝试去掉,看模型会不会有提升)

     *花时间尝试各种各样模型,把各种模型都调到最好的参数(使用网格搜索等手段,会点数学知识,防止自己盲目调参), 着作为以后融合的依据      (40%时间建立模型,根据数据特性找model,往往是多个队友都建立模型,  对model都不断进行调整)

     *最后是对各种模型进行排列组合。进行融合,这也是各种尝试。    (模型融合是导致最后排行榜波动的原因,最后的模型越来越复杂导致变量非常大,  还有模型的融合也是大家喜欢组队打比赛的原因,因为把不同队友的调到最好的model,  把model再进行各种排列组合, 这种排列组合也是需要各种尝试的,要花一定时间    ,可以看看天池的答辩,有的融合10个模型 stacking model)

     总结下来:  反反复复要做的是数据观察,  反反复复增增剪剪特征(需要领域知识和运气), 反复尝试各种各种模型(看论文、博客、别人比赛用的,以往类似的),模型各种形式的融合组合训练,   四大体力活,看各种论文,  很重要的是自己要进行各种各样的尝试,所以工程代码。

    

猜你喜欢

转载自blog.csdn.net/maqunfi/article/details/82219613
今日推荐