kaggle笔记 2019数据科学碗Data Science Bowl 高分总结

文章目录


这次比赛的重点,在于过拟合问题和模型的泛化能力。
我就是疏忽了这一点,然后在Public leaderboard上是13名,然后最后成绩上,调到800多名。

7th总结

  • final models was an emsemble: 0.3LGB, 0.3 CATB, 0.4NN
  • 模型总类要多,这三种对于大数据最常见
  • 20 fold-bagging for all models, NN additionally averaging across 3 seeds
  • fold 数加多,我自己只使用了5 fold,然后NN使用3个随机种子,这样也能增加泛化能力
  • 这句话我对自己说:不要太注意public leaderboard的成绩,如果这个这个比赛的波动大。
  • 作者预测孩子智力的时候,参考了一个文献:On the Measure of Intelligence
    (1)经历。一个孩子在不同的活动所花费的时间。我猜测这个应该就建立了好几个特征。
    (2)准确度。孩子在他的准确率。
  • 作者做的特征筛选,从150个特征到50个特征。作者对会去掉一个特征,然后对比cv score,然后做150次
  • 然后去掉能带来小于0.0001进步的特征,作者将他们视为noise
  • 通过这次比赛,我发现,特征越多,基本上会使得本地分数提高,但是有的提高的很小,作者将这种当作noise
  • 模型越多,泛化能力越强,特征越多,很可能过拟合
  • NN模型使用了Attention层。
发布了47 篇原创文章 · 获赞 4 · 访问量 2267

猜你喜欢

转载自blog.csdn.net/qq_34107425/article/details/104081538