kaggle笔记 2019数据科学碗Data Science Bowl 高分总结

其他 2020-01-28 08:40:27 阅读次数: 0

文章目录

7th总结

这次比赛的重点，在于过拟合问题和模型的泛化能力。
我就是疏忽了这一点，然后在Public leaderboard上是13名，然后最后成绩上，调到800多名。

7th总结

final models was an emsemble: 0.3LGB, 0.3 CATB, 0.4NN
模型总类要多，这三种对于大数据最常见
20 fold-bagging for all models, NN additionally averaging across 3 seeds
fold 数加多，我自己只使用了5 fold，然后NN使用3个随机种子，这样也能增加泛化能力
这句话我对自己说：不要太注意public leaderboard的成绩，如果这个这个比赛的波动大。
作者预测孩子智力的时候，参考了一个文献：On the Measure of Intelligence
（1）经历。一个孩子在不同的活动所花费的时间。我猜测这个应该就建立了好几个特征。
（2）准确度。孩子在他的准确率。
作者做的特征筛选，从150个特征到50个特征。作者对会去掉一个特征，然后对比cv score，然后做150次
然后去掉能带来小于0.0001进步的特征，作者将他们视为noise
通过这次比赛，我发现，特征越多，基本上会使得本地分数提高，但是有的提高的很小，作者将这种当作noise
模型越多，泛化能力越强，特征越多，很可能过拟合
NN模型使用了Attention层。

发布了47 篇原创文章 · 获赞 4 · 访问量 2267

私信关注

猜你喜欢

转载自blog.csdn.net/qq_34107425/article/details/104081538

kaggle笔记 2019数据科学碗Data Science Bowl 高分总结

kaggle 2018 data science bowl 细胞核分割学习笔记

『 kaggle』kaggle-DATA-SCIENCE-BOWL-2018（U-net方法）

Kaggle——NFL Big Data Bowl

全卷积神经网路【U-net项目实战】U-Net网络练习题： Kaggle - 2018 Data Science Bowl

Kaggle Titanic Data Science Solutions

Python Data Science Cheat Sheet，数据科学总结

Data Science学习笔记1

笔记：Introduction to Data Science in Python

笔记：Python Data Science Toolbox (Part 1)

《Python for Data Science》笔记之着手于数据

Kaggle比赛系列：（6）Sklearn应用：data-science-london-scikit-learn

书籍：python数据科学傻瓜书 Python for Data Science For Dummies 2nd Edition - 2019

Data Science in Python

Python data science one

Data Science with Julia 2019.1

【Foundation of data science】Clustering

Lyft Data Science Assignment

Introduction to Data Science in Python

Data Science求职建议

SQL for Data Science - Notes

The Science of the Blockchain笔记（四）

The Science of the Blockchain笔记（三）

The Science of the Blockchain笔记（二）

The Science of the Blockchain笔记（一）

Mastering Spark for Data Science：通过spark进行数据科学

数据科学应用: 1. Data Science for Beginners: A Complete Intro

[比赛简介]Kaggle - LLM Science Exam

Data Science and Machine Learning Courses for 2019

AI / DATA SCIENCE / MACHINE LEARNING

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)