1 kaggle简介
赛题分类方式一:
Featured:商业或科研难题,奖金一般较为丰厚
Recruitment:比赛的奖励为yi
Research:科研和学术性较强的比赛,也有一般需要较强的领域和专业知识
Playground:提供一些简单的任务用于熟悉平台和比赛
Getting Started:提供一些简单的任务用于熟悉平台和比赛
In Class:用于课堂项目作业或者考试
赛题分类方式二:
在线提交和离线提交
赛题分类方式三 :
数据分类:数据挖掘、图像、语音、自然语言
2 比赛通用流程
1)EDA数据分析
看数据长什么样,从数据的结构、分布来思考如何解决问题,用一些trip来弥补数据上的问题
2)特征工程
现在CV比赛较多,这部分就比较少
3)模型训练
选一个baseline,选一套模型框架来训练,训练的模型有很多trike,可能是训练时的,可能是构建时的
4)线下验证
通过验证集分析BadCase为什么效果不好,找模型改进的方式
要多找工具复用来满足比赛的需求
3 数据样本分析:
训练集样本bbox分布。看没有bbox样本的数量,单样本量,分布是否符合正态分布。
部分样本存在超大bbox,两种解决方案,1把这部分的样本直接去除掉;2把这部分作为噪声保留,可能会提升泛化能力,至于哪种方案自己决定
4 Baseline思路介绍
1)基础数据增强(CV常用)
HSV通道颜色变换、亮度、对比度变换,水平翻转、垂直翻转,转灰度图,随机裁剪
2)进阶数据增强
Cutout:随机的将样本中的部分区域cut掉,并且填充0像素值,分类的结果不变,模拟被遮挡的效果,模仿了dropout的效果,随机丢弃一些神经元,随机丢弃一些像素
Cutmix:将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配
3)训练策略
K-fold训练
学习率策略:
ReduceLROnPlateau自适应调整学习率,当某指标不再变化(下降或升高),调整学习率
LambadLR:将每一个参数组的学习率设置为初始学习率lr的某个函数倍