Kaggle比赛如何开始

1 kaggle简介

赛题分类方式一：

Featured：商业或科研难题，奖金一般较为丰厚

Recruitment：比赛的奖励为yi

Research：科研和学术性较强的比赛，也有一般需要较强的领域和专业知识

Playground：提供一些简单的任务用于熟悉平台和比赛

Getting Started：提供一些简单的任务用于熟悉平台和比赛

In Class：用于课堂项目作业或者考试

赛题分类方式二：

在线提交和离线提交

赛题分类方式三：

数据分类：数据挖掘、图像、语音、自然语言

2 比赛通用流程

1）EDA数据分析

看数据长什么样，从数据的结构、分布来思考如何解决问题，用一些trip来弥补数据上的问题

2）特征工程

现在CV比赛较多，这部分就比较少

3）模型训练

选一个baseline，选一套模型框架来训练，训练的模型有很多trike，可能是训练时的，可能是构建时的

4）线下验证

通过验证集分析BadCase为什么效果不好，找模型改进的方式

要多找工具复用来满足比赛的需求

3 数据样本分析：

训练集样本bbox分布。看没有bbox样本的数量，单样本量，分布是否符合正态分布。

部分样本存在超大bbox，两种解决方案，1把这部分的样本直接去除掉；2把这部分作为噪声保留，可能会提升泛化能力，至于哪种方案自己决定

4 Baseline思路介绍

1）基础数据增强（CV常用）

HSV通道颜色变换、亮度、对比度变换，水平翻转、垂直翻转，转灰度图，随机裁剪

2）进阶数据增强

Cutout：随机的将样本中的部分区域cut掉，并且填充0像素值，分类的结果不变，模拟被遮挡的效果，模仿了dropout的效果，随机丢弃一些神经元，随机丢弃一些像素

Cutmix：将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配

3）训练策略

K-fold训练

学习率策略：

ReduceLROnPlateau自适应调整学习率，当某指标不再变化（下降或升高），调整学习率

LambadLR：将每一个参数组的学习率设置为初始学习率lr的某个函数倍