Kaggle比赛如何开始

1 kaggle简介

赛题分类方式一:

Featured:商业或科研难题,奖金一般较为丰厚

Recruitment:比赛的奖励为yi

Research:科研和学术性较强的比赛,也有一般需要较强的领域和专业知识

Playground:提供一些简单的任务用于熟悉平台和比赛

Getting Started:提供一些简单的任务用于熟悉平台和比赛

In Class:用于课堂项目作业或者考试

赛题分类方式二:

在线提交和离线提交

赛题分类方式三 :

数据分类:数据挖掘、图像、语音、自然语言

2 比赛通用流程

1)EDA数据分析

看数据长什么样,从数据的结构、分布来思考如何解决问题,用一些trip来弥补数据上的问题

2)特征工程

现在CV比赛较多,这部分就比较少

3)模型训练

选一个baseline,选一套模型框架来训练,训练的模型有很多trike,可能是训练时的,可能是构建时的

4)线下验证 

通过验证集分析BadCase为什么效果不好,找模型改进的方式

要多找工具复用来满足比赛的需求

3 数据样本分析:

训练集样本bbox分布。看没有bbox样本的数量,单样本量,分布是否符合正态分布。

部分样本存在超大bbox,两种解决方案,1把这部分的样本直接去除掉;2把这部分作为噪声保留,可能会提升泛化能力,至于哪种方案自己决定

4 Baseline思路介绍

1)基础数据增强(CV常用)

HSV通道颜色变换、亮度、对比度变换,水平翻转、垂直翻转,转灰度图,随机裁剪

2)进阶数据增强

Cutout:随机的将样本中的部分区域cut掉,并且填充0像素值,分类的结果不变,模拟被遮挡的效果,模仿了dropout的效果,随机丢弃一些神经元,随机丢弃一些像素

Cutmix:将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配

3)训练策略

K-fold训练

学习率策略:

ReduceLROnPlateau自适应调整学习率,当某指标不再变化(下降或升高),调整学习率

LambadLR:将每一个参数组的学习率设置为初始学习率lr的某个函数倍

猜你喜欢

转载自blog.csdn.net/qq_40016005/article/details/127723240
今日推荐