Kaggle コンペティションの開始方法

1 Kaggle の紹介

競争問題の分類 1:

注目: ビジネスまたは科学研究の問題の場合、ボーナスは通常より寛大です。

募集：競争の報酬はyiです

研究: 科学研究と学術大会では、一般的に、専門知識と専門知識が必要です。

プレイグラウンド: プラットフォームと競合に慣れるための簡単なタスクを提供します。

はじめに: プラットフォームとゲームに慣れるためのいくつかの簡単なタスクを提供します

授業中: 教室でのプロジェクト課題または試験用

分類方法 2:

オンライン提出とオフライン提出

分類方法 3:

データ分類: データマイニング、画像、音声、自然言語

2 競技の一般的な手順

1) EDAデータ解析

データがどのように見えるかを見て、データの構造と分布から問題を解決する方法を考え、いくつかのトリップを使用してデータの問題を補う

2) 機能エンジニアリング

現在、CV コンテストが増えていますが、この部分は少ないです。

3) モデルトレーニング

ベースラインを選択し、トレーニングするモデルフレームワークを選択します。トレーニング済みのモデルには、トレーニング中または構築中のトライクが多数あります。

4) オフライン検証

検証セットを通じてBadCase効果が良くない理由を分析し、モデルを改善する方法を見つける

ゲームのニーズを満たすために再利用するツールをさらに見つける

3 データサンプル分析:

トレーニングセットのサンプル bbox 配布。bbox なしのサンプル数、単一のサンプルサイズ、および分布が正規分布に従うかどうかを調べます。

一部のサンプルでは bbox が大きくなります. 2 つの解決策があります. 1. サンプルのこの部分を直接削除する. 2. この部分をノイズとして保持すると, 一般化能力が向上する可能性があります. どちらの解決策を決定するかについて

4 ベースラインのアイデアの紹介

1) 基本的なデータの強化 (一般的に CV で使用されます)

HSV チャネルの色変換、明るさ、コントラスト変換、水平反転、垂直反転、グレースケール変換、ランダムクロッピング

2) 高度なデータ強化

カットアウト: サンプル内のいくつかの領域をランダムに切り取り、それらを 0 ピクセル値で埋めます.分類の結果は変更されず、遮蔽の効果をシミュレートし、ドロップアウトの効果を模倣し、いくつかのニューロンをランダムに破棄し、いくつかのピクセルをランダムに破棄します.

Cutmix: 領域の一部を切り取るが 0 ピクセルを埋めるのではなく、トレーニングセット内の他のデータの領域ピクセル値をランダムに埋め、分類結果を一定の比率で分配する

3) トレーニング戦略

K倍トレーニング

学習率ポリシー:

ReduceLROnPlateau は学習率を適応的に調整し、指標が変化しなくなった場合 (減少または増加)、学習率を調整します。

LambadLR: 各パラメーターグループの学習率を初期学習率 lr の関数に設定します。