1 Kaggle の紹介
競争問題の分類 1:
注目: ビジネスまたは科学研究の問題の場合、ボーナスは通常より寛大です。
募集:競争の報酬はyiです
研究: 科学研究と学術大会では、一般的に、専門知識と専門知識が必要です。
プレイグラウンド: プラットフォームと競合に慣れるための簡単なタスクを提供します。
はじめに: プラットフォームとゲームに慣れるためのいくつかの簡単なタスクを提供します
授業中: 教室でのプロジェクト課題または試験用
分類方法 2:
オンライン提出とオフライン提出
分類方法 3:
データ分類: データマイニング、画像、音声、自然言語
2 競技の一般的な手順
1) EDAデータ解析
データがどのように見えるかを見て、データの構造と分布から問題を解決する方法を考え、いくつかのトリップを使用してデータの問題を補う
2) 機能エンジニアリング
現在、CV コンテストが増えていますが、この部分は少ないです。
3) モデルトレーニング
ベースラインを選択し、トレーニングするモデル フレームワークを選択します。トレーニング済みのモデルには、トレーニング中または構築中のトライクが多数あります。
4) オフライン検証
検証セットを通じてBadCase効果が良くない理由を分析し、モデルを改善する方法を見つける
ゲームのニーズを満たすために再利用するツールをさらに見つける
3 データサンプル分析:
トレーニング セットのサンプル bbox 配布。bbox なしのサンプル数、単一のサンプル サイズ、および分布が正規分布に従うかどうかを調べます。
一部のサンプルでは bbox が大きくなります. 2 つの解決策があります. 1. サンプルのこの部分を直接削除する. 2. この部分をノイズとして保持すると, 一般化能力が向上する可能性があります. どちらの解決策を決定するかについて
4 ベースラインのアイデアの紹介
1) 基本的なデータの強化 (一般的に CV で使用されます)
HSV チャネルの色変換、明るさ、コントラスト変換、水平反転、垂直反転、グレースケール変換、ランダム クロッピング
2) 高度なデータ強化
カットアウト: サンプル内のいくつかの領域をランダムに切り取り、それらを 0 ピクセル値で埋めます.分類の結果は変更されず、遮蔽の効果をシミュレートし、ドロップアウトの効果を模倣し、いくつかのニューロンをランダムに破棄し、いくつかのピクセルをランダムに破棄します.
Cutmix: 領域の一部を切り取るが 0 ピクセルを埋めるのではなく、トレーニング セット内の他のデータの領域ピクセル値をランダムに埋め、分類結果を一定の比率で分配する
3) トレーニング戦略
K倍トレーニング
学習率ポリシー:
ReduceLROnPlateau は学習率を適応的に調整し、指標が変化しなくなった場合 (減少または増加)、学習率を調整します。
LambadLR: 各パラメーター グループの学習率を初期学習率 lr の関数に設定します。